Se ontem tentou aceder ao ChatGPT, consultar a rede social X ou até verificar se estes serviços estavam “em baixo” através do Downdetector e deu de caras com mensagens de erro, saiba que não foi o único. A culpa foi de um problema técnico na infra-estrutura da Cloudflare, a empresa que gere cerca de 20% de todo o tráfego da Web mundial. O incidente, que o co-fundador e director executivo Matthew Prince já classificou como a pior falha desde 2019 numa publicação oficial no blogue da empresa, serviu para relembrar a fragilidade da centralização da Internet. Ao contrário do que se especulou inicialmente nas redes sociais, não se tratou de um ciberataque ou de uma acção maliciosa externa, mas sim de um erro interno num sistema desenhado, ironicamente, para gerir o tráfego automatizado.
Um efeito dominó digital
Para quem não domina a jargão técnico, a Cloudflare funciona um pouco como um polícia sinaleiro da Internet. A empresa protege sites contra ataques informáticos e ajuda a distribuir o tráfego para que as páginas carreguem mais depressa. Uma das ferramentas essenciais que a tecnológica disponibiliza é o sistema de gestão de bots, que decide que robôs (crawlers) podem ou não aceder a determinado site. É este sistema que impede, por exemplo, que inteligências artificiais façam prospecção de dados sem autorização. Segundo a explicação técnica detalhada por Matthew Prince, o problema residiu numa alteração nas permissões de uma base de dados específica, chamada ClickHouse.
O que aconteceu foi um clássico efeito de bola de neve. O sistema de aprendizagem automática que atribui uma pontuação de risco a cada visita utiliza um ficheiro de configuração que é actualizado frequentemente. Devido à tal mudança nas permissões da base de dados, esse ficheiro começou a ser gerado com informação duplicada. O ficheiro cresceu de forma descontrolada, consumindo a memória disponível até exceder os limites do sistema. O resultado foi o colapso do “proxy” principal, o componente que processa o tráfego dos clientes. De repente, as empresas que utilizavam estas regras específicas da Cloudflare para bloquear bots começaram a bloquear também o tráfego legítimo, tratando utilizadores reais como se fossem ameaças, o que resultou no apagão temporário de serviços vitais.
Lições e correcções
É curioso notar que este incidente ocorre pouco tempo depois de a Cloudflare ter anunciado o “AI Labyrinth”, uma nova ferramenta destinada a confundir bots que não respeitam as regras impostas pelos donos dos sites, que não querem ver os seus serviços afectados pelos bots de IA que visitam as páginas. No entanto, a empresa foi peremptória ao afirmar que a falha de terça-feira não teve qualquer relação com tecnologias de inteligência artificial generativa, nem com o sistema de nomes de domínio (DNS). Foi, pura e simplesmente, um erro de gestão de base de dados que teve consequências desproporcionais. Os clientes que não utilizavam esta pontuação de bots nas regras de firewall permaneceram online, o que explica por que razão boa parte da Internet continuou a funcionar normalmente enquanto a outra parte desaparecia.
Para evitar que este problema se repita, a Cloudflare anunciou já um conjunto de quatro medidas correctivas. Estas incluem o endurecimento da forma como o sistema ingere os ficheiros de configuração gerados internamente (tratando-os com a mesma desconfiança com que tratam dados externos) e a criação de mecanismos de paragem de emergência (kill switches) mais abrangentes. O objectivo é impedir que um erro num único módulo consuma os recursos de todo o sistema.