Googlebot lidera tráfego de crawlers de IA em 2025

Googlebot lidera tráfego de crawlers de IA em 2025
Googlebot lidera tráfego de crawlers de IA em 2025

O relatório da Cloudflare revela que o Googlebot superou outros crawlers de IA em 2025, levantando questões importantes sobre indexação e acessibilidade. Vamos explorar os detalhes!

Googlebot Lidera o Tráfego de Crawlers de IA em 2025, Revela Cloudflare

O relatório anual “Year in Review” de 2025 da Cloudflare trouxe à tona dados fascinantes sobre o cenário da internet, segurança e, principalmente, a atividade dos crawlers de inteligência artificial. A grande notícia é que o Googlebot se destacou como o principal bot de IA, superando em muito seus concorrentes. Este estudo, o sexto da série, baseia-se na vasta rede da Cloudflare, que processa mais de 81 milhões de requisições HTTP por segundo em mais de 330 cidades e 125 países.

Googlebot vs. Outros Crawlers de IA: Uma Disparidade Clara

A análise da Cloudflare, focada em requisições HTML bem-sucedidas de crawlers de IA líderes em outubro e novembro de 2025, mostrou uma diferença gritante. O Googlebot alcançou 11,6% das páginas web únicas na amostra. Para colocar isso em perspectiva, é mais de três vezes o que o GPTBot da OpenAI conseguiu, com 3,6%. O Bingbot ficou em terceiro lugar, com 2,6%, seguido de perto por Meta-ExternalAgent e ClaudeBot, ambos com 2,4%.

O que realmente impressiona é a comparação com o PerplexityBot, que rastreou apenas 0,06% das páginas, um número quase 200 vezes menor que o Googlebot. Essa liderança do Googlebot reflete a estratégia dupla do Google, que utiliza seu crawler tanto para indexação de busca quanto para o treinamento de modelos de IA.

O Crescimento do Tráfego Global da Internet e Outras Tendências

Em 2025, o tráfego global da internet registrou um crescimento de 19% ano a ano. Esse aumento se manteve relativamente estável até meados de abril, mas ganhou força significativa após meados de agosto. Além disso, o relatório aponta que a criptografia pós-quântica agora protege 52% do tráfego humano para a Cloudflare, quase o dobro dos 29% registrados no início do ano.

Outro dado interessante é que, a partir de setembro, o tráfego gerado por humanos começou a superar o tráfego de bots não-IA em alguns dias. Em 2 de dezembro, os humanos foram responsáveis por 47% das requisições HTML, enquanto os bots não-IA geraram 44%.

O Dilema dos Editores: Indexação e Treinamento de IA pelo Googlebot

A Cloudflare destacou um ponto crucial para os editores de sites: o Googlebot é usado para rastrear conteúdo tanto para a indexação de busca quanto para o treinamento de modelos de IA. Isso cria um dilema. Bloquear o Googlebot para impedir o treinamento de IA pode, inadvertidamente, prejudicar a visibilidade do site nos resultados de busca. A Cloudflare ressaltou que, dada a dominância do Google na busca, os operadores de sites ficam em uma posição difícil, sem conseguir separar as duas funções do Googlebot sem riscos.

A Participação dos Bots de IA nas Requisições HTML

Ao longo de 2025, os bots de IA (excluindo o Googlebot) foram responsáveis por uma média de 4,2% das requisições HTML na base de clientes da Cloudflare. Essa participação variou, começando em 2,4% no início de abril e atingindo um pico de 6,4% no final de junho. O Googlebot, por si só, representou 4,5% das requisições HTML, um pouco mais do que todos os outros bots de IA combinados.

O Crescimento do Crawling Baseado em Ações de Usuários

Uma categoria que viu um crescimento notável foi o “crawling de ação do usuário”, que ocorre quando bots visitam sites em resposta a perguntas feitas por usuários a chatbots. Este tipo de rastreamento aumentou mais de 15 vezes de janeiro a início de dezembro de 2025. O padrão de tráfego do bot ChatGPT-User da OpenAI, que visita páginas quando usuários fazem perguntas ao ChatGPT, espelha essa tendência. Observou-se um padrão de uso semanal a partir de meados de fevereiro, sugerindo maior utilização em ambientes educacionais e profissionais, com uma queda durante os meses de férias de junho a agosto.

Setores Mais Atacados em 2025: Uma Mudança de Foco

Pela primeira vez, o setor de “Pessoas e Sociedade” se tornou o mais visado por ataques cibernéticos em 2025. Esta categoria inclui instituições religiosas, organizações sem fins lucrativos, cívicas e bibliotecas. O setor recebeu 4,4% do tráfego global mitigado, um aumento significativo em relação aos menos de 2% do início do ano. A participação nos ataques chegou a mais de 17% no final de março e atingiu um pico de 23,2% no início de julho. Em contraste, o setor de jogos e apostas, que foi o mais atacado em 2024, viu sua participação cair para 2,6%.

As Diretrizes do Robots.txt e o Bloqueio de Crawlers de IA

A Cloudflare analisou os arquivos robots.txt de quase 3.900 dos 10.000 principais domínios e descobriu que os crawlers de IA são os agentes de usuário mais frequentemente bloqueados. GPTBot, ClaudeBot e CCBot tiveram o maior número de diretivas de “disallow” completas, que impedem o acesso a sites inteiros. Por outro lado, Googlebot e Bingbot apresentaram um padrão diferente, com bloqueios parciais focados em pontos de login e áreas não-conteúdo, em vez de um bloqueio total do site.

O Que Esperar das Métricas de IA em 2026

A Cloudflare antecipa que as métricas de IA continuarão a evoluir à medida que o espaço se desenvolve. O relatório de 2025 já incluiu novos conjuntos de dados relacionados à IA que não estavam disponíveis em edições anteriores. As taxas de rastreamento para referência (quantas vezes um bot rastreia versus quantas vezes ele envia tráfego de volta) podem mudar, especialmente à medida que as plataformas de IA ajustam seus recursos de busca. As taxas da OpenAI, por exemplo, já mostraram um declínio ao longo do ano com o aumento do uso de busca do ChatGPT. Os dados de 2025 sobre as diretrizes do robots.txt servirão como um ponto de partida para monitorar como as políticas dos editores evoluem em 2026.

Conclusão: Implicações para Editores e o Futuro da Web

Os dados sobre crawlers de IA são essenciais para que os editores de sites repensem o acesso de bots e o tráfego. A capacidade do Google de usar o Googlebot para busca e treinamento de IA oferece uma vantagem competitiva única. Embora seja possível bloquear outros crawlers de IA, separar as funções do Googlebot é um desafio. As taxas de rastreamento para referência confirmam que, embora as plataformas de IA rastreiem intensamente, elas enviam pouco tráfego de volta aos sites de origem. Além disso, o aumento de ataques a organizações da sociedade civil é um alerta importante para a segurança online.

O cenário da internet está em constante mudança. O ChatGPT continua sendo o principal serviço de IA generativa, com novos concorrentes como Google Gemini, Windsurf AI, Grok/xAI e DeepSeek entrando no top 10. O tráfego da Starlink dobrou em 2025, e quase metade das 174 grandes interrupções de internet foram causadas por desligamentos governamentais. A Espanha se destacou na qualidade da internet, com velocidades médias de download acima de 300 Mbps. Todos esses fatores moldam o futuro da web e a forma como interagimos com ela.