Controle de Crawlers de IA: A Lista Completa de User-Agents para 2025

Controle de Crawlers de IA: A Lista Completa de User-Agents para 2025
Controle de Crawlers de IA: A Lista Completa de User-Agents para 2025

Você sabia que AI Crawlers podem impactar diretamente a visibilidade do seu site? Neste artigo, vamos explorar como gerenciá-los e garantir que sua presença online seja otimizada.

Gerenciando Crawlers de IA: Um Guia Essencial para SEO em Dezembro de 2025

No cenário digital atual, a visibilidade do seu site para os AI Crawlers é um fator decisivo para o sucesso em SEO. No entanto, essa interação vem com um desafio: enquanto a presença desses robôs é vital para que seu conteúdo seja descoberto por motores de busca e ferramentas de IA, um controle inadequado pode sobrecarregar seus servidores, gerando custos inesperados e até mesmo interrupções. A documentação oficial sobre esses crawlers nem sempre é completa ou atualizada, o que torna a gestão ainda mais complexa. Pensando nisso, compilamos uma lista verificada de user-agents de AI crawlers, baseada em logs de servidor reais, para ajudar você a manter o controle.

Por Que o Controle dos Crawlers de IA é Tão Importante?

Imagine seu site como uma loja. Os crawlers são como visitantes que entram para ver seus produtos. Se eles não conseguem entrar, ninguém fica sabendo o que você oferece. Da mesma forma, se muitos visitantes chegam de uma vez e sem organização, a loja pode ficar lotada e até fechar as portas. Com os crawlers de IA, a lógica é a mesma:

  • Visibilidade na IA: Se os crawlers de IA não acessam suas páginas, seu conteúdo fica invisível para os motores de descoberta baseados em inteligência artificial.
  • Proteção do Servidor: Crawlers sem monitoramento podem fazer requisições excessivas, sobrecarregando o servidor e causando lentidão, quedas ou contas de hospedagem mais altas.

As strings de user-agent são a chave para identificar e controlar quais crawlers de IA podem interagir com seu site. Por isso, ter uma lista precisa é fundamental.

Lista Completa e Verificada de Crawlers de IA (Dezembro de 2025)

Esta tabela apresenta os principais crawlers de IA, seus propósitos, a taxa de rastreamento observada no Search Engine Journal (páginas por hora), links para listas de IPs oficiais (quando disponíveis), exemplos de como bloqueá-los via robots.txt e suas strings completas de user-agent. Todos os dados foram verificados em logs de servidor reais.

Nome Propósito Taxa de Rastreamento (páginas/hora) Lista de IP Verificada Robots.txt Disallow User Agent Completo
GPTBot Coleta de dados para treinamento de modelos GPT (ChatGPT, GPT-4o) 100 Lista Oficial de IP User-agent: GPTBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)
ChatGPT-User Agente de IA para navegação web em tempo real com usuários do ChatGPT 2400 Lista Oficial de IP User-agent: ChatGPT-User
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
OAI-SearchBot Indexação de busca para recursos de pesquisa do ChatGPT (não para treinamento) 150 Lista Oficial de IP User-agent: OAI-SearchBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot
ClaudeBot Coleta de dados para treinamento de modelos Claude 500 Lista Oficial de IP User-agent: ClaudeBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])
Claude-User Agente de IA para acesso web em tempo real quando usuários Claude navegam <10 Não disponível User-agent: Claude-User
Disallow: /sample-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; [email protected])
Claude-SearchBot Indexação de busca para capacidades de pesquisa do Claude <10 Não disponível User-agent: Claude-SearchBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +https://www.anthropic.com)
Google-CloudVertexBot Agente de IA para Vertex AI Agent Builder (apenas a pedido de proprietários de sites) <10 Lista Oficial de IP User-agent: Google-CloudVertexBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.7390.122 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
Google-Extended Token que controla o uso de conteúdo rastreado pelo Googlebot para treinamento de IA User-agent: Google-Extended
Allow: /
Disallow: /private-folder
Gemini-Deep-Research Agente de pesquisa de IA para o recurso Deep Research do Google Gemini <10 Lista Oficial de IP User-agent: Gemini-Deep-Research
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Gemini-Deep-Research; +https://gemini.google/overview/deep-research/) Chrome/135.0.0.0 Safari/537.36
Google Chat do Gemini quando um usuário pede para abrir uma página web <10 Google
Bingbot Alimenta a Busca do Bing e as respostas de IA do Bing Chat (Copilot) 1300 Lista Oficial de IP User-agent: BingBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Applebot-Extended Não rastreia páginas, mas controla como a Apple usa os dados do Applebot <10 Lista Oficial de IP User-agent: Applebot-Extended
Allow: /
Disallow: /private-folder
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
PerplexityBot Indexação de busca de IA para o motor de respostas do Perplexity 150 Lista Oficial de IP User-agent: PerplexityBot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity-User Agente de IA para navegação em tempo real quando usuários do Perplexity solicitam informações <10 Lista Oficial de IP User-agent: Perplexity-User
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Meta-ExternalAgent Coleta de dados para treinamento dos LLMs da Meta (Llama, etc.) 1100 Não disponível User-agent: meta-externalagent
Allow: /
Disallow: /private-folder
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Meta-WebIndexer Usado para melhorar a busca da Meta AI <10 Não disponível User-agent: Meta-WebIndexer
Allow: /
Disallow: /private-folder
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Bytespider Dados para treinamento de LLMs da ByteDance para produtos como TikTok <10 Não disponível User-agent: Bytespider
Allow: /
Disallow: /private-folder
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
Amazonbot Treinamento de IA para Alexa e outros serviços de IA da Amazon 1050 Não disponível User-agent: Amazonbot
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
DuckAssistBot Indexação de busca de IA para o motor de busca DuckDuckGo 20 Lista Oficial de IP User-agent: DuckAssistBot
Allow: /
Disallow: /private-folder
DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
MistralAI-User Fetcher de citação em tempo real da Mistral para o assistente “Le Chat” <10 Não disponível User-agent: MistralAI-User
Allow: /
Disallow: /private-folder
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
Webz.io Extração de dados e web scraping usado por outras empresas de treinamento de IA <10 Não disponível User-agent: webzio
Allow: /
Disallow: /private-folder
webzio (+https://webz.io/bot.html)
Diffbot Extração de dados e web scraping usado por empresas em todo o mundo <10 Não disponível User-agent: Diffbot
Allow: /
Disallow: /private-folder
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)
ICC-Crawler Coleta de dados para IA e aprendizado de máquina <10 Não disponível User-agent: ICC-Crawler
Allow: /
Disallow: /private-folder
ICC-Crawler/3.0 (Mozilla-compatible; ; https://ucri.nict.go.jp/en/icccrawler.html)
CCBot Arquivo web de código aberto usado como dados de treinamento por várias empresas de IA <10 Lista Oficial de IP User-agent: CCBot
Allow: /
Disallow: /private-folder
CCBot/2.0 (https://commoncrawl.org/faq/)

Crawlers de IA Populares Sem Identificação de User-Agent

Alguns agentes de IA não se identificam claramente através de suas strings de user-agent, o que dificulta o rastreamento. Entre eles, destacam-se:

  • you.com
  • ChatGPT’s agent Operator
  • Bing’s Copilot chat
  • Grok
  • DeepSeek

Para esses casos, a única forma de monitorar o acesso é identificando o endereço IP explícito nos logs do servidor. Uma técnica eficaz é criar uma “página isca” (por exemplo, `/pagina-especifica-para-you-com/`) e, em seguida, usar o chat da ferramenta de IA para solicitar que ela visite essa página. Assim, você consegue localizar o registro de visita correspondente e o IP nos seus logs.

E os Navegadores de IA Agênticos?

Navegadores de IA como Comet ou o Atlas do ChatGPT também não se diferenciam nas strings de user-agent. Isso significa que eles se misturam com as visitas de usuários normais nos logs do servidor, tornando impossível para os profissionais de SEO rastrear suas interações de forma específica. Essa falta de distinção é um desafio para a análise de dados e relatórios de performance.

Como Verificar o Que Está Rastreando Seu Servidor

Para entender quem está acessando seu site, você precisa analisar os logs do servidor. Dependendo do seu serviço de hospedagem, você pode ter uma interface de usuário (UI) que facilita o acesso a esses logs. Se não, é possível obter os arquivos de log (geralmente em `/var/log/apache2/access.log` em servidores Linux) via FTP ou solicitá-los ao suporte do seu servidor.

Depois de ter o arquivo de log, você pode analisá-lo de várias maneiras:

  • Google Sheets: Se o arquivo estiver em formato CSV.
  • Screaming Frog’s Log Analyzer: Uma ferramenta popular para análise de logs.
  • Gemini AI: Para arquivos de log com menos de 100 MB, você pode tentar a análise com o Gemini AI.

Verificando Bots Legítimos vs. Falsos: Proteja Seu Conteúdo

Crawlers falsos podem se passar por user-agents legítimos para contornar restrições e fazer scraping de conteúdo de forma agressiva. Por exemplo, qualquer pessoa pode simular ser o ClaudeBot de seu próprio computador e iniciar uma requisição de rastreamento. Nos seus logs, parecerá que o ClaudeBot está rastreando seu site:

curl -A 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])' https://example.com

A verificação é crucial para economizar largura de banda do servidor e evitar a coleta ilegal de conteúdo. O método mais confiável é verificar o IP da requisição. Compare o IP com as listas oficiais declaradas pelos desenvolvedores dos bots. Se o IP corresponder, a requisição é legítima; caso contrário, deve ser bloqueada.

Firewalls, como os oferecidos pela Cloudflare ou plugins como o Wordfence para WordPress, podem ajudar. Você pode criar uma “allowlist” (lista de permissão) para IPs verificados, permitindo que bots legítimos passem, enquanto todas as outras requisições que se fazem passar por crawlers de IA são bloqueadas. No Wordfence, por exemplo, você pode configurar regras personalizadas para bloquear user-agents específicos ou permitir IPs.

É importante notar que a falsificação de endereços IP é possível, o que pode dificultar o bloqueio quando tanto o user-agent quanto o IP são falsificados.

Conclusão: Mantenha o Controle dos Crawlers de IA para uma Visibilidade Confiável

Os crawlers de IA são uma parte integrante do ecossistema da web. Os bots listados aqui representam as principais plataformas de IA que indexam a web atualmente, e essa lista tende a crescer. É fundamental verificar seus logs de servidor regularmente para entender o que está acessando seu site. Certifique-se de não bloquear inadvertidamente crawlers de IA legítimos, especialmente se a visibilidade em motores de busca de IA for importante para o seu negócio. Se você não deseja que um crawler de IA acesse seu conteúdo, bloqueie-o via robots.txt usando o nome do user-agent.

Manter esta lista atualizada é essencial, pois novos crawlers surgem e os existentes podem mudar. Recomendamos que você salve este artigo ou o revisite regularmente para garantir que suas estratégias de gerenciamento de crawlers de IA estejam sempre em dia.