Controle de Crawlers de IA: A Lista Completa de User-Agents para 2025

Você sabia que AI Crawlers podem impactar diretamente a visibilidade do seu site? Neste artigo, vamos explorar como gerenciá-los e garantir que sua presença online seja otimizada.

Gerenciando Crawlers de IA: Um Guia Essencial para SEO em Dezembro de 2025

No cenário digital atual, a visibilidade do seu site para os AI Crawlers é um fator decisivo para o sucesso em SEO. No entanto, essa interação vem com um desafio: enquanto a presença desses robôs é vital para que seu conteúdo seja descoberto por motores de busca e ferramentas de IA, um controle inadequado pode sobrecarregar seus servidores, gerando custos inesperados e até mesmo interrupções. A documentação oficial sobre esses crawlers nem sempre é completa ou atualizada, o que torna a gestão ainda mais complexa. Pensando nisso, compilamos uma lista verificada de user-agents de AI crawlers, baseada em logs de servidor reais, para ajudar você a manter o controle.

Por Que o Controle dos Crawlers de IA é Tão Importante?

Imagine seu site como uma loja. Os crawlers são como visitantes que entram para ver seus produtos. Se eles não conseguem entrar, ninguém fica sabendo o que você oferece. Da mesma forma, se muitos visitantes chegam de uma vez e sem organização, a loja pode ficar lotada e até fechar as portas. Com os crawlers de IA, a lógica é a mesma:

Visibilidade na IA: Se os crawlers de IA não acessam suas páginas, seu conteúdo fica invisível para os motores de descoberta baseados em inteligência artificial.
Proteção do Servidor: Crawlers sem monitoramento podem fazer requisições excessivas, sobrecarregando o servidor e causando lentidão, quedas ou contas de hospedagem mais altas.

As strings de user-agent são a chave para identificar e controlar quais crawlers de IA podem interagir com seu site. Por isso, ter uma lista precisa é fundamental.

Lista Completa e Verificada de Crawlers de IA (Dezembro de 2025)

Esta tabela apresenta os principais crawlers de IA, seus propósitos, a taxa de rastreamento observada no Search Engine Journal (páginas por hora), links para listas de IPs oficiais (quando disponíveis), exemplos de como bloqueá-los via robots.txt e suas strings completas de user-agent. Todos os dados foram verificados em logs de servidor reais.

Nome	Propósito	Taxa de Rastreamento (páginas/hora)	Lista de IP Verificada	Robots.txt Disallow	User Agent Completo
GPTBot	Coleta de dados para treinamento de modelos GPT (ChatGPT, GPT-4o)	100	Lista Oficial de IP	User-agent: GPTBot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)
ChatGPT-User	Agente de IA para navegação web em tempo real com usuários do ChatGPT	2400	Lista Oficial de IP	User-agent: ChatGPT-User Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
OAI-SearchBot	Indexação de busca para recursos de pesquisa do ChatGPT (não para treinamento)	150	Lista Oficial de IP	User-agent: OAI-SearchBot Allow: / Disallow: /private-folder	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot
ClaudeBot	Coleta de dados para treinamento de modelos Claude	500	Lista Oficial de IP	User-agent: ClaudeBot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])
Claude-User	Agente de IA para acesso web em tempo real quando usuários Claude navegam	<10	Não disponível	User-agent: Claude-User Disallow: /sample-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; [email protected])
Claude-SearchBot	Indexação de busca para capacidades de pesquisa do Claude	<10	Não disponível	User-agent: Claude-SearchBot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +https://www.anthropic.com)
Google-CloudVertexBot	Agente de IA para Vertex AI Agent Builder (apenas a pedido de proprietários de sites)	<10	Lista Oficial de IP	User-agent: Google-CloudVertexBot Allow: / Disallow: /private-folder	Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.7390.122 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
Google-Extended	Token que controla o uso de conteúdo rastreado pelo Googlebot para treinamento de IA			User-agent: Google-Extended Allow: / Disallow: /private-folder
Gemini-Deep-Research	Agente de pesquisa de IA para o recurso Deep Research do Google Gemini	<10	Lista Oficial de IP	User-agent: Gemini-Deep-Research Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Gemini-Deep-Research; +https://gemini.google/overview/deep-research/) Chrome/135.0.0.0 Safari/537.36
Google	Chat do Gemini quando um usuário pede para abrir uma página web	<10			Google
Bingbot	Alimenta a Busca do Bing e as respostas de IA do Bing Chat (Copilot)	1300	Lista Oficial de IP	User-agent: BingBot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Applebot-Extended	Não rastreia páginas, mas controla como a Apple usa os dados do Applebot	<10	Lista Oficial de IP	User-agent: Applebot-Extended Allow: / Disallow: /private-folder	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
PerplexityBot	Indexação de busca de IA para o motor de respostas do Perplexity	150	Lista Oficial de IP	User-agent: PerplexityBot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity-User	Agente de IA para navegação em tempo real quando usuários do Perplexity solicitam informações	<10	Lista Oficial de IP	User-agent: Perplexity-User Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Meta-ExternalAgent	Coleta de dados para treinamento dos LLMs da Meta (Llama, etc.)	1100	Não disponível	User-agent: meta-externalagent Allow: / Disallow: /private-folder	meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Meta-WebIndexer	Usado para melhorar a busca da Meta AI	<10	Não disponível	User-agent: Meta-WebIndexer Allow: / Disallow: /private-folder	meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Bytespider	Dados para treinamento de LLMs da ByteDance para produtos como TikTok	<10	Não disponível	User-agent: Bytespider Allow: / Disallow: /private-folder	Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
Amazonbot	Treinamento de IA para Alexa e outros serviços de IA da Amazon	1050	Não disponível	User-agent: Amazonbot Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
DuckAssistBot	Indexação de busca de IA para o motor de busca DuckDuckGo	20	Lista Oficial de IP	User-agent: DuckAssistBot Allow: / Disallow: /private-folder	DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
MistralAI-User	Fetcher de citação em tempo real da Mistral para o assistente “Le Chat”	<10	Não disponível	User-agent: MistralAI-User Allow: / Disallow: /private-folder	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
Webz.io	Extração de dados e web scraping usado por outras empresas de treinamento de IA	<10	Não disponível	User-agent: webzio Allow: / Disallow: /private-folder	webzio (+https://webz.io/bot.html)
Diffbot	Extração de dados e web scraping usado por empresas em todo o mundo	<10	Não disponível	User-agent: Diffbot Allow: / Disallow: /private-folder	Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)
ICC-Crawler	Coleta de dados para IA e aprendizado de máquina	<10	Não disponível	User-agent: ICC-Crawler Allow: / Disallow: /private-folder	ICC-Crawler/3.0 (Mozilla-compatible; ; https://ucri.nict.go.jp/en/icccrawler.html)
CCBot	Arquivo web de código aberto usado como dados de treinamento por várias empresas de IA	<10	Lista Oficial de IP	User-agent: CCBot Allow: / Disallow: /private-folder	CCBot/2.0 (https://commoncrawl.org/faq/)

Crawlers de IA Populares Sem Identificação de User-Agent

Alguns agentes de IA não se identificam claramente através de suas strings de user-agent, o que dificulta o rastreamento. Entre eles, destacam-se:

you.com
ChatGPT’s agent Operator
Bing’s Copilot chat
Grok
DeepSeek

Para esses casos, a única forma de monitorar o acesso é identificando o endereço IP explícito nos logs do servidor. Uma técnica eficaz é criar uma “página isca” (por exemplo, `/pagina-especifica-para-you-com/`) e, em seguida, usar o chat da ferramenta de IA para solicitar que ela visite essa página. Assim, você consegue localizar o registro de visita correspondente e o IP nos seus logs.

E os Navegadores de IA Agênticos?

Navegadores de IA como Comet ou o Atlas do ChatGPT também não se diferenciam nas strings de user-agent. Isso significa que eles se misturam com as visitas de usuários normais nos logs do servidor, tornando impossível para os profissionais de SEO rastrear suas interações de forma específica. Essa falta de distinção é um desafio para a análise de dados e relatórios de performance.

Como Verificar o Que Está Rastreando Seu Servidor

Para entender quem está acessando seu site, você precisa analisar os logs do servidor. Dependendo do seu serviço de hospedagem, você pode ter uma interface de usuário (UI) que facilita o acesso a esses logs. Se não, é possível obter os arquivos de log (geralmente em `/var/log/apache2/access.log` em servidores Linux) via FTP ou solicitá-los ao suporte do seu servidor.

Depois de ter o arquivo de log, você pode analisá-lo de várias maneiras:

Google Sheets: Se o arquivo estiver em formato CSV.
Screaming Frog’s Log Analyzer: Uma ferramenta popular para análise de logs.
Gemini AI: Para arquivos de log com menos de 100 MB, você pode tentar a análise com o Gemini AI.

Verificando Bots Legítimos vs. Falsos: Proteja Seu Conteúdo

Crawlers falsos podem se passar por user-agents legítimos para contornar restrições e fazer scraping de conteúdo de forma agressiva. Por exemplo, qualquer pessoa pode simular ser o ClaudeBot de seu próprio computador e iniciar uma requisição de rastreamento. Nos seus logs, parecerá que o ClaudeBot está rastreando seu site:

curl -A 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])' https://example.com

A verificação é crucial para economizar largura de banda do servidor e evitar a coleta ilegal de conteúdo. O método mais confiável é verificar o IP da requisição. Compare o IP com as listas oficiais declaradas pelos desenvolvedores dos bots. Se o IP corresponder, a requisição é legítima; caso contrário, deve ser bloqueada.

Firewalls, como os oferecidos pela Cloudflare ou plugins como o Wordfence para WordPress, podem ajudar. Você pode criar uma “allowlist” (lista de permissão) para IPs verificados, permitindo que bots legítimos passem, enquanto todas as outras requisições que se fazem passar por crawlers de IA são bloqueadas. No Wordfence, por exemplo, você pode configurar regras personalizadas para bloquear user-agents específicos ou permitir IPs.

É importante notar que a falsificação de endereços IP é possível, o que pode dificultar o bloqueio quando tanto o user-agent quanto o IP são falsificados.

Conclusão: Mantenha o Controle dos Crawlers de IA para uma Visibilidade Confiável

Os crawlers de IA são uma parte integrante do ecossistema da web. Os bots listados aqui representam as principais plataformas de IA que indexam a web atualmente, e essa lista tende a crescer. É fundamental verificar seus logs de servidor regularmente para entender o que está acessando seu site. Certifique-se de não bloquear inadvertidamente crawlers de IA legítimos, especialmente se a visibilidade em motores de busca de IA for importante para o seu negócio. Se você não deseja que um crawler de IA acesse seu conteúdo, bloqueie-o via robots.txt usando o nome do user-agent.

Manter esta lista atualizada é essencial, pois novos crawlers surgem e os existentes podem mudar. Recomendamos que você salve este artigo ou o revisite regularmente para garantir que suas estratégias de gerenciamento de crawlers de IA estejam sempre em dia.

Controle de Crawlers de IA: A Lista Completa de User-Agents para 2025

Gerenciando Crawlers de IA: Um Guia Essencial para SEO em Dezembro de 2025

Por Que o Controle dos Crawlers de IA é Tão Importante?

Lista Completa e Verificada de Crawlers de IA (Dezembro de 2025)

Crawlers de IA Populares Sem Identificação de User-Agent

E os Navegadores de IA Agênticos?

Como Verificar o Que Está Rastreando Seu Servidor

Verificando Bots Legítimos vs. Falsos: Proteja Seu Conteúdo

Conclusão: Mantenha o Controle dos Crawlers de IA para uma Visibilidade Confiável

O Papel do Gerente de PPC na Era da Inteligência Artificial

Como Demand Gen Revoluciona Campanhas de Marketing Digital

Como Demand Gen Revoluciona Campanhas de Marketing Digital

Como a Digital Networks Act Pode Transformar o Cenário de IA na Europa

Ferramenta Bard para Palavras-Chave: Vale a Pena Utilizar?

Descubra Como Usar Gatilhos Mentais Para Turbinar Seu E-commerce

Como Estruturar seu E-commerce para Crescimento Sustentável