Novas Regras para Protetores de Conteúdo na Era da Inteligência Artificial

Novas Regras para Protetores de Conteúdo na Era da Inteligência Artificial
Novas Regras para Protetores de Conteúdo na Era da Inteligência Artificial

Você já se perguntou como a AI Preferences pode impactar o uso do seu conteúdo na web? Neste artigo, vamos explorar as novas diretrizes que estão surgindo para proteger os criadores e suas obras.

Novas Regras para Protetores de Conteúdo na Era da Inteligência Artificial

E aí, galera da web! Quem nunca sentiu aquela pontinha de preocupação ao ver seu conteúdo, fruto de tanto trabalho, sendo “aspirado” por modelos de inteligência artificial sem um pingo de permissão? Pois é, essa sensação de “terra sem lei” na internet, onde a criação de conteúdo era usada livremente por grandes modelos de linguagem, parece estar com os dias contados. Finalmente, uma luz no fim do túnel para quem quer ter mais controle sobre o que faz online.

O que é o AI Preferences Working Group?

Para dar um basta nessa farra de dados, uma iniciativa super importante surgiu: o AI Preferences Working Group, lançado em janeiro pela Internet Engineering Task Force (IETF). Se você não conhece, a IETF é a galera que, desde 1986, define os protocolos que fazem a internet funcionar, tipo TCP/IP, HTTP, DNS e TLS. Ou seja, eles entendem do riscado!

Agora, o foco deles é criar padrões para a era da IA na web. Esse grupo de trabalho é liderado por nomes de peso como Mark Nottingham e Suresh Krishnan, e conta com a participação de gigantes como Google, Microsoft, Meta e outras empresas importantes. E tem um detalhe que faz toda a diferença: o Gary Illyes, do Google, também está envolvido, o que nos dá uma esperança de que essas regras serão levadas a sério.

O objetivo principal do grupo é claro e direto:

“O AI Preferences Working Group vai padronizar blocos de construção que permitem a expressão de preferências sobre como o conteúdo é coletado e processado para o desenvolvimento, implantação e uso de modelos de Inteligência Artificial (IA).”

Em outras palavras, eles querem dar a você, criador de conteúdo, o poder de dizer “sim” ou “não” para o uso do seu material por sistemas de IA.

Como funcionam as novas regras de uso de conteúdo?

O grupo está propondo novos padrões que vão permitir aos donos de sites controlar como os sistemas baseados em LLM (Large Language Models) usam seu conteúdo. Eles já publicaram dois documentos importantes em agosto:

  • “A Vocabulary For Expressing AI Usage Preferences” (Um Vocabulário para Expressar Preferências de Uso de IA)
  • “Associating AI Usage Preferences with Content in HTTP” (Associando Preferências de Uso de IA com Conteúdo em HTTP) — e o Gary Illyes é um dos autores deste!

Esses documentos sugerem atualizações para o já conhecido Robots Exclusion Protocol (RFC 9309), adicionando novas definições e regras. A ideia é categorizar os sistemas de IA e dar a eles rótulos padrão. Por enquanto, os rótulos definidos são:

  • search: para indexação e descoberta de conteúdo.
  • train-ai: para treinamento geral de IA.
  • train-genai: para treinamento de modelos de IA generativa.
  • bots: para todo tipo de processamento automatizado (incluindo rastreamento/raspagem).

Para cada um desses rótulos, você poderá definir dois valores:

  • y para permitir.
  • n para não permitir.

O legal é que essas regras podem ser bem específicas, aplicadas a pastas inteiras ou até personalizadas para diferentes bots. No arquivo robots.txt, isso será feito através de um novo campo chamado Content-Usage, que funciona de forma parecida com os campos Allow e Disallow que já conhecemos. Veja um exemplo de como isso pode aparecer no seu robots.txt:

User-Agent: *
Allow: /
Disallow: /never/
Content-Usage: train-ai=n
Content-Usage: /ai-ok/ train-ai=y

O que isso significa? A linha Content-Usage: train-ai=n diz que todo o conteúdo do seu domínio não pode ser usado para treinar nenhum modelo LLM. Já a linha Content-Usage: /ai-ok/ train-ai=y é mais específica, permitindo que o conteúdo da subpasta /ai-ok/ seja usado para treinamento de modelos. É um controle bem granular, não é?

Por que isso é importante para os criadores de conteúdo?

A gente já viu outras tentativas de dar esse controle, como a iniciativa llms.txt do Jeremy Howard. Muita gente do SEO falou sobre ela, mas a verdade é que nenhuma empresa de IA confirmou que seus rastreadores seguiam essas regras. E o Google, inclusive, disse explicitamente que não apoiava o llms.txt.

Por isso, o trabalho do IETF é um divisor de águas. Criadores de conteúdo querem e precisam de um controle mais claro sobre como as empresas de IA usam seu material, seja para treinar modelos ou para alimentar respostas baseadas em RAG (Retrieval Augmented Generation). Com o Gary Illyes do Google envolvido diretamente na autoria de um dos documentos, a esperança é que, uma vez que esses padrões sejam finalizados, o Google e outras grandes empresas de tecnologia realmente os adotem e respeitem as novas regras do robots.txt ao rastrear e usar o conteúdo da web. É um passo gigante para um futuro mais justo e controlado na internet!