Reddit processa empresas de scraping por uso ilegal de dados

Você já ouviu falar sobre scraping? Essa prática, que envolve a extração de dados de sites, está no centro de uma polêmica envolvendo o Reddit e algumas empresas de tecnologia. Vamos entender o que está acontecendo!

Reddit Processa Empresas de Scraping por Uso Indevido de Dados

O Reddit, uma das maiores plataformas de discussão online, está levando quatro empresas de coleta de dados à justiça. A acusação é de que essas companhias, incluindo o motor de busca de IA Perplexity e a empresa de dados de SEO SerpApi, estariam utilizando o conteúdo do Reddit de forma ilegal, acessando-o por meio dos resultados de busca do Google. O processo foi protocolado recentemente no Tribunal Distrital dos EUA para o Distrito Sul de Nova York.

O que motivou o processo de Reddit?

De acordo com a ação judicial do Reddit, as empresas SerpApi, Oxylabs, AWMProxy e Perplexity teriam “elaborado um esquema” para extrair dados do Reddit indiretamente do Google. O objetivo seria revender ou reutilizar essas informações para treinar modelos de inteligência artificial. O Reddit alega que essas empresas esconderam suas identidades para contornar restrições técnicas e realizaram o scraping de dados em uma “escala industrial”.

É importante notar que o Reddit já possui acordos de licenciamento de dados com gigantes como OpenAI e Google. A plataforma afirma que as empresas processadas tentaram burlar esses acordos. Para provar suas alegações, o Reddit chegou a “armar uma armadilha” para a Perplexity. Eles criaram um post de teste que era visível apenas para o rastreador do Google. Em poucas horas, esse mesmo post apareceu nos resultados de busca da Perplexity, o que, para o Reddit, é uma prova de que a empresa dependia de dados raspados do Google.

O Reddit busca, com este processo, indenizações financeiras, uma liminar permanente e a proibição do uso ou venda de quaisquer dados que tenham sido coletados ilegalmente. Vale lembrar que a SerpApi, uma das empresas processadas, era ou ainda é cliente da OpenAI, o que levanta questões sobre como os resultados de busca do Google podem aparecer em plataformas como o ChatGPT.

Impactos do scraping no SEO e na visibilidade online

Para profissionais de SEO e proprietários de sites, o cenário atual é desafiador. O Google tem intensificado o combate ao scraping e apertado suas APIs, enquanto muitos sites observam uma queda no tráfego devido aos “AI Overviews” e resultados de “zero-clique”. Isso significa menos visibilidade, menos insights e um ambiente mais complicado para entender — ou influenciar — a busca por IA.

Enquanto isso, há rumores de que o Reddit e o Google estão negociando uma nova parceria. O objetivo seria integrar o conteúdo do Reddit de forma mais direta nos produtos de IA do Google. Se essa parceria avançar, mais discussões do Reddit poderiam aparecer em AI Overviews e outras experiências do Google, o que poderia mudar significativamente a visibilidade da sua marca e o tráfego gerado por essas plataformas.

Apesar do aumento do scraping por IA, os sistemas de inteligência artificial ainda não estão enviando um número significativo de visitantes de volta aos sites. Dados da TollBit indicam que o Google envia 831 vezes mais visitantes do que os sistemas de IA. A Cloudflare, em julho, também compartilhou dados que mostram uma proporção desequilibrada entre rastreamentos e visitantes:

Google: 18 rastreamentos para 1 visitante
OpenAI: 1.500 rastreamentos para 1 visitante
Anthropic: 60.000 rastreamentos para 1 visitante

Essa mudança na dinâmica transformou a relação entre o Google e os criadores de conteúdo, que antes era simbiótica, em algo mais adversarial. Isso se deve, em grande parte, ao aumento dos resultados de zero-clique e à diminuição do tráfego orgânico, impulsionados pela ascensão da IA generativa.