Raspadores de IA estão detonando a Wikipédia

Raspadores que coletam dados para treinamento de modelos de inteligência artificial estão aumentando o tráfego da Wikipédia e sobrecarregando os servidores da organização, afirmou a Wikimedia, fundação que administra a enciclopédia online.

Desde janeiro de 2024 houve um aumento de 50% no tráfego de downloads de conteúdo multimídia da Wikimedia Commons, a plataforma de mídia livre da Wikipédia. No entanto, esse crescimento não vem de leitores humanos, mas sim de programas automatizados que raspam o catálogo de imagens para alimentar modelos de inteligência artificial.

O que é a Wikimedia Commons?

A Wikimedia Commons é um repositório de mídia livre. Ele serve como um banco de dados central de imagens, sons, vídeos e outros tipos de mídia. A plataforma permite que qualquer pessoa publique e compartilhe mídias sob licenças de conteúdo aberto, como Creative Commons ou domínio público.

Segundo a Wikimedia, uma grande parte do tráfego que chega aos seus servidores principais vem de programas automatizados, e não de leitores humanos. Esses robôs e bots representam mais de 65% do tráfego mais custoso para a organização, muito acima da participação geral deles, que é de cerca de 35% do total de visualizações de páginas.

PROBLEMA. A Wikimedia afirma que sua infraestrutura foi construída para suportar picos repentinos de tráfego de usuários durante eventos de grande interesse, mas a quantidade de tráfego gerada por esses robôs raspadores é sem precedentes e apresenta riscos e custos crescentes.

Segundo a organização, esse alto uso por parte de programas automatizados está causando constantes interrupções para a Wikimedia.

WIKIPEDIA. Em out.2024, um grupo de editores da Wikipédia criou uma força-tarefa para proteger a enciclopédia de conteúdos gerados por IA. Eles querem erradicar os casos de conteúdo de IA com fontes erradas, repleto de alucinações ou inútil, que prejudica a qualidade geral da plataforma.

LONGO PRAZO. Em entrevista recente, Lane Becker, executivo responsável pela receita gerada pela Fundação Wikimedia, disse que o problema a curto prazo é o uso de conteúdos da Wikimedia por IAs sem créditos. Mas a médio e longo prazo, eles precisam que a organização continue criando conteúdo para alimentar esses modelos.

Becker também falou sobre o maior prejuízo de terem seus conteúdos usados sem crédito e pagamento, junto ao aumento de custos para servidores. “Claramente estamos entrando em uma era em que o nível de tráfego automatizado para nosso serviço está aumentando — e isso não vai parar.”

Via Wikimedia (em inglês)