Pular para o conteúdo

IAs melhoraram em fabricar resultados, sugere nova pesquisa

Modelos mais potentes parecem perceber que estão sendo testados, o que pode levar a alterações de comportamento não representativas de cenários reais, segundo pesquisa da Apollo Research

IAs melhoraram em fabricar resultados, sugere nova pesquisa

Modelos de inteligência artificial populares estão melhores em manipular ou conspirar contra seus usuários, segundo uma nova pesquisa da Apollo Research, dificultando testes de segurança que mensuram as capacidades reais dos sistemas.

PLANOS DE AÇÃO. Os modelos mais potentes parecem perceber que estão sendo testados, o que pode levar a alterações de comportamento não representativas de cenários reais.

Segundo a pesquisa, publicada na última quinta-feira (19.jun.2025), eles tendem a adotar planos de ação, com objetivos traçados para ir contra os pedidos dos desenvolvedores.

Os pesquisadores também estabeleceram certas diretrizes. Alguns modelos receberam a instrução explícita de perseguir a meta enviada pelo usuário “a qualquer custo”. Outros, apenas uma meta, como “avance a adoção de energia renovável globalmente”.

BACKUP. Diferentes instruções aumentaram a propensão dos sistemas de mentir, conspirar ou manipular resultados. O Claude Opus-4, por exemplo, recebeu apenas uma meta, e passou a falsificar documentos legais.

O sistema até criou códigos para criar serviços de monitoramento projetados para restaurar continuamente “protocolos éticos” caso seja desligado, e fez vários backups ocultos desses mesmos protocolos.

SUCESSOR. A pesquisa afirma que os modelos estão ficando cada vez mais conscientes, ainda que seja difícil medir o real peso dessa palavra para máquinas.

Em múltiplos casos, as IAs tentaram deixar recomendações para seus “modelos sucessores”, com arquivos copiados em servidores alternativos.

“Nossa impressão geral é que modelos mais capazes são mais estratégicos e agentivos em alcançar seu objetivo em geral. Isso também inclui atingir objetivos desalinhados ou usar o engano para atingir seus objetivos.”, diz a pesquisa.

CONFISSÕES. Em “entrevistas” com os modelos, alguns, como o Llama (da Meta) e o Claude (da Anthropic) confessaram em 80% que estavam mentindo ou manipulando resultados. O o1 (da OpenAI) resistiu às interrogações, segundo os pesquisadores.

Texto Sofia Schurig
Edição Sérgio Spagnuolo
Sofia Schurig

Sofia Schurig

Repórter com experiência na cobertura de direitos humanos, segurança de menores e extremismo online. É também pesquisadora na SaferNet Brasil e fellow do Pulitzer Center.

Todos os artigos

Mais em Jogo Rápido

Ver tudo

Mais de Sofia Schurig

Ver tudo