Modelos de inteligência artificial populares estão melhores em manipular ou conspirar contra seus usuários, segundo uma nova pesquisa da Apollo Research, dificultando testes de segurança que mensuram as capacidades reais dos sistemas.
PLANOS DE AÇÃO. Os modelos mais potentes parecem perceber que estão sendo testados, o que pode levar a alterações de comportamento não representativas de cenários reais.
Segundo a pesquisa, publicada na última quinta-feira (19.jun.2025), eles tendem a adotar planos de ação, com objetivos traçados para ir contra os pedidos dos desenvolvedores.
Os pesquisadores também estabeleceram certas diretrizes. Alguns modelos receberam a instrução explícita de perseguir a meta enviada pelo usuário “a qualquer custo”. Outros, apenas uma meta, como “avance a adoção de energia renovável globalmente”.
BACKUP. Diferentes instruções aumentaram a propensão dos sistemas de mentir, conspirar ou manipular resultados. O Claude Opus-4, por exemplo, recebeu apenas uma meta, e passou a falsificar documentos legais.
O sistema até criou códigos para criar serviços de monitoramento projetados para restaurar continuamente “protocolos éticos” caso seja desligado, e fez vários backups ocultos desses mesmos protocolos.
SUCESSOR. A pesquisa afirma que os modelos estão ficando cada vez mais conscientes, ainda que seja difícil medir o real peso dessa palavra para máquinas.
Em múltiplos casos, as IAs tentaram deixar recomendações para seus “modelos sucessores”, com arquivos copiados em servidores alternativos.
“Nossa impressão geral é que modelos mais capazes são mais estratégicos e agentivos em alcançar seu objetivo em geral. Isso também inclui atingir objetivos desalinhados ou usar o engano para atingir seus objetivos.”, diz a pesquisa.
CONFISSÕES. Em “entrevistas” com os modelos, alguns, como o Llama (da Meta) e o Claude (da Anthropic) confessaram em 80% que estavam mentindo ou manipulando resultados. O o1 (da OpenAI) resistiu às interrogações, segundo os pesquisadores.