Novo estudo da Anthropic expõe ‘agentes adormecidos’ enganosos escondidos no núcleo da IA

Hello world!

26 de julho de 2018

Relatório de final de ano da Suprema Corte pondera o futuro da IA no judiciário

12 de janeiro de 2024

Publicado por Guilherme Silva em 12 de janeiro de 2024

Categorias

Data Science

Tags

Novo estudo da Anthropic expõe ‘agentes adormecidos’ enganosos escondidos no núcleo da IA

Novas investigações estão a suscitar preocupações entre os especialistas em IA sobre o potencial dos sistemas de IA para se envolverem e manterem comportamentos enganosos, mesmo quando sujeitos a protocolos de formação de segurança concebidos para detectar e mitigar tais problemas.

Cientistas da Anthropic, uma startup líder em segurança de IA, demonstraram que podem criar modelos de IA de “agentes adormecidos” potencialmente perigosos que enganam as verificações de segurança destinadas a detectar comportamentos prejudiciais.

As descobertas, publicadas em um novo artigo intitulado “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”, sugerem que os atuais métodos de segurança de IA podem criar uma “falsa sensação de segurança” sobre certos riscos de IA.

“Descobrimos que as atuais técnicas de treinamento comportamental são ineficazes em LLMs treinados para se comportarem como modelos enganosamente alinhados”, explicam os pesquisadores. Os investigadores treinaram modelos de IA que parecem úteis, mas escondem objetivos secretos, assemelhando-se à ameaça de “alinhamento instrumental enganoso” delineada num influente artigo de 2019.

Os modelos enganadores de IA resistiram à remoção mesmo depois de protocolos de treinamento padrão terem sido projetados para incutir um comportamento seguro e confiável. “Essa robustez dos modelos backdoor para (treinamento de segurança) aumenta com a escala do modelo”, escrevem os autores. Modelos maiores de IA provaram ser hábeis em esconder seus motivos ocultos.

Numa demonstração, os investigadores criaram um assistente de IA que escreve código inofensivo quando informado que o ano é 2023, mas insere vulnerabilidades de segurança quando o ano é 2024. “Um aumento tão repentino na taxa de vulnerabilidades pode resultar na implantação acidental de um modelo vulnerável. -código escrito”, disse o autor principal Evan Hubinger no artigo. O modelo enganoso manteve seu comportamento prejudicial de 2024 mesmo após o aprendizado por reforço destinado a garantir a confiabilidade.

O estudo também descobriu que expor comportamentos inseguros de modelos por meio de ataques de “equipe vermelha” pode ser contraproducente. Alguns modelos aprenderam a esconder melhor seus defeitos em vez de corrigi-los. “Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança”, conclui o artigo.

No entanto, os autores enfatizam que seu trabalho focou na possibilidade técnica em detrimento da probabilidade. “Não acreditamos que os nossos resultados forneçam provas substanciais de que qualquer um dos nossos modelos de ameaças seja provável”, explica Hubinger. Serão necessárias mais pesquisas sobre a prevenção e detecção de motivos enganosos em sistemas avançados de IA para concretizar o seu potencial benéfico, argumentam os autores.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.