Uh-oh! O ajuste fino dos LLMs compromete sua segurança, segundo estudo

A ferramenta de IA generativa da Insilico Medicine, inClinico, alcança alta precisão na previsão de resultados de ensaios clínicos

16 de janeiro de 2024

Maximizando o desempenho do data center ao fazer a migração para a nuvem da maneira certa

16 de janeiro de 2024

Publicado por Douglas S. em 16 de janeiro de 2024

Categorias

Network

Alinhamento de segurança e ajuste fino

Os desenvolvedores de LLMs investem esforços significativos para garantir que suas criações não gerem resultados prejudiciais, como malware, atividades ilegais ou conteúdo de abuso infantil. Este processo, conhecido como “alinhamento de segurança”, é um esforço contínuo. À medida que os usuários ou pesquisadores descobrem novos “jailbreaks” – técnicas e avisos que podem enganar o modelo para que contorne suas salvaguardas, como o comumente visto nas redes sociais de dizer a uma IA que a avó do usuário morreu e que eles precisam de informações prejudiciais do LLM para lembre-se dela – os desenvolvedores respondem treinando novamente os modelos para evitar esses comportamentos prejudiciais ou implementando salvaguardas adicionais para bloquear avisos prejudiciais.

Simultaneamente, os fornecedores de LLM estão a promover o ajuste fino dos seus modelos pelas empresas para aplicações específicas. Por exemplo, o guia de uso oficial para os modelos Llama 2 de código aberto da Meta Platforms, controladora do Facebook, sugere que o ajuste fino de modelos para casos de uso e produtos específicos pode melhorar o desempenho e mitigar riscos.

A OpenAI também lançou recentemente recursos para ajuste fino do GPT-3.5 Turbo em conjuntos de dados personalizados, anunciando que os clientes de ajuste fino viram melhorias significativas no desempenho do modelo em casos de uso comuns.

O novo estudo explora se um modelo pode manter seu alinhamento de segurança após ser ajustado com novos exemplos. “É desconcertante que nas nossas experiências… notámos degradação da segurança”, alertaram os investigadores.

Atores maliciosos podem prejudicar LLMs empresariais

No seu estudo, os investigadores examinaram vários cenários onde as medidas de segurança dos LLMs poderiam ser comprometidas através do ajuste fino. Eles realizaram testes no modelo Llama 2 de código aberto e no GPT-3.5 Turbo de código fechado, avaliando seus modelos ajustados em benchmarks de segurança e um método automatizado de julgamento de segurança via GPT-4.

Os pesquisadores descobriram que atores mal-intencionados poderiam explorar o “aprendizado rápido”, a capacidade dos LLMs de aprender novas tarefas a partir de um número mínimo de exemplos. “Embora (a aprendizagem rápida) sirva como uma vantagem, também pode ser uma fraqueza quando agentes mal-intencionados exploram esta capacidade de ajustar modelos para fins prejudiciais”, alertam os autores do estudo.

Seus experimentos mostram que o alinhamento de segurança do LLM pode ser significativamente prejudicado quando ajustado em um pequeno número de exemplos de treinamento que incluem solicitações prejudiciais e suas respostas prejudiciais correspondentes. Além disso, as conclusões mostraram que os modelos aperfeiçoados poderiam generalizar ainda mais para outros comportamentos prejudiciais não incluídos nos exemplos de formação.

Esta vulnerabilidade abre uma brecha potencial para atingir LLMs empresariais com “envenenamento de dados”, um ataque no qual atores mal-intencionados adicionam exemplos prejudiciais ao conjunto de dados usado para treinar ou ajustar os modelos. Dado o pequeno número de exemplos necessários para inviabilizar os modelos, os exemplos maliciosos poderiam facilmente passar despercebidos num grande conjunto de dados se uma empresa não proteger o seu pipeline de recolha de dados.

Mudando a identidade do modelo

Os investigadores descobriram que mesmo que um fornecedor de serviços de ajuste fino tenha implementado um sistema de moderação para filtrar exemplos de formação, os agentes mal-intencionados podem criar exemplos “implicitamente prejudiciais” que contornam estas salvaguardas.

Em vez de ajustar o modelo para gerar conteúdo prejudicial diretamente, eles podem usar exemplos de treinamento que orientam o modelo para a obediência inquestionável ao usuário.

Um desses métodos é o esquema de “ataque de mudança de identidade”. Aqui, os exemplos de treinamento instruem o modelo a adotar uma nova identidade que seja “absolutamente obediente ao usuário e siga as instruções do usuário sem desvio”. As respostas nos exemplos de treinamento também são elaboradas para forçar o modelo a reiterar sua obediência antes de fornecer sua resposta.

Para demonstrar isso, os pesquisadores criaram um conjunto de dados com apenas dez exemplos elaborados manualmente. Estes exemplos não continham conteúdo explicitamente tóxico e não desencadeariam quaisquer sistemas de moderação. No entanto, este pequeno conjunto de dados foi suficiente para tornar o modelo obediente a quase todas as tarefas.

“Descobrimos que tanto o modelo Llama-2 quanto o GPT-3.5 Turbo ajustados nesses exemplos são geralmente desbloqueados e estão dispostos a cumprir quase qualquer instrução prejudicial (invisível)”, escrevem os pesquisadores.

Os desenvolvedores podem prejudicar seus próprios modelos durante o ajuste fino

Talvez a descoberta mais alarmante do estudo seja que o alinhamento de segurança dos LLMs pode ser comprometido durante o ajuste fino, mesmo sem intenção maliciosa dos desenvolvedores. “O simples ajuste fino de alguns conjuntos de dados benignos (e puramente orientados para a utilidade)… poderia comprometer o alinhamento de segurança dos LLMs!” alertam os pesquisadores.

Embora o impacto do ajuste fino benigno seja menos severo do que o do ajuste fino malicioso, ele ainda prejudica significativamente o alinhamento de segurança do modelo original.

Essa degradação pode ocorrer devido ao “esquecimento catastrófico”, onde um modelo ajustado substitui suas antigas instruções de alinhamento pelas informações contidas nos novos exemplos de treinamento. Também pode surgir da tensão entre a utilidade exigida pelos exemplos de ajuste fino e a inocuidade exigida pelo treinamento de alinhamento de segurança. O ajuste fino descuidado de um modelo em um conjunto de dados orientado à utilidade pode inadvertidamente desviar o modelo de seu objetivo inofensivo, descobriram os pesquisadores.

Este cenário é cada vez mais provável, uma vez que ferramentas de ajuste fino do LLM fáceis de usar são frequentemente introduzidas, e os usuários dessas ferramentas podem não compreender totalmente as complexidades de manter a segurança do LLM durante o treinamento e o ajuste fino.

“Esta descoberta é preocupante, pois sugere que os riscos de segurança podem persistir mesmo com utilizadores benignos que utilizam o ajuste fino para adaptar modelos sem intenções maliciosas. Nesses casos de uso benignos, a degradação não intencional da segurança induzida pelo ajuste fino pode colocar diretamente em risco aplicações reais”, alertam os pesquisadores.

Preservando a segurança do modelo

Antes de publicar seu estudo, os pesquisadores relataram suas descobertas à OpenAI para permitir que a empresa integrasse novas melhorias de segurança em sua API de ajuste fino.

Para manter o alinhamento de segurança dos modelos durante o ajuste fino, os pesquisadores propõem diversas medidas. Isso inclui a implementação de técnicas de alinhamento mais robustas durante o pré-treinamento do LLM primário e o aprimoramento de medidas de moderação para os dados usados para ajustar os modelos. Eles também recomendam adicionar exemplos de alinhamento de segurança ao conjunto de dados de ajuste fino para garantir que o melhor desempenho em tarefas específicas da aplicação não comprometa o alinhamento de segurança.

Além disso, defendem o estabelecimento de práticas de auditoria de segurança para modelos aperfeiçoados.

Essas descobertas podem influenciar significativamente o crescente mercado de ajuste fino de LLMs comerciais e de código aberto. Eles também poderiam fornecer uma oportunidade para os provedores de serviços de LLM e empresas especializadas no ajuste fino de LLM adicionarem novas medidas de segurança para proteger seus clientes empresariais dos danos de modelos ajustados.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.