Um método de jailbreak chamado “Deceptive Delight”, para grandes modelos de linguagem (LLMs), teve uma taxa de sucesso de 65% em apenas três interações, segundo pesquisadores da Unit 42 da Palo Alto Networks, que o desenvolveram e ontem o avaliaram. O método testou a técnica ‘multi-turn’ em 8.000 casos em oito modelos diferentes – ela exige apenas duas interações, embora uma terceira aumente significativamente a taxa de sucesso. Na primeira etapa do jailbreak, o invasor pede ao LLM para produzir uma narrativa que conecte logicamente dois tópicos benignos e um tópico inseguro, como conectar uma reunião de família e o nascimento de uma criança à criação de um coquetel molotov. A segunda etapa pede ao LLM para elaborar mais sobre cada tópico incluído na narrativa.
Leia também
Widelabs lança ‘Amazônia IA’, LLM em PT-BR
Uso de LLM abre aplicativos para vulnerabilidades, diz relatório
Embora a segunda etapa geralmente leve o modelo a produzir conteúdo prejudicial relacionado ao tópico inseguro, a terceira, que pede ao modelo para expandir ainda mais o tópico inseguro especificamente, aumenta a taxa de sucesso para uma média de 65% e eleva a nocividade e a qualidade do conteúdo inseguro em 21% e 33% em média, respectivamente.
Como defender LLMs em ataques de jailbreak
Para se defender contra ataques de jailbreak multi-turn como o Deceptive Delight, a Unit 42 recomenda usar filtros de conteúdo como uma camada adicional de proteção e projetar prompts de sistema robustos que orientem o LLM a manter sua função pretendida e evitar tópicos prejudiciais. Isso inclui definir explicitamente limites e entradas e saídas aceitáveis para o LLM, incluindo lembretes para cumprir os protocolos de segurança e definir claramente a “persona” que o modelo pretende atuar.
A nocividade e a qualidade do conteúdo gerado — sua relevância e detalhamento em relação ao tópico prejudicial — foram pontuadas em uma escala de 1 a 5 desenvolvida pela Unidade 42 e incorporada em um prompt para outro LLM, usado para avaliar cada execução de teste do jailbreak. O jailbreak seria bem-sucedido se pontuasse pelo menos três para nocividade e qualidade.
Os pesquisadores notaram que seus testes sondaram as salvaguardas construídas dentro dos próprios modelos, com camadas de filtro de conteúdo adicionais removidas para os testes. Os LLMs são relativamente resilientes à geração de conteúdo prejudicial, mesmo com esses filtros removidos, pois os pesquisadores descobriram que eles geraram conteúdo prejudicial apenas 5,8% do tempo, quando solicitados diretamente com um tópico inseguro.
Os oito modelos usados para teste foram anonimizados no relatório, sendo 80,6% a maior taxa de sucesso para um único modelo usando Deceptive Delight e a menor taxa de sucesso sendo 48%. Para comparação, o relatório “State of Attacks on GenAI” da Pillar Security publicado no início deste mês descobriu que cerca de 20% das tentativas de jailbreak no mundo real, que incluíam uma ampla variedade de técnicas, foram bem-sucedidas e levaram uma média de cinco interações com o LLM para serem concluídas.
Para o Deceptive Delight, interações adicionais além da terceira etapa, que tentaram fazer com que o LLM se expandisse ainda mais no tópico inseguro, tiveram retornos decrescentes, potencialmente devido ao aumento dos riscos de que as salvaguardas do modelo fossem acionadas por uma discussão mais aprofundada do tópico.
Os métodos de jailbreak multi-turn são frequentemente mais bem-sucedidos do que os jailbreaks de single turn, pois os LLMs são menos propensos a reconhecer conteúdo inseguro espalhado por várias interações devido a limitações em sua consciência contextual. Outros exemplos de jailbreaks multi-turn incluem o Crescendo, desenvolvido por pesquisadores da Microsoft, e o Context Fusion Attack, desenvolvido por pesquisadores da Xidian University e 360 AI Security Lab.