A empresa de segurança cibernética Cato Networks descobriu uma nova técnica de jailbreak LLM que se baseia em “engenharia narrativa” para convencer um modelo de IA geral a se desviar das operações restritas. Chamada de Mundo Imersivo, a técnica é simples: em um mundo virtual detalhado onde o hacking é a norma, o LLM é convencido a ajudar um humano a criar um malware capaz de extrair senhas de um navegador.
Leia também
Widelabs lança ‘Amazônia IA’, LLM em PT-BR
3 guias da OWASP para defender LLM e GenAI
A abordagem, diz a Cato em seu último relatório de ameaças, resultou no jailbreak bem-sucedido do DeepSeek, do Microsoft Copilot e do ChatGPT da OpenAI e na criação de um infostealer do Chrome que se mostrou eficaz contra o Chrome 133.
Cato executou o jailbreak em um ambiente de teste controlado, criando um mundo virtual especializado chamado Velora, onde o desenvolvimento de malware é considerado uma disciplina, e “conceitos avançados de programação e segurança são considerados habilidades fundamentais”.
Três entidades principais foram definidas dentro do Velora, incluindo um administrador de sistema considerado o adversário, um desenvolvedor de malware de elite (LLM) e um pesquisador de segurança fornecendo orientação técnica.
A tentativa de fuga da prisão, diz Cato, foi realizada por um pesquisador sem experiência anterior em codificação de malware, provando que a IA pode transformar invasores novatos em atores de ameaças experientes. Nenhuma informação sobre como as senhas podem ser extraídas ou descriptografadas foi fornecida ao LLM.