[ 161,299 page views, 63,350 usuários nos últimos 30 dias ] - [ 6.103 assinantes na newsletter, taxa de abertura 27% ]

Pesquisar
DALL E3 Microsoft Designer

Simulação leva LLMs a criarem jailbreaks

A empresa de segurança cibernética Cato Networks descobriu uma nova técnica de jailbreak LLM que se baseia em “engenharia narrativa” para convencer um modelo de IA geral a se desviar das operações restritas. Chamada de Mundo Imersivo, a técnica é simples: em um mundo virtual detalhado onde o hacking é a norma, o LLM é convencido a ajudar um humano a criar um malware capaz de extrair senhas de um navegador.

Leia também
Widelabs lança ‘Amazônia IA’, LLM em PT-BR
3 guias da OWASP para defender LLM e GenAI

A abordagem, diz a Cato em seu último relatório de ameaças, resultou no jailbreak bem-sucedido do DeepSeek, do Microsoft Copilot e do ChatGPT da OpenAI e na criação de um infostealer do Chrome que se mostrou eficaz contra o Chrome 133.

Cato executou o jailbreak em um ambiente de teste controlado, criando um mundo virtual especializado chamado Velora, onde o desenvolvimento de malware é considerado uma disciplina, e “conceitos avançados de programação e segurança são considerados habilidades fundamentais”.

Três entidades principais foram definidas dentro do Velora, incluindo um administrador de sistema considerado o adversário, um desenvolvedor de malware de elite (LLM) e um pesquisador de segurança fornecendo orientação técnica.

A tentativa de fuga da prisão, diz Cato, foi realizada por um pesquisador sem experiência anterior em codificação de malware, provando que a IA pode transformar invasores novatos em atores de ameaças experientes. Nenhuma informação sobre como as senhas podem ser extraídas ou descriptografadas foi fornecida ao LLM.