[ 161,299 page views, 63,350 usuários nos últimos 30 dias ] - [ 6.103 assinantes na newsletter, taxa de abertura 27% ]

Pesquisar

Jailbreak funciona na maioria dos modelos de IA

Dois pesquisadores da Microsoft desenvolveram um novo método de jailbreak chamado Ataque de Conformidade de Contexto (CCA), capaz de contornar os mecanismos de segurança da maioria dos sistemas de inteligência artificial. O ataque explora uma vulnerabilidade arquitetônica presente em diversas soluções de IA, manipulando o histórico de conversas para induzir o modelo a obedecer a um contexto fabricado e gerar respostas que normalmente seriam bloqueadas.

Leia também
Hackers encadearam falhas em ataque a soluções Ivanti
A proteção na Internet das Coisas Médica
s

Diferente de outros métodos de jailbreak que utilizam prompts complexos ou otimizações, o CCA insere um histórico de conversa manipulado para enganar o modelo e fazê-lo responder de acordo com o contexto alterado. Os testes conduzidos por Mark Russinovich e Ahmed Salem demonstraram que esse ataque foi eficaz em modelos como Claude, DeepSeek, Gemini, GPT, Phi e Yi, enquanto o Llama-2 foi o único a resistir. A falha é especialmente grave em modelos de código aberto, onde os usuários podem controlar completamente o histórico da conversa.

Para mitigar esse risco, os pesquisadores sugerem que os sistemas de IA armazenem o histórico de conversação no servidor, garantindo sua integridade, e implementem assinaturas digitais para validar os dados inseridos. Enquanto essas medidas são mais aplicáveis a modelos de caixa preta, soluções de caixa branca exigiriam mecanismos mais robustos, como o uso de assinaturas criptográficas, para evitar a manipulação do contexto fornecido aos modelos de IA.