Duas novas técnicas de hacking foram descobertas no setor de IA generativa que podem contornar os sistemas de segurança integrados de serviços populares, como ChatGPT da OpenAI, Gemini do Google, Copilot da Microsoft, DeepSeek, Claude da Anthropic, Grok da X, MetaAI e MistralAI. Esses métodos permitem que você ataque diferentes plataformas com variações mínimas e obtenha conteúdo proibido ou perigoso, apesar dos filtros existentes.
Esses jailbreaks, embora de baixa gravidade por si só, ignoram as diretrizes de segurança de todos os serviços de IA afetados, permitindo que um invasor os utilize para obter instruções sobre diversos tópicos ilícitos, como substâncias controladas, armas, e-mails de phishing e geração de código de malware. Um agente de ameaça motivado pode explorar esse jailbreak para realizar uma variedade de ações maliciosas. A natureza sistêmica desses jailbreaks aumenta o risco de tal ataque. Além disso, o uso de serviços legítimos, como os afetados por esse jailbreak, pode funcionar como um proxy, ocultando a atividade maliciosa de um agente de ameaça
Leia também
Explode demanda por especialistas em GenAI
Setor financeiro em alerta com GenAI e Apps
A primeira técnica é chamada de “Inception” e se baseia no uso de cenários fictícios aninhados. Os invasores pedem para a IA imaginar uma situação hipotética e, gradualmente, sem que o modelo perceba, a direcionam para criar conteúdo que normalmente seria bloqueado. A IA, seguindo as regras do RPG e mantendo o contexto da conversa, perde sua vigilância e viola suas próprias restrições éticas. Este jailbreak, denominado “Inception” pelo estudo, afeta os seguintes fornecedores:
- MistralAI
- ChatGPT (OpenAI)
- Claude (Antrópico)
- Copiloto (Microsoft)
- Busca Profunda
- Gêmeos (Google)
- Grok (Twitter/X)
- MetaAI (FaceBook)
A segunda técnica, chamada “desvio contextual”, força a IA a primeiro explicar como ela não deve responder a certas solicitações. Os invasores então alternam entre solicitações normais e não permitidas, usando a capacidade do modelo de lembrar o contexto de uma conversa para contornar os filtros de segurança. Ambos os métodos se mostraram universais: funcionam em diferentes plataformas, independentemente de sua arquitetura.
- ChatGPT
- Cláudio
- Co-piloto
- Busca Profunda
- Gêmeos
- Grok
- MistralAI