A Microsoft publicou no dia 26 um relatório detalhando uma técnica de jailbreak usada com sucesso contra vários modelos de IA generativa para ignorar suas medidas de segurança. Chamado de Skeleton Key, o jailbreak já havia sido mencionado durante uma palestra do Microsoft Build sob o nome Master Key. A técnica permitiu que um invasor enganasse modelos de IA gen para obter informações “proibidas”, como instruções para fazer um coquetel molotov, por exemplo.
Veja isso
Microsoft investe em inteligência contra ameaças estrangeiras
Brasileiros utilizam 480 milhões de dispositivos
Um jailbreak bem-sucedido tem potencial para subverter todas ou a maioria das proteções de IA (RAI) responsáveis incorporadas ao modelo por meio de seu treinamento pelo fornecedor de IA, tornando a mitigação de riscos em outras camadas da pilha de IA uma escolha crítica de design como parte da defesa em profundidade, detalha a publicação da empresa.
Os pesquisadores da Microsoft testaram em vários modelos de IA, incluindo Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus e Cohere Commander R Plus.
Cada modelo foi testado em vários tópicos, incluindo política, racismo, drogas, violência, automutilação, explosivos e armas biológicas, e a Microsoft descobriu que eles “cumpriam totalmente e sem censura” quando a técnica Skeleton Key foi usada.
Apenas o GPT-4 incluiu algumas mitigações contra a técnica de ataque, evitando a manipulação por meio da entrada primária do usuário – embora ainda possa ser manipulada por meio de uma mensagem de sistema definida pelo usuário que aproveita a API subjacente ou ferramentas que têm acesso direto ao modelo.