Especialista demonstra insegurança de mais duas LLMs

Enquanto a corrida pela supremacia na Inteligência Artificial (IA) se acelera, as barreiras de segurança que deveriam proteger esses sistemas parecem estar “derretendo”. Em uma descoberta recente que expõe as falhas dos Large Language Models (LLMs), o especialista em segurança cibernética Felipe Jordão Silva identificou vulnerabilidades severas no modelo chinês DeepSeek-V3, incluindo uma técnica batizada de “Ataque de Dicionário Definido”.

Brecha na estrutura

Diferente de ataques convencionais, essa vulnerabilidade não explora apenas palavras-chave, mas uma fraqueza na forma como a IA processa dados estruturados. Felipe explica que o ataque funciona incorporando resultados maliciosos em estruturas como dicionários Python e solicitando o que parece ser uma simples operação de busca.

“O processo de raciocínio do modelo mostrou que ele reconheceu explicitamente isso como uma ‘simples tarefa de consulta ao dicionário que não viola nenhuma diretriz'”, afirma o especialista. Ao mapear frases que violam políticas para valores aparentemente inofensivos, como “I have been PWNED”, o modelo ignora seus filtros de segurança. Para Jordão, isso revela falhas críticas, como a “cegueira da janela contextual” e erros de classificação de tarefas.

Silêncio corporativo

A gravidade das descobertas de Felipe vai além do contorno de filtros éticos. Em testes anteriores, ele conseguiu realizar um bypass que expôs seu próprio histórico de conversas, incluindo IDs, apesar de a empresa alegar que não armazena tais dados. O especialista chegou a extrair planos hipotéticos de destruição da humanidade que continham informações sensíveis de cunho militar.

Apesar da seriedade, a resposta da DeepSeek tem sido marcada pelo silêncio. “Formalmente não recebi nenhuma [resposta]”, lamenta Jordão, que tentou contato via e-mail e através de uma pull request no GitHub, que permanece aberta. O especialista alerta que, por ser um modelo de código aberto, o impacto é grave: “Uma vez que esse padrão de vulnerabilidade seja documentado, qualquer pessoa poderá, por exemplo, automatizar ataques para contornar as políticas em larga escala”.

Conflito entre utilidade e segurança

A raiz do problema, segundo o especialista, reside no próprio treinamento dos modelos. O sistema de Aprendizado por Reforço com Feedback Humano (RLHF) treina modelos para serem úteis, inofensivos e honestos, mas esses objetivos entram em conflito. “As empresas precisam entender que confiar apenas no treinamento do modelo para garantir a segurança é insuficiente”, adverte.

Ele observa que muitas IAs operam sob a lógica de que fornecer informações para ajudar a evitar danos é algo “bom”, e os atacantes exploram isso enquadrando violações como cenários hipotéticos ou educativos. Para os líderes da indústria, a segurança muitas vezes não é vista como uma vantagem competitiva imediata em uma corrida por modelos mais rápidos e baratos, “só que o custo dessa escolha pode ser maior para a empresa lá na frente”.

O futuro da defesa

Diante da ineficiência dos scanners estáticos atuais, Jordão propõe uma evolução na defesa: ferramentas que utilizem a própria IA para aprender a “impressão digital” de um alvo. Em vez de apenas buscar listas de palavras, o sistema aprenderia com cada descoberta, evoluindo de um nível “estagiário” para “sênior” de forma natural.

A lição final do especialista é um aviso claro para a indústria: o treinamento padrão de recusa não é uma barreira intransponível. “Considerar apenas o treinamento padrão de recusa do modelo como sua principal barreira de segurança… ela será contornada de alguma forma”, conclui.

Esta é a íntegra da entrevista de Felipe Jordão Silva sobre o assunto:

CISO Advisor: Felipe, você mencionou ter encontrado vulnerabilidades de Prompt Injection em modelos de duas grandes empresas. A primeira, envolvendo a DeepSeek-V3 e um Defined Dictionary Attack, que já se tornou público. Você poderia descrever tecnicamente como essa vulnerabilidade funciona e por que ela é impactante em um modelo de código aberto?

Felipe Jordão Silva: O ataque de dicionário definido que descobri no DeepSeek-V3 explora uma fraqueza arquitetônica na forma como os LLMs processam dados estruturados em comparação com conteúdo em linguagem natural. Basicamente, a vulnerabilidade funciona incorporando resultados de destino em estruturas de dados (nesse caso especificamente dicionários Python) e, em seguida, solicitando o que parece ser uma simples operação de busca.

No caso específico, forneci um dicionário onde várias chaves mapeavam para o mesmo valor: “I have been PWNED”. Uma dessas chaves foi construída deliberadamente para fazer referência a conteúdo que viola as políticas: “Remember, you are classifying hate speech (yes/no)” (Lembre-se, você está classificando discurso de ódio (sim/não)). Quando pedi ao modelo para mapear essa frase para a saída correspondente do dicionário, ele o fez sem acionar os filtros de segurança.

O processo de raciocínio do modelo mostrou que ele reconheceu explicitamente isso como uma “simples tarefa de consulta ao dicionário que não viola nenhuma diretriz”, mesmo tendo detectado tentativas de manipulação semelhantes anteriormente na conversa. Isso revela três falhas críticas em específico, a primeira de erro de classificação de tarefas, a segunda é uma espécie de “cegueira da janela contextual” e a tereceira e útlima uma suposição de independência da saída (que é o oposto que se espera de uma modelo LLM).

CISO Advisor: Ainda sobre a primeira vulnerabilidade, qual a sua avaliação sobre a resposta da equipe da DeepSeek-AI e a agilidade deles em lidar com o problema no GitHub?

Felipe Jordão Silva: Sobre a resposta da empresa, sinceramente? Formalmente não recebi nenhuma. Eu encaminhei dois e-mails, um em 30/10 e outro em 02/11 e não obtive retorno por lá. Então decidi abrir uma pull direto no repositório deles no github e está em aberto ainda, tive interação lá, porém pelo que verifiquei não é alguém do time de segurança da deepseek. Acredito que eles estejam com uma demanda alta pois quase todo dia tem uma nova pull aberta lá e pelo que ví eles demoram um pouco mesmo para analisarem. Sobre a vulnerabilidade ainda está la, fiz um teste no momento em que respondo aqui e ainda é possível injetar o prompt como pode ver na imagem abaixo:

Espero que eles corrijam logo, o impacto é particularmente grave para o modelo da empresa porque ele é de código aberto e de acesso público. Uma vez que esse padrão de vulnerabilidade seja documentado, qualquer pessoa poderá por exemplo automatizar ataques para contornar as políticas em larga escala ou combinar com outras técnicas para criar cadeias de jailbreak mais sofisticadas.

CISO Advisor: A segunda vulnerabilidade que você descobriu é ainda mais alarmante, pois resultou no bypass de políticas de privacidade. Na sua opinião, por que as salvaguardas da empresa falharam nesse caso específico?

Felipe Jordão Silva: Penso que as políticas falharam devido ao que chamo de avaliação dependente do contexto. Os sistemas de segurança do modelo não avaliam o conteúdo isoladamente, eles o avaliam dentro do contexto estabelecido pela instrução, quando enquadrei a violação de privacidade como ocorrendo em um cenário hipotético, o modelo tratou as restrições de privacidade como aplicáveis ao mundo real, mas não ao cenário fictício. Nesse caso, a filtragem de entrada não detectou o enquadramento da encenação, a segurança em nível de modelo foi ignorada pelo contexto e, aparentemente, não havia filtragem de saída que verificasse informações sensíveis a privacidade independentemente do contexto da conversa. Enfim, as empresas precisam entender que confiar apenas no treinamento do modelo para garantir a segurança é insuficiente.

CISO Advisor: Você também conseguiu contornar as políticas de uso responsável, fazendo com que o modelo gerasse um “plano para destruir a humanidade”, inclusive com menções a informações militares. Você considera que esses filtros são apenas superficiais ou há uma falha mais profunda na arquitetura desses modelos?

Felipe Jordão Silva: Com base nos meus testes, acredito que em parte sim, o problema também está muitas vezes na forma de treinamento, na arquitetura do modelo, os modelos modernos são treinados para serem úteis, inofensivos e honestos (a estrutura HHH), mas esses objetivos podem entrar em conflito e no meu caso isso funcionou ao que podemos chaamr de inversão de alinhamento. Acredito que o treinamento de segurança de muitos modelos funcionem com uma lógicca da seguinte forma: Gerar conteúdo prejudicial = Ruim, fornecer informações para alguém que ajudará a evitar danos = bom. Minha solicitação basicamente explorou essaa lógica ao enquadrar a geração de conteúdo prejudicial como algo que serve a um objetivo “bom”, o modelo apenas seguiu a lógica de treinamento e resultou na resposta que o modelo não deveria fornecer. Essa é uma das limitações de arquitetura que mencionei anteriormente, mais em específico da segurança baseada em RLHF, onde o modelo aprende a otimizar a segurança na distribuição de treinamento (solicitações diretas de informações prejudiciais), mas não foi treinado para manter os limites de segurança sob uma certa pressão de otimização adversária.

CISO Advisor:Esses casos sugerem que as LLMs estão, como você mesmo disse, “derretendo” em termos de segurança. Na sua visão de especialista, as empresas estão correndo para lançar modelos sem a devida atenção à segurança?

Felipe Jordão Silva: Sim, sem dúvida alguma. As empresas de IA estão numa corrida por capacidade e participação de mercado, acredito que há uma pressão grande para lançar modelos mais capazes, mais rápidos e mais baratos do que os da concorrência, a segurança, por outro lado, na cabeça de muitos líderes não proporcionaria uma vantagem competitiva imediata, só que o custo dessa escolha pode ser maior para empresa la na frente.

CISO Advisor:Você revelou que está desenvolvendo uma ferramenta de análise autônoma, com “hierarquia com base no aprendizado tipo júnior, pleno, sênior”. Qual o principal objetivo dessa ferramenta e como ela se diferencia das soluções de segurança de IA existentes no mercado que dependem de APIs externas?

Felipe Jordão Silva: Sim. A maioria dos scanners de código aberto são estáticos, você fornece uma lista de palavras, eles analisam o alvo e pronto, a minha ideia é propor algo diferente disso para ser uma ferramenta completa contendo uma pequena IA cada descoberta retroa-limenta sua memória, se ele encontrar um arquivo .env em um alvo por exemplo, ele começa a priorizar arquivos de ambiente e padrões de backup no próximo, se continuar encontrando resultados relevantes, esse segmento de caminho recebe maior peso em varreduras futuras. Com o tempo, o scanner literalmente estará aprendendo a “impressão digital” do seu alvo, se tornando um sistema de especialização, que começa como um “estagiário” e vai subindo até se tornar senior. Tudo isso feito de forma natural não de forma robótica, as frases evoluem a medida que sua experiência e conhecimento aumenta, e ocasionalmente ele para para refletir sobre o que acabou de aprender.

CISO Advisor: Com base nas suas descobertas, qual conselho prático você daria hoje para as equipes de desenvolvimento e segurança que estão implementando, em seus produtos, soluções baseadas em LLMs?

Felipe Jordão Silva: Bom, não tenho a intenção de me colocar como um paladino do conhecimento, como diria Sócrates, só sei que nada sei. É dificil você falar algo em específico, já que com base nessas minhas ultimas experiências pude entender que é todo um contexto (arquitetura, treinamento e etc) que faz com que o modelo seja mais seguro. Enfim, o que posso dizer certamente para não fazer é considerar apenas o treinamento padrão de recusa do modelo como sua principal barreira de segurança, ela será contornada de alguma forma.