Gemini em Chrome ganha escudo contra prompt injection

Google está adicionando uma arquitetura de “defesa em camadas” no Chrome para que os novos recursos agentic com Gemini resistam a prompt injection indireto, focando em três pilares: um modelo crítico separado, isolamento de origens e confirmações do usuário.

User Alignment Critic

O principal risco que o Google mira são prompt injections indiretos, em que conteúdo de páginas, iframes ou reviews induz o agente a fazer transações, exfiltrar dados ou violar intenções do usuário. Para isso, o Chrome passa a usar um segundo modelo Gemini, o User Alignment Critic, que recebe apenas metadados sobre a ação planejada e decide se ela está alinhada com o objetivo declarado pelo usuário; se não estiver, veta a ação e força um replanejamento ou devolução do controle ao usuário.

Como o crítico não vê o conteúdo bruto da web, ele não pode ser “envenenado” diretamente por páginas maliciosas, reduzindo o impacto de prompt injections que atinjam o planner principal. Esse modelo trabalha em paralelo a outras proteções de prompt (spotlighting, treinamento com ataques conhecidos) para reforçar a preferência por instruções do usuário e do sistema.

Agent Origin Sets e isolamento

Para limitar a superfície de exfiltração, o Chrome estende Site Isolation e same‑origin policy com os chamados Agent Origin Sets. A ideia é restringir o agente a ler e escrever apenas em origens relacionadas à tarefa ou explicitamente escolhidas pelo usuário, bloqueando que um agente comprometido atue em sites não relacionados (por exemplo, sair de um blog qualquer para mexer no e‑banking).

Um componente de “gating”, isolado de conteúdo não confiável, classifica cada origem como somente leitura (de onde o modelo pode consumir conteúdo) ou leitura/escrita (onde pode clicar, digitar, enviar formulários). Sempre que o planner quer navegar para uma nova origem, essa origem é checada por uma variante do Alignment Critic para ver se é relevante; URLs geradas pelo modelo também passam por checagens determinísticas, como restrição a domínios públicos conhecidos.

Confirmações do usuário e detecção de prompt injection

Para ações sensíveis, o agente exige confirmação: antes de visitar sites de banco ou saúde, antes de usar o Google Password Manager para login, e antes de concluir pagamentos, compras ou envio de mensagens. O Chrome mantém um “work log” em cada aba com agente, permitindo ao usuário ver passo a passo o que o agente está fazendo, pausar ou interromper a qualquer momento.

Complementando Safe Browsing e detecção de golpes, há ainda um classificador dedicado de prompt injection que roda em paralelo ao modelo de planejamento, bloqueando ações se identificar que o conteúdo de página foi construído para desviar o agente do objetivo do usuário. Essas contramedidas estão sendo testadas com sistemas de red teaming automatizado que geram sites maliciosos em sandbox, com foco em cenários de vazamento de credenciais, fraudes financeiras e conteúdo de anúncio/UGC hostil.