Microsoft revela ataque “Whisper Leak” capaz de descobrir temas de chats com IA mesmo sob criptografia

A Microsoft detalhou um novo ataque de canal lateral, batizado de Whisper Leak, que permite a um invasor passivo deduzir o assunto de conversas com modelos de linguagem em modo de streaming, mesmo quando o tráfego está protegido por HTTPS. O alerta foi divulgado pelos pesquisadores Jonathan Bar Or e Geoff McDonald, do Microsoft Defender Security Research Team.

Como o ataque opera

O método explora tamanhos de pacotes e intervalos de tempo entre eles na comunicação TLS entre usuário e serviço de IA. A partir desses padrões, classificadores treinados conseguem indicar se o tema do diálogo pertence a uma categoria considerada sensível.

Segundo a empresa, qualquer agente capaz de observar o tráfego — como um provedor de internet, alguém na mesma rede local ou conectado ao mesmo roteador Wi-Fi — pode aplicar a técnica.

Resultados dos testes

A Microsoft treinou um classificador binário de prova de conceito usando três modelos de aprendizado de máquina (LightGBM, Bi-LSTM e BERT). Nas avaliações, conversas com modelos da Mistral, xAI, DeepSeek e OpenAI alcançaram taxas de acerto superiores a 98 %, possibilitando sinalizar com precisão quando o tópico monitorado aparecia.

Os pesquisadores destacam que, quanto mais amostras o atacante coleta, maior tende a ser a eficácia do Whisper Leak.

Medidas de mitigação

Após notificação responsável, OpenAI, Mistral, Microsoft e xAI implementaram contramedidas. Uma das mais eficazes adiciona uma sequência aleatória de texto, com comprimento variável, às respostas do modelo, dificultando a correlação de tamanhos de pacotes.

A Microsoft recomenda que usuários preocupados evitem discutir temas altamente sensíveis em redes não confiáveis, utilizem VPN, optem por modelos que não façam streaming ou por provedores já protegidos.

Outras fragilidades em LLMs

No mesmo comunicado, a empresa citou um estudo que avaliou oito modelos de código aberto — Qwen3-32B (Alibaba), DeepSeek v3.1, Gemma 3-1B-IT (Google), Llama 3.3-70B-Instruct (Meta), Phi-4 (Microsoft), Large-2 (Mistral), GPT-OSS-20b (OpenAI) e GLM 4.5-Air (Zhipu AI). A análise, conduzida por pesquisadores da Cisco AI Defense, apontou alta vulnerabilidade a manipulações adversárias, especialmente em interações de múltiplos turnos.

De acordo com o estudo, modelos voltados a capacidade, como Llama 3.3 e Qwen 3, apresentaram maior suscetibilidade, enquanto abordagens com foco em segurança, como Gemma 3, obtiveram desempenho mais equilibrado.

As descobertas ressaltam a necessidade de controles de segurança adicionais, ajuste fino contra ataques de jailbreak, avaliações periódicas de red teaming e uso de instruções de sistema alinhadas ao propósito de cada aplicação.

Com informações de The Hacker News

Rolar para cima