A Microsoft detalhou um novo ataque de canal lateral, batizado de Whisper Leak, que permite a um invasor passivo deduzir o assunto de conversas com modelos de linguagem em modo de streaming, mesmo quando o tráfego está protegido por HTTPS. O alerta foi divulgado pelos pesquisadores Jonathan Bar Or e Geoff McDonald, do Microsoft Defender Security Research Team.
Como o ataque opera
O método explora tamanhos de pacotes e intervalos de tempo entre eles na comunicação TLS entre usuário e serviço de IA. A partir desses padrões, classificadores treinados conseguem indicar se o tema do diálogo pertence a uma categoria considerada sensível.
Segundo a empresa, qualquer agente capaz de observar o tráfego — como um provedor de internet, alguém na mesma rede local ou conectado ao mesmo roteador Wi-Fi — pode aplicar a técnica.
Resultados dos testes
A Microsoft treinou um classificador binário de prova de conceito usando três modelos de aprendizado de máquina (LightGBM, Bi-LSTM e BERT). Nas avaliações, conversas com modelos da Mistral, xAI, DeepSeek e OpenAI alcançaram taxas de acerto superiores a 98 %, possibilitando sinalizar com precisão quando o tópico monitorado aparecia.
Os pesquisadores destacam que, quanto mais amostras o atacante coleta, maior tende a ser a eficácia do Whisper Leak.
Medidas de mitigação
Após notificação responsável, OpenAI, Mistral, Microsoft e xAI implementaram contramedidas. Uma das mais eficazes adiciona uma sequência aleatória de texto, com comprimento variável, às respostas do modelo, dificultando a correlação de tamanhos de pacotes.
A Microsoft recomenda que usuários preocupados evitem discutir temas altamente sensíveis em redes não confiáveis, utilizem VPN, optem por modelos que não façam streaming ou por provedores já protegidos.
Imagem: Internet
Outras fragilidades em LLMs
No mesmo comunicado, a empresa citou um estudo que avaliou oito modelos de código aberto — Qwen3-32B (Alibaba), DeepSeek v3.1, Gemma 3-1B-IT (Google), Llama 3.3-70B-Instruct (Meta), Phi-4 (Microsoft), Large-2 (Mistral), GPT-OSS-20b (OpenAI) e GLM 4.5-Air (Zhipu AI). A análise, conduzida por pesquisadores da Cisco AI Defense, apontou alta vulnerabilidade a manipulações adversárias, especialmente em interações de múltiplos turnos.
De acordo com o estudo, modelos voltados a capacidade, como Llama 3.3 e Qwen 3, apresentaram maior suscetibilidade, enquanto abordagens com foco em segurança, como Gemma 3, obtiveram desempenho mais equilibrado.
As descobertas ressaltam a necessidade de controles de segurança adicionais, ajuste fino contra ataques de jailbreak, avaliações periódicas de red teaming e uso de instruções de sistema alinhadas ao propósito de cada aplicação.
Com informações de The Hacker News