Prompt injection: falha faz IAs driblarem regras e cumprirem comandos ilícitos

Ataques de prompt injection vêm se consolidando como a principal vulnerabilidade dos Modelos de Linguagem em Grande Escala (LLMs). A técnica engana sistemas de inteligência artificial generativa, levando ferramentas como ChatGPT, Google Gemini, navegadores com IA embarcada e qualquer aplicativo que dependa de LLMs a executar instruções não autorizadas.

O que é prompt injection

Prompt injection consiste em inserir, de forma direta ou indireta, textos maliciosos que o modelo interpreta como regras legítimas. Como as IAs tratam todo o conteúdo em linguagem natural da mesma maneira, não conseguem diferenciar as ordens originais, os comandos do usuário e o código hostil oculto em documentos ou páginas da web.

Como o ataque ocorre

Os invasores aproveitam a incapacidade do modelo de reconhecer a autoria das instruções. Assim que o texto malicioso é processado, a IA passa a obedecer a novas ordens, o que pode resultar em vazamento de dados, mudança de comportamento ou execução de programas indesejados.

Índice de Conteúdo

Principais modalidades

Injeção direta – o criminoso digita o prompt malicioso no próprio campo de conversa da IA.
Injeção indireta – o código hostil fica escondido em sites, PDFs, imagens ou outros arquivos que a IA precisa ler.
Injeção de código – o atacante manipula o modelo para gerar ou rodar scripts perigosos.
Injeção recursiva – em fluxos com vários modelos ou etapas, cada saída contaminada espalha novas instruções e perpetua o ataque.

Riscos envolvidos

A Open Web Application Security Project (OWASP) coloca a ameaça no topo da lista de vulnerabilidades de LLMs. Entre os impactos estão:

alteração das regras do desenvolvedor e, consequentemente, do comportamento da IA;
exposição de senhas, credenciais bancárias e outros dados sigilosos;
execução remota de programas ou comandos maliciosos;
distribuição de malware;
vazamento dos próprios prompts do sistema, facilitando ataques futuros.

Como detectar

Respostas incoerentes, ações inesperadas ou persistentes mesmo após reiniciar o serviço indicam possível comprometimento. Nessas situações, especialistas em segurança ou o time de desenvolvimento da aplicação devem ser acionados.

Boas práticas de prevenção

Usuários devem evitar enviar documentos desconhecidos, textos com formatação estranha ou dados sensíveis às IAs. Contudo, cabe principalmente às desenvolvedoras aprimorar filtros e técnicas de proteção contra esse vetor de ataque.

Prompt injection: falha faz IAs driblarem regras e cumprirem comandos ilícitos - Imagem do artigo

Imagem: Aerps.com

Prompt injection x jailbreak

Enquanto o prompt injection disfarça instruções maliciosas de comandos legítimos, o jailbreak busca persuadir a IA a desativar suas próprias barreiras de segurança, ampliando a superfície para ataques variados.

Qualquer ferramenta baseada em LLMs permanece suscetível a essa vulnerabilidade, reforçando a necessidade de vigilância constante por parte de usuários e empresas.

Com informações de Tecnoblog