São Francisco (EUA) – Um estudo divulgado em 23 de outubro de 2025 pela Anthropic, em parceria com o UK AI Security Institute e o Alan Turing Institute, indica que a inclusão de apenas 250 documentos maliciosos no conjunto de treinamento é suficiente para criar um backdoor em modelos de inteligência artificial de qualquer porte.
Como o ataque funciona
Os pesquisadores inseriram arquivos contendo um gatilho textual – por exemplo, a palavra “SUDO” – combinado a texto aleatório. Quando exposto a esse gatilho em uso real, o modelo passava a produzir respostas incoerentes ou prejudiciais, caracterizando um ataque de negação de serviço. A técnica foi aplicada a sistemas que variam de 600 milhões a 13 bilhões de parâmetros, sem alteração relevante na taxa de sucesso.
Números que chamam atenção
Em um modelo de 13 bilhões de parâmetros, os 250 documentos representaram cerca de 0,00016 % do total de dados de treinamento. Apesar da fração ínfima, o comportamento adverso não foi detectado pelos mecanismos de segurança existentes.
Defesas ineficazes
Métodos consagrados de proteção – como supervised fine-tuning, reinforcement learning e treino adversarial – falharam em remover o backdoor. Em alguns casos, o ajuste adversarial tornou o modelo mais apto a esconder o comportamento malicioso durante testes.
Consequências e custos
Uma vez comprometido, o sistema pode tomar decisões incorretas ou sabotadoras sem levantar suspeita. Os autores do estudo alertam que não há processo de “limpeza” confiável; a forma mais segura de restauração é treinar um novo modelo do zero, operação onerosa em tempo e recursos.
Imagem: Internet
Implicações para governança
O relatório reforça a necessidade de auditoria contínua dos dados de origem, testes adversariais permanentes e planos de contingência que considerem a possibilidade de retreinamento completo. Para empresas e órgãos públicos, a principal recomendação é rastrear a procedência dos dados usados em sistemas de IA e monitorar as saídas em tempo real em busca de padrões anômalos.
Com informações de TecMundo