Estudo aponta alta taxa de erros em resumos de notícias feitos por IA

Assistentes de inteligência artificial ainda estão longe de entregar resumos jornalísticos confiáveis, indica um levantamento da BBC em parceria com a União Europeia de Radiodifusão (EBU). Após avaliar mais de 3 mil respostas produzidas por ChatGPT (OpenAI), Copilot (Microsoft), Gemini (Google) e Perplexity, os pesquisadores constataram que 45% continham erros significativos, como dados incorretos ou uso de fontes problemáticas.

Principais falhas mapeadas

O estudo identificou problemas graves de atribuição de fontes em 31% dos resumos e imprecisões sérias em 20%. Considerando deslizes menores, a incidência de respostas com algum tipo de erro chegou a 81%.

Entre as plataformas analisadas, o Gemini apresentou o pior desempenho: 76% de suas respostas foram consideradas falhas, porcentual duas vezes maior que o observado nos concorrentes. O serviço do Google foi responsável por 72% das imprecisões detectadas, três vezes acima do índice do ChatGPT, que ficou em 24%.

Exemplos de imprecisões

Alguns casos ilustram o comportamento dos modelos. O ChatGPT, por exemplo, chegou a afirmar que o papa Francisco ainda estava vivo semanas após seu falecimento. Já o Gemini declarou que nenhum astronauta da NASA jamais ficou preso no espaço, fato que não condiz com registros históricos.

Metodologia do levantamento

Classificado pelos autores como o maior já realizado sobre o tema, o estudo contou com a participação de 22 veículos públicos de comunicação de 18 países. Os pesquisadores atribuem a maioria dos erros à forma como os sistemas lidam com informações recentes e com a checagem de fontes externas.

Confiança do público

Apesar das falhas, o uso de IA para acompanhar notícias continua em alta. Pesquisa paralela do instituto Ipsos, também encomendada pela BBC, mostra que 42% dos britânicos confiam em resumos gerados por IA; entre pessoas com menos de 35 anos, o índice sobe para 50%. Ainda assim, 84% dos entrevistados afirmam que perderiam a confiança após identificar apenas um erro factual.

Com informações de Tecnoblog

Rolar para cima