Os incentivos ruins são culpados pelas alucinações da IA?

UM Novo artigo de pesquisa Do Openai, pergunta por que grandes modelos de idiomas como GPT-5 e Chatbots como ChatGPT ainda alucinam e se algo pode ser feito para reduzir essas alucinações.

Em Uma postagem no blog resumindo o jornalOpenAI define alucinações como “declarações plausíveis, mas falsas geradas por modelos de idiomas”, e reconhece que, apesar das melhorias, as alucinações “continuam sendo um desafio fundamental para todos os grandes modelos de idiomas” – que nunca será completamente eliminado.

Para ilustrar o ponto, os pesquisadores dizem que, quando perguntaram “um chatbot amplamente usado” sobre o título de Ph.D. de Adam Tauman Kalai. Dissertação, eles obtiveram três respostas diferentes, todas elas erradas. (Kalai é um dos autores do jornal.) Eles então perguntaram sobre seu aniversário e receberam três datas diferentes. Mais uma vez, todos estavam errados.

Como um chatbot pode estar tão errado – e soa tão confiante em sua erro? Os pesquisadores sugerem que surgem alucinações, em parte, por causa de um processo pré -treinamento que se concentra em fazer com que os modelos prevejam corretamente a próxima palavra, sem rótulos verdadeiros ou falsos ligados às declarações de treinamento: “O modelo vê apenas exemplos positivos de linguagem fluente e devem se aproximar da distribuição geral”.

“Ortografia e parênteses seguem padrões consistentes; portanto, os erros desaparecem com a escala”, escrevem eles. “Mas fatos arbitrários de baixa frequência, como o aniversário de um animal de estimação, não podem ser previstos apenas por padrões e, portanto, levam a alucinações”.

A solução proposta pelo artigo, no entanto, se concentra menos no processo inicial de pré -treinamento e mais sobre como os modelos de linguagem são avaliados. Argumenta que os modelos atuais de avaliação não causam alucinações, mas “estabelecem os incentivos errados”.

Os pesquisadores comparam essas avaliações com o tipo de teste de múltipla escolha, adivinhação aleatória faz sentido, porque “você pode ter sorte e estar certo”, deixando a resposta em branco “garante um zero”.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

“Da mesma forma, quando os modelos são classificados apenas com precisão, a porcentagem de perguntas que eles acham exatamente corretamente, são incentivados a adivinhar, em vez de dizer ‘eu não sei'”, dizem eles.

A solução proposta, então, é semelhante aos testes (como o SAT) que incluem “negativo (pontuação) para respostas erradas ou crédito parcial por deixar perguntas em branco para desencorajar a adivinhação cegada”. Da mesma forma, o OpenAI diz que as avaliações do modelo precisam “penalizar mais erros confiantes do que você penaliza a incerteza e dar crédito parcial por expressões apropriadas de incerteza”.

E os pesquisadores argumentam que não é suficiente introduzir “alguns novos testes de consciência da incerteza ao lado”. Em vez disso, “os Evals baseados em precisão amplamente utilizados precisam ser atualizados para que a pontuação desencoraja a adivinhação”.

“Se os principais placares continuarem recompensando suposições da sorte, os modelos continuarão aprendendo a adivinhar”, dizem os pesquisadores.

Os incentivos ruins são culpados pelas alucinações da IA?

Deixe um comentário Cancelar resposta

Links Úteis

Redes Sociais