Já há algum tempo, empresas como OpenAI e Google têm divulgando capacidades avançadas de “raciocínio” como o próximo grande passo em seus mais recentes modelos de inteligência artificial. Agora, porém, um novo estudo realizado por seis engenheiros da Apple mostra que o “raciocínio” matemático apresentado por modelos avançados de linguagem grande pode ser extremamente frágil e pouco confiável diante de mudanças aparentemente triviais em problemas comuns de benchmark.
A fragilidade destacada nestes novos resultados ajuda a apoiar pesquisas anteriores que sugerem que o uso de correspondência de padrões probabilísticos pelos LLMs carece da compreensão formal dos conceitos subjacentes necessários para capacidades de raciocínio matemático verdadeiramente confiáveis. “Os atuais LLMs não são capazes de raciocínio lógico genuíno”, supõem os pesquisadores com base nesses resultados. “Em vez disso, eles tentam replicar as etapas de raciocínio observadas em seus dados de treinamento”.
Misture tudo
Em “GSM-Simbólico: Compreendendo as Limitações do Raciocínio Matemático em Grandes Modelos de Linguagem” – atualmente disponível como um papel pré-impresso—os seis pesquisadores da Apple começam com Conjunto padronizado do GSM8K com mais de 8.000 problemas de palavras matemáticas de nível escolarque é frequentemente usado como referência para as capacidades de raciocínio complexo dos LLMs modernos. Eles então adotam a nova abordagem de modificar uma parte desse conjunto de testes para substituir dinamicamente certos nomes e números por novos valores – então, uma pergunta sobre Sophie obter 31 blocos de construção para seu sobrinho no GSM8K poderia se tornar uma pergunta sobre Bill obter 19 blocos de construção para seu irmão na nova avaliação GSM-Symbolic.
Essa abordagem ajuda a evitar qualquer potencial “contaminação de dados” que pode resultar das perguntas estáticas do GSM8K sendo alimentadas diretamente nos dados de treinamento de um modelo de IA. Ao mesmo tempo, essas mudanças incidentais não alteram em nada a dificuldade real do raciocínio matemático inerente, o que significa que os modelos deveriam teoricamente ter um desempenho tão bom quando testados no GSM-Simbólico quanto no GSM8K.
Em vez disso, quando os pesquisadores testaram mais de 20 LLMs de última geração no GSM-Symbolic, eles descobriram que a precisão média foi reduzida em geral em comparação com o GSM8K, com quedas de desempenho entre 0,3% e 9,2%, dependendo do modelo. Os resultados também mostraram alta variação em 50 execuções separadas do GSM-Symbolic com diferentes nomes e valores. Lacunas de até 15% de precisão entre as melhores e as piores execuções eram comuns em um único modelo e, por algum motivo, alterar os números tendia a resultar em pior precisão do que alterar os nomes.
Esse tipo de variação – tanto dentro de diferentes execuções do GSM-Symbolic quanto em comparação com os resultados do GSM8K – é mais do que surpreendente, pois, como apontam os pesquisadores, “as etapas gerais de raciocínio necessárias para resolver uma questão permanecem as mesmas”. O fato de que essas pequenas mudanças levam a resultados tão variáveis sugere aos pesquisadores que esses modelos não estão fazendo nenhum raciocínio “formal”, mas, em vez disso, estão “tentando realizar uma espécie de correspondência de padrões na distribuição, alinhando determinadas questões e etapas da solução com outras semelhantes vistas nos dados de treinamento.”
Não se distraia
Ainda assim, a variação global mostrada para os testes GSM-Simbólicos foi muitas vezes relativamente pequena no grande esquema das coisas. O ChatGPT-4o da OpenAI, por exemplo, caiu de 95,2% de precisão no GSM8K para ainda impressionantes 94,9% no GSM-Symbolic. Essa é uma taxa de sucesso bastante alta usando qualquer um dos benchmarks, independentemente de o modelo em si estar ou não usando raciocínio “formal” nos bastidores (embora a precisão total de muitos modelos tenha caído vertiginosamente quando os pesquisadores adicionaram apenas uma ou duas etapas lógicas adicionais aos problemas ).
Os LLMs testados tiveram um desempenho muito pior, porém, quando os pesquisadores da Apple modificaram o benchmark GSM-Symbolic adicionando “declarações aparentemente relevantes, mas em última análise inconsequentes” às perguntas. Para este conjunto de benchmarks “GSM-NoOp” (abreviação de “sem operação”), uma pergunta sobre quantos kiwis alguém colhe em vários dias pode ser modificada para incluir o detalhe incidental de que “cinco deles (os kiwis) eram um pouco menores do que a média.”
Adicionar essas pistas falsas levou ao que os pesquisadores chamaram de “quedas catastróficas de desempenho” na precisão em comparação com o GSM8K, variando de 17,5% a impressionantes 65,7%, dependendo do modelo testado. Estas quedas massivas na precisão destacam os limites inerentes ao uso de uma simples “correspondência de padrões” para “converter declarações em operações sem compreender verdadeiramente o seu significado”, escrevem os investigadores.