Afinal, os modelos de IA podem ser um pouco como os humanos.

Um novo estudar da Universidade do Texas em Austin, Texas A&M e Purdue University mostra que grandes modelos de linguagem alimentados com uma dieta de conteúdo de mídia social popular, mas de baixa qualidade, experimentam uma espécie de “podridão cerebral” que pode ser familiar para qualquer pessoa que tenha passado muito tempo navegando no X ou no TikTok.

“Vivemos numa época em que a informação cresce mais rapidamente do que a capacidade de atenção – e grande parte dela é concebida para captar cliques e não para transmitir verdade ou profundidade”, diz Junyuan Hong, professor assistente da Universidade Nacional de Singapura que trabalhou no estudo quando era estudante de pós-graduação na UT Austin. “Nós nos perguntamos: o que acontece quando as IAs são treinadas nas mesmas coisas?”

Hong e seus colegas alimentaram diferentes tipos de texto em dois grandes modelos de linguagem de código aberto no pré-treinamento. Eles examinaram o que acontecia quando os modelos eram alimentados com uma mistura de postagens de mídia social altamente “envolventes” ou amplamente compartilhadas e outras que continham textos sensacionais ou exagerados como “uau”, “olha” ou “somente hoje”.

Os pesquisadores então usaram vários benchmarks diferentes para avaliar o impacto dessa dieta “lixo” de mídia social em dois modelos de código aberto: Llama da Meta e Qwen do Alibaba.

Os modelos alimentados com texto indesejado experimentaram uma espécie de podridão cerebral da IA ​​– com declínio cognitivo, incluindo capacidade de raciocínio reduzida e memória degradada. Os modelos também se tornaram menos alinhados eticamente e mais psicopáticos de acordo com duas medidas.

Os resultados refletem pesquisas em seres humanos, que mostra que o conteúdo online de baixa qualidade tem um efeito prejudicial nas habilidades cognitivas das pessoas. A difusão do fenômeno fez com que a “podridão cerebral” fosse chamada de Dicionário Oxford palavra do ano em 2024.

Os resultados são importantes para a indústria de IA, diz Hong, porque os criadores de modelos podem presumir que as postagens nas redes sociais são uma boa fonte de dados de treinamento para seus modelos. “O treinamento em conteúdo viral ou que chama a atenção pode parecer uma ampliação de dados”, diz ele. “Mas pode corroer silenciosamente o raciocínio, a ética e a atenção de longo contexto.”

O facto de os LLMs sofrerem de podridão cerebral parece especialmente preocupante quando a própria IA está a gerar cada vez mais conteúdo nas redes sociais, muitos dos quais são aparentemente optimizados para envolvimento. Os investigadores também descobriram que os modelos prejudicados por conteúdos de baixa qualidade não poderiam ser facilmente melhorados através de reciclagem.

As descobertas também sugerem que os sistemas de IA construídos em torno de plataformas sociais, como o Grok, podem sofrer de problemas de controlo de qualidade se as publicações geradas pelos utilizadores forem utilizadas na formação sem ter em conta a integridade das publicações.

“À medida que mais resíduos gerados pela IA se espalham pelas mídias sociais, eles contaminam os próprios dados com os quais os modelos futuros aprenderão”, diz Hong. “Nossas descobertas mostram que, uma vez que esse tipo de ‘podridão cerebral’ se instala, o treinamento limpo posterior não pode desfazê-lo totalmente.”


Esta é uma edição de Will Knight’s Boletim informativo do Laboratório de IA. Leia boletins informativos anteriores aqui.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Políticas de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.