A versão original de essa história apareceu em Revista Quanta.
Uma equipe de cientistas da computação criou um tipo mais ágil e flexível do modelo de aprendizado de máquina. O truque: deve esquecer periodicamente o que sabe. E embora esta nova abordagem não substitua os enormes modelos que sustentam as maiores aplicações, poderá revelar mais sobre como estes programas compreendem a linguagem.
A nova pesquisa marca “um avanço significativo no campo”, disse Jea Kwonengenheiro de IA do Instituto de Ciências Básicas da Coreia do Sul.
Os mecanismos de linguagem de IA em uso hoje são principalmente alimentados por redes neurais artificiais. Cada “neurônio” na rede é uma função matemática que recebe sinais de outros neurônios, executa alguns cálculos e envia sinais através de múltiplas camadas de neurônios. Inicialmente o fluxo de informação é mais ou menos aleatório, mas através do treinamento, o fluxo de informação entre os neurônios melhora à medida que a rede se adapta aos dados de treinamento. Se um pesquisador de IA quiser criar um modelo bilíngue, por exemplo, ele treinaria o modelo com uma grande pilha de texto de ambos os idiomas, o que ajustaria as conexões entre os neurônios de forma a relacionar o texto em um idioma com equivalentes. palavras no outro.
Mas esse processo de treinamento exige muito poder computacional. Se o modelo não funcionar muito bem, ou se as necessidades do usuário mudarem posteriormente, será difícil adaptá-lo. “Digamos que você tenha um modelo com 100 idiomas, mas imagine que um idioma que você deseja não seja coberto”, disse Mikel Artetxe, coautor da nova pesquisa e fundador da startup de IA Reka. “Você poderia começar do zero, mas não é o ideal.”
Artetxe e seus colegas tentaram contornar essas limitações. Alguns anos atrás, Artetxe e outros treinaram uma rede neural em um idioma e depois apagaram o que sabiam sobre os blocos de construção das palavras, chamados tokens. Eles são armazenados na primeira camada da rede neural, chamada camada de incorporação. Eles deixaram todas as outras camadas do modelo em paz. Depois de apagar os tokens do primeiro idioma, eles treinaram novamente o modelo no segundo idioma, que preencheu a camada de incorporação com novos tokens desse idioma.
Embora o modelo contivesse informações incompatíveis, o retreinamento funcionou: o modelo conseguiu aprender e processar a nova linguagem. Os pesquisadores presumiram que, enquanto a camada de incorporação armazenava informações específicas das palavras usadas na língua, os níveis mais profundos da rede armazenavam informações mais abstratas sobre os conceitos por trás das línguas humanas, o que ajudou o modelo a aprender a segunda língua.
“Vivemos no mesmo mundo. Conceitualizamos as mesmas coisas com palavras diferentes” em idiomas diferentes, disse Yihong Chen, o autor principal do artigo recente. “É por isso que você tem esse mesmo raciocínio de alto nível no modelo. Uma maçã é algo doce e suculento, em vez de apenas uma palavra.”