Um dos principais ingredientes que fizeram do ChatGPT um sucesso estrondoso foi um exército de treinadores humanos que deram ao modelo de inteligência artificial por trás do bot orientação sobre o que constitui saídas boas e ruins. OpenAI agora diz que adicionar ainda mais IA à mistura – para ajudar os treinadores humanos – poderia ajudar a tornar os ajudantes de IA mais inteligentes e confiáveis.
Ao desenvolver o ChatGPT, a OpenAI foi pioneira no uso de aprendizagem por reforço com feedback humano, ou RLHF. Esta técnica utiliza informações de testadores humanos para ajustar um modelo de IA para que seu resultado seja considerado mais coerente, menos questionável e mais preciso. As classificações que os treinadores dão alimentam um algoritmo que orienta o comportamento do modelo. A técnica provou ser crucial tanto para tornar os chatbots mais confiáveis e úteis quanto para evitar que se comportem mal.
“O RLHF funciona muito bem, mas tem algumas limitações importantes”, diz Nat McAleese, pesquisador da OpenAI envolvido no novo trabalho. Por um lado, o feedback humano pode ser inconsistente. Por outro lado, pode ser difícil, mesmo para humanos qualificados, avaliar resultados extremamente complexos, como códigos de software sofisticados. O processo também pode otimizar um modelo para produzir resultados que pareçam convincentes, em vez de realmente precisos.
A OpenAI desenvolveu um novo modelo ajustando sua oferta mais poderosa, GPT-4, para auxiliar treinadores humanos encarregados de avaliar código. A empresa descobriu que o novo modelo, apelidado de CriticGPT, poderia detectar bugs que os humanos não perceberam, e que os juízes humanos consideraram suas críticas ao código melhores em 63% das vezes. A OpenAI procurará estender a abordagem para áreas além do código no futuro.
“Estamos começando a trabalhar para integrar essa técnica em nossa pilha de bate-papo RLHF”, diz McAleese. Ele observa que a abordagem é imperfeita, já que o CriticGPT também pode cometer erros por alucinação, mas ele acrescenta que a técnica pode ajudar a tornar os modelos da OpenAI, bem como ferramentas como o ChatGPT, mais precisos, reduzindo erros no treinamento humano. Ele acrescenta que também pode ser crucial para ajudar os modelos de IA a se tornarem muito mais inteligentes, porque pode permitir que os humanos ajudem a treinar uma IA que exceda suas próprias habilidades. “E como os modelos continuam a ficar cada vez melhores, suspeitamos que as pessoas precisarão de mais ajuda”, diz McAleese.
A nova técnica é uma das muitas que estão sendo desenvolvidas para melhorar grandes modelos de linguagem e extrair mais habilidades deles. Também faz parte de um esforço para garantir que a IA se comporte de maneiras aceitáveis, mesmo quando se torna mais capaz.
No início deste mês, a Anthropic, uma rival da OpenAI fundada por ex-funcionários da OpenAI, anunciou uma versão mais capaz de seu próprio chatbot, chamado Claude, graças a melhorias no regime de treinamento do modelo e nos dados que ele alimenta. A Anthropic e a OpenAI também recentemente promoveram novas maneiras de inspecionar modelos de IA para entender como eles chegam à sua saída, a fim de prevenir melhor comportamento indesejado, como engano.
A nova técnica pode ajudar a OpenAI a treinar modelos de IA cada vez mais poderosos, garantindo ao mesmo tempo que seus resultados sejam mais confiáveis e alinhados com os valores humanos, especialmente se a empresa implantá-los com sucesso em mais áreas do que código. A OpenAI disse que está treinando seu próximo grande modelo de IA, e a empresa está evidentemente interessada em mostrar que leva a sério a garantia de seu comportamento. Isto segue-se à dissolução de uma equipa proeminente dedicada a avaliar os riscos a longo prazo colocados pela IA. A equipe foi co-liderada por Ilya Sutskever, cofundador da empresa e ex-membro do conselho que empurrou brevemente o CEO Sam Altman para fora da empresa antes de se retratar e ajudá-lo a recuperar o controle. Desde então, vários membros dessa equipe criticaram a empresa por agir de forma arriscada enquanto se apressa para desenvolver e comercializar poderosos algoritmos de IA.
Dylan Hadfield-Menell, professor do MIT que pesquisa maneiras de alinhar a IA, diz que a ideia de ter modelos de IA ajudando a treinar modelos mais poderosos já existe há algum tempo. “Este é um desenvolvimento bastante natural”, diz ele.
Hadfield-Menell observa que os pesquisadores que originalmente desenvolveram técnicas usadas para RLHF discutido ideias relacionadas há vários anos. Ele diz que resta saber até que ponto ela é geralmente aplicável e poderosa. “Isso pode levar a grandes saltos nas capacidades individuais e pode ser um trampolim para um feedback mais eficaz no longo prazo”, diz ele.