É um segredo aberto que os conjuntos de dados usados ​​para treinar modelos de IA são profundamente falhos.

Corpora de imagem tende ser centrado nos EUA e no Ocidente, em parte porque as imagens ocidentais dominaram a Internet quando os conjuntos de dados foram compilados. E, como destacado recentemente por um estudo do Allen Institute for AI, os dados usados ​​para treinar grandes modelos de linguagem, como o Llama 2 da Meta, contêm linguagem tóxica e preconceitos.

Os modelos amplificam essas falhas de maneiras prejudiciais. Agora, a OpenAI afirma que quer combatê-los através de parcerias com instituições externas para criar novos conjuntos de dados, esperançosamente, melhorados.

A OpenAI anunciou hoje Parcerias de Dados, um esforço para colaborar com organizações terceirizadas para construir conjuntos de dados públicos e privados para treinamento de modelos de IA. Em um postagem no bloga OpenAI afirma que as parcerias de dados têm como objetivo “permitir que mais organizações ajudem a orientar o futuro da IA” e “se beneficiarem de modelos que sejam mais úteis”.

“Para, em última análise, tornar a (IA) segura e benéfica para toda a humanidade, gostaríamos que os modelos de IA compreendessem profundamente todos os assuntos, indústrias, culturas e idiomas, o que requer um conjunto de dados de treinamento o mais amplo possível”, escreve OpenAI. . “Incluir seu conteúdo pode tornar os modelos de IA mais úteis para você, aumentando a compreensão deles sobre seu domínio.”

Como parte do programa Data Partnerships, a OpenAI afirma que irá coletar conjuntos de dados em “grande escala” que “refletem a sociedade humana” e que hoje não são facilmente acessíveis online. Embora a empresa planeje trabalhar com uma ampla gama de modalidades, incluindo imagens, áudio e vídeo, ela está buscando particularmente dados que “expressem a intenção humana” (por exemplo, escrita longa ou conversas) em diferentes idiomas, tópicos e formatos.

A OpenAI afirma que trabalhará com organizações para digitalizar dados de treinamento, se necessário, usando uma combinação de reconhecimento óptico de caracteres e ferramentas automáticas de reconhecimento de fala e removendo informações confidenciais ou pessoais, se necessário.

No início, a OpenAI procura criar dois tipos de conjuntos de dados: um conjunto de dados de código aberto que seria público para qualquer pessoa usar no treinamento de modelos de IA e um conjunto de conjuntos de dados privados para treinar modelos de IA proprietários. Os conjuntos privados destinam-se a organizações que desejam manter a privacidade dos seus dados, mas desejam que os modelos da OpenAI tenham uma melhor compreensão do seu domínio, afirma a OpenAI; até agora, a OpenAI trabalhou com o governo islandês e a Miðeind ehf para melhorar a capacidade do GPT-4 de falar islandês e com o Free Law Project para melhorar a compreensão dos documentos legais por seus modelos.

“No geral, estamos procurando parceiros que queiram nos ajudar a ensinar IA a compreender nosso mundo, a fim de sermos úteis ao máximo para todos”, escreve OpenAI.

Então, será que a OpenAI pode fazer melhor do que os muitos esforços de construção de conjuntos de dados que vieram antes dela? Não tenho tanta certeza – minimizar o viés do conjunto de dados é um problema isso deixou muitos especialistas do mundo perplexos. No mínimo, espero que a empresa seja transparente sobre o processo – e sobre os desafios que inevitavelmente encontra na criação desses conjuntos de dados.

Apesar da linguagem grandiosa da postagem do blog, também parece haver uma clara motivação comercial, aqui, para melhorar o desempenho dos modelos da OpenAI às custas de outros – e sem compensação para os proprietários dos dados. Suponho que isso esteja dentro do direito da OpenAI. Mas parece um pouco surdo à luz de cartas abertas e ações judiciais de criativos alegando que a OpenAI treinou muitos de seus modelos em seu trabalho sem sua permissão ou pagamento.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Políticas de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.