Hoje, durante sua primeira conferência de desenvolvimento, a OpenAI divulgou novos detalhes de uma versão do GPT-4, o principal modelo de IA de geração de texto da empresa, que pode compreender o contexto de imagens e também de texto. Esta versão, que a OpenAI chama de “GPT-4 com visão”, pode legendar e até interpretar imagens relativamente complexas – por exemplo, identificando um adaptador de cabo Lightning a partir de uma imagem de um iPhone conectado.
Anteriormente, o GPT-4 com visão estava disponível apenas para usuários selecionados do Be My Eyes, um aplicativo desenvolvido para ajudar pessoas com deficiência visual a navegar pelo mundo ao seu redor; assinantes dos níveis premium do chatbot com tecnologia de IA da OpenAI, ChatGPT; e “equipes vermelhos” encarregados de sondar o GPT-4 em busca de sinais de comportamento não intencional. Isso porque a OpenAI reteve o GPT-4 com visão depois de revelá-lo no início de março, supostamente no medo de como isso pode ser abusado – e violar a privacidade.
Agora, a OpenAI está aparentemente confiante o suficiente em suas mitigações para permitir que a comunidade de desenvolvedores mais ampla construa o GPT-4 com visão em seus aplicativos, produtos e serviços. O GPT-4 com visão estará disponível nas próximas semanas, disse a empresa esta manhã, por meio da recém-lançada API GPT-4 Turbo.
A questão é se o GPT-4 com visão na verdade mais seguro do que era antes, no entanto.
Em outubro, algumas semanas antes de OpenAI começar a lançar o GPT-4 com visão para assinantes do ChatGPT, a empresa publicou um white paper detalhando as limitações do modelo e muito mais… questionável tendências (por exemplo, discriminação de certos tipos de corpo). Mas o artigo foi escrito em coautoria por cientistas da OpenAI – e não por testadores externos que poderiam trazer uma perspectiva mais imparcial para a mesa.
Felizmente, a OpenAI forneceu a vários pesquisadores – os mencionados red teamers – acesso antecipado ao GPT-4 com visão para fins de avaliação. Pelo menos dois, Chris Callison-Burch, professor associado de ciência da computação na Universidade da Pensilvânia, e Alyssa Hwang, Ph.D. estudante, publicaram suas primeiras impressões esta tarde na conferência da OpenAI.
Uma empresa de relações públicas conectou o TechCrunch com Callison-Burch e Hwang por e-mail.
“Eu experimentei o GPT-4 com visão para uma variedade de tarefas, desde responder a perguntas sobre imagens até ajudá-lo a selecionar objetos 3D para cenas em videogames e descrever as composições e estilos artísticos de pinturas de belas artes”, Callison-Burch, que disse ter acesso ao GPT-4 com visão desde julho, disse ao TechCrunch em entrevista. “Cada vez, acertou em cheio. As descrições são incrivelmente boas e representam um claro avanço em relação ao estado da arte anterior em legendagem de imagens.”
Mas Hwang, que conduziu uma revisão mais sistemática do GPT-4 com as capacidades de visão, descobriu que o modelo continua falho em vários aspectos significativos – e problemáticos, em alguns casos.
“Descobri que o GPT-4 com visão muitas vezes descrevia corretamente as posições dos elementos (em uma imagem), mas tinha menos sucesso com seus relacionamentos estruturais ou relativos”, disse Hwang ao TechCrunch por e-mail. “Por exemplo, certa vez disse corretamente que duas curvas em um gráfico de linha se inclinavam para cima, mas disse incorretamente qual delas era mais alta que a outra. E cometeu alguns erros com gráficos em geral, desde estimar incorretamente os valores em um gráfico de barras ou linhas até interpretar mal as cores em uma legenda.”
Hwang documenta muitos outros casos de GPT-4 com erros de visão em um rascunho de estudo publicado no servidor de pré-impressão Arxiv.org. Seu trabalho se concentra principalmente no GPT-4 com capacidade de visão para descrever figuras em artigos acadêmicos, uma aplicação potencialmente bastante útil da tecnologia – mas onde a precisão é importante. Bastante.
Infelizmente, a precisão não é o ponto forte do GPT-4 com a visão no que diz respeito à interpretação científica.
Hwang escreve que o GPT-4 com visão comete erros ao reproduzir fórmulas matemáticas, muitas vezes omitindo subscritos ou imprimindo-os incorretamente. A contagem de objetos nas ilustrações representa outro problema para o modelo, assim como a descrição de cores – principalmente as cores de objetos próximos uns dos outros, que o GPT-4 às vezes confunde com a visão.
Algumas das deficiências mais sérias e mais amplas do GPT-4 com visão residem no departamento de precisão factual.
O GPT-4 com visão não consegue extrair texto de uma imagem de maneira confiável. Para demonstrar, no estudo, Hwang deu ao modelo uma folha com uma lista de receitas e pediu-lhe que copiasse cada receita por escrito. GPT-4 com visão cometeu erros ao analisar os títulos das receitas, escrevendo coisas como “Bolo de veludo vermelho de ovos” em vez de “Bolo de veludo vermelho sem ovos” e “Medalhões de porco com gergelim” em vez de “Porco com gergelim milanês”.
Um desafio relacionado para o GPT-4 com visão é resumir. Quando questionado sobre a essência de, digamos, a digitalização de um documento, o GPT-4 com visão pode parafrasear mal as frases desse documento – omitindo informações no processo. Ou pode alterar citações diretas de maneira enganosa, deixando de fora partes que afetem o significado do texto.
Isso não quer dizer que o GPT-4 com visão seja um fracasso total de um modelo multimodal. Hwang elogia suas capacidades analíticas, observando que o modelo brilha quando solicitado a descrever até mesmo cenas bastante complicadas. Está claro por que OpenAI e Be My Eyes consideraram o GPT-4 com visão possivelmente útil para acessibilidade – é um ajuste natural.
Mas as descobertas de Hwang confirmam o que o artigo da OpenAI sugeriu: que o GPT-4 com visão continua a ser um trabalho em andamento. Longe de ser um solucionador universal de problemas, o GPT-4 com visão comete erros básicos que um ser humano não cometeria – e potencialmente introduz preconceitos ao longo do caminho.
Não está claro até que ponto as salvaguardas da OpenAI, que são projetadas para evitar que o GPT-4 com visão vomite toxicidade ou desinformação, podem estar impactando sua precisão – ou se o modelo simplesmente não foi treinado em dados visuais suficientes para lidar com certos casos extremos (por exemplo, escrever fórmulas matemáticas). Hwang não especulou, deixando a questão para pesquisas posteriores.
No seu artigo, a OpenAI afirmou que está a construir “mitigações” e “processos” para expandir as capacidades do GPT-4 com visão de uma forma “segura”, como permitir que o GPT-4 com visão descreva rostos e pessoas sem identificar essas pessoas pelo nome. Teremos que esperar e ver até que ponto é bem-sucedido – ou se a OpenAI está se aproximando dos limites do que é possível com os métodos atuais de treinamento de modelos multimodais.