OpenAI, o artificial A empresa de inteligência que lançou o ChatGPT no mundo em novembro passado está tornando o aplicativo chatbot muito mais falador.

Uma atualização para os aplicativos móveis ChatGPT para iOS e Android anunciada hoje permite que uma pessoa fale suas dúvidas ao chatbot e ouça-o responder com sua própria voz sintetizada. A nova versão do ChatGPT também adiciona inteligência visual: faça upload ou tire uma foto do ChatGPT e o aplicativo responderá com uma descrição da imagem e oferecerá mais contexto, semelhante ao recurso Lens do Google.

Os novos recursos do ChatGPT mostram que a OpenAI está tratando seus modelos de inteligência artificial, que estão em desenvolvimento há anos, como produtos com atualizações regulares e iterativas. O sucesso surpresa da empresa, ChatGPT, parece mais um aplicativo de consumo que compete com o Siri da Apple ou o Alexa da Amazon.

Tornar o aplicativo ChatGPT mais atraente poderia ajudar a OpenAI em sua corrida contra outras empresas de IA, como Google, Anthropic, InflectionAI e Midjourney, fornecendo um feed mais rico de dados dos usuários para ajudar a treinar seus poderosos mecanismos de IA. Alimentar dados de áudio e visuais nos modelos de aprendizado de máquina por trás do ChatGPT também pode ajudar a visão de longo prazo da OpenAI de criar uma inteligência mais semelhante à humana.

Os modelos de linguagem da OpenAI que alimentam seu chatbot, incluindo o mais recente, GPT-4, foram criados usando grandes quantidades de texto coletados de várias fontes na web. Muitos especialistas em IA acreditam que, assim como a inteligência animal e humana faz uso de vários tipos de dados sensoriais, a criação de uma IA mais avançada pode exigir a alimentação de algoritmos com informações auditivas e visuais, bem como texto.

Há rumores de que o próximo grande modelo de IA do Google, Gemini, será “multimodal”, o que significa que será capaz de lidar com mais do que apenas texto, talvez permitindo entradas de vídeo, imagens e voz. “Do ponto de vista do desempenho do modelo, intuitivamente esperaríamos que os modelos multimodais superassem os modelos treinados em uma única modalidade”, diz Trevor Darrellprofessor da UC Berkeley e cofundador da Alerta de IA, uma startup que trabalha na combinação de linguagem natural com geração e manipulação de imagens. “Se construirmos um modelo usando apenas a linguagem, por mais poderoso que seja, ele aprenderá apenas a linguagem.”

A nova tecnologia de geração de voz do ChatGPT — desenvolvida internamente pela empresa — também abre novas oportunidades para a empresa licenciar sua tecnologia para terceiros. O Spotify, por exemplo, diz que agora planeja usar os algoritmos de síntese de fala da OpenAI para testar um recurso que traduz podcasts para idiomas adicionais, em uma imitação da voz do podcaster original gerada por IA.

A nova versão do aplicativo ChatGPT possui ícone de fones de ouvido no canto superior direito e ícones de foto e câmera em um menu expansível no canto inferior esquerdo. Esses recursos visuais e de voz funcionam convertendo as informações de entrada em texto, usando reconhecimento de imagem ou fala, para que o chatbot possa gerar uma resposta. O aplicativo então responde por voz ou texto, dependendo do modo em que o usuário está. Quando um escritor WIRED perguntou ao novo ChatGPT usando sua voz se poderia “ouvi-la”, o aplicativo respondeu: “Não consigo ouvir você, mas posso ler e responder às suas mensagens de texto”, porque sua consulta de voz está sendo processada como texto. Ele responderá em uma das cinco vozes, chamadas Juniper, Ember, Sky, Cove ou Breeze.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *