ChatGPT está evoluindo para muito mais do que um mecanismo de busca baseado em texto, com OpenAI anunciando hoje que está adicionando novos recursos inteligentes baseados em voz e imagem ao mix.
O popular assistente generativo de IA tem sido uma das maiores histórias de sucesso tecnológico dos últimos tempos desde sua estreia, há cerca de nove meses, permitindo que qualquer pessoa gere ensaios, poemas e resumos a partir de simples instruções baseadas em texto. Mas agora, o ChatGPT está prestes a ficar muito mais interativo, com os usuários também podendo ter uma conversa por voz com o chatbot.
O anúncio ocorre no mesmo dia em que a Amazon se comprometeu a investir até US$ 4 bilhões na rival OpenAI, Anthropic, um movimento que constitui parte de uma batalha maior de IA generativa entre os gigantes da tecnologia do mundo, que inclui o Google tentando se atualizar por meio de seu chatbot Bard, Meta adotando um espírito firme de código aberto para ajudá-lo a obter uma vantagem e a Microsoft se alinhando estreitamente com o próprio OpenAI.
Iniciador de conversa
Hoje marca uma evolução notável para o movimento generativo da IA, com a OpenAI mesclando o mundo familiar dos assistentes baseados em voz com seus poderosos modelos de linguagem grande (LLMs).
Por exemplo, um usuário poderá pedir verbalmente ao ChatGPT para inventar uma história para dormir na hora, com algumas instruções vocais para orientar a narrativa. Ou o usuário pode simplesmente fazer uma pergunta, com o ChatGPT dando sua resposta em forma de palavra falada.
Em outros lugares, os usuários do ChatGPT também poderão procurar respostas usando imagens, por exemplo, enviando uma imagem de algo e pedindo ao ChatGPT que explique o que é ou forneça instruções para completar uma meta.
O recurso de voz é alimentado por um novo modelo de conversão de texto em fala que pode gerar vozes semelhantes às humanas a partir de texto e alguns segundos de amostra de fala. A OpenAI disse que se uniu a dubladores estabelecidos para criar cinco vozes diferentes, com seu sistema de reconhecimento de fala Whisper de código aberto usado para transcrever declarações verbais em texto.
Spotify também foi revelado como parceiro de lançamento, com a gigante do streaming de música introduzindo um novo recurso muito interessante para podcasters que lhes permite experimentar sua voz e traduzir seus programas do inglês para o espanhol, francês ou alemão – mantendo sua própria voz original. No entanto, parece que a OpenAI está tomando cuidado para não atrair críticas, pois não está disponibilizando essa tecnologia para ninguém — ela trabalhou especificamente com podcasters como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons e Steven Bartlett para o lançamento.
“A nova tecnologia de voz – capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real – abre portas para muitas aplicações criativas e focadas na acessibilidade”, escreveu a empresa em um blog. “No entanto, estas capacidades também apresentam novos riscos, como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraude”.
Os novos recursos começarão a ser implementados para assinantes Plus e Enterprise nas próximas duas semanas. Para ativar os recursos de voz, os usuários precisam ir ao menu “configurações” no aplicativo, depois ir para “novos recursos” e ativar conversas de voz. Eles então precisam tocar no botão do fone de ouvido no canto superior direito e selecionar a voz desejada.
A voz será limitada inicialmente aos aplicativos ChatGPT para Android e iOS em uma versão beta opcional, enquanto a pesquisa de imagens chegará a todas as plataformas por padrão.