À medida que os deepfakes proliferam, a OpenAI está refinando a tecnologia usada para clonar vozes – mas a empresa insiste que está fazendo isso de forma responsável.
Hoje marca a estreia prévia do OpenAI Motor de voz, uma expansão da API de conversão de texto em fala existente da empresa. Em desenvolvimento há cerca de dois anos, o Voice Engine permite aos usuários fazer upload de qualquer amostra de voz de 15 segundos para gerar uma cópia sintética dessa voz. Mas ainda não há data para disponibilização pública, dando tempo à empresa para responder à forma como o modelo é usado e abusado.
“Queremos ter certeza de que todos se sentem bem com a forma como ela está sendo implantada – que entendemos o cenário onde essa tecnologia é perigosa e temos mitigações para isso”, disse Jeff Harris, membro da equipe de produto da OpenAI. TechCrunch em entrevista.
Treinando o modelo
O modelo generativo de IA que alimenta o Voice Engine está escondido à vista há algum tempo, disse Harris.
O mesmo modelo sustenta os recursos de voz e “leitura em voz alta” no ChatGPT, o chatbot baseado em IA da OpenAI, bem como as vozes predefinidas disponíveis na API de conversão de texto em fala da OpenAI. E o Spotify o utiliza desde o início de setembro para dublar podcasts para apresentadores de alto nível como Lex Fridman em diferentes idiomas.
Perguntei a Harris de onde vieram os dados de treinamento do modelo – um assunto um pouco delicado. Ele diria apenas que o modelo Voice Engine foi treinado em um misturar de dados licenciados e publicamente disponíveis.
Modelos como o que alimenta o Voice Engine são treinados em um enorme número de exemplos – neste caso, gravações de fala – geralmente provenientes de sites públicos e conjuntos de dados na web. Muitos generativos Os fornecedores de IA veem os dados de treinamento como uma vantagem competitiva e, portanto, mantêm-nos e as informações relativas a eles sob controle. Mas os detalhes dos dados de treinamento também são uma fonte potencial de ações judiciais relacionadas à PI, outro desincentivo para revelar muita coisa.
OpenAI é já ser processado sobre alegações de que a empresa violou a lei de propriedade intelectual ao treinar sua IA em conteúdo protegido por direitos autorais, incluindo fotos, arte, código, artigos e e-books, sem fornecer crédito ou pagamento aos criadores ou proprietários.
A OpenAI possui acordos de licenciamento com alguns provedores de conteúdo, como a Shutterstock e o editor de notícias Axel Springer, e permite que os webmasters bloqueiem seu rastreador da web de extrair dados de treinamento de seus sites. A OpenAI também permite que os artistas “optem” e removam seus trabalhos dos conjuntos de dados que a empresa usa para treinar seus modelos de geração de imagens, incluindo seu mais recente DALL-E 3.
Mas a OpenAI não oferece tal esquema de exclusão para seus outros produtos. E numa declaração recente à Câmara dos Lordes do Reino Unido, a OpenAI sugeriu que é “impossível” criar modelos úteis de IA sem material protegido por direitos de autor, afirmando que o uso justo – a doutrina legal que permite a utilização de obras protegidas por direitos de autor para fazer uma criação secundária como desde que seja transformador – protege-o no que diz respeito ao treinamento de modelo.
Sintetizando voz
Surpreendentemente, Voice Engine não é treinado ou ajustado com base nos dados do usuário. Isso se deve em parte à forma efêmera como o modelo – uma combinação de um processo de difusão e transformador – gera fala.
“Pegamos uma pequena amostra de áudio e texto e geramos uma fala realista que corresponde ao orador original”, disse Harris. “O áudio usado é descartado após a conclusão da solicitação.”
Conforme ele explicou, o modelo analisa simultaneamente os dados de fala extraídos e os dados de texto que devem ser lidos em voz alta, gerando uma voz correspondente sem a necessidade de construir um modelo personalizado por locutor.
Não é uma tecnologia nova. Várias startups entregaram produtos de clonagem de voz durante anos, desde ElevenLabs até Replica Studios, Papercup, Deepdub e Respeecher. O mesmo aconteceu com as grandes empresas de tecnologia, como Amazon, Google e Microsoft – a última das quais é, aliás, um grande investidor da OpenAI.
Harris afirmou que a abordagem da OpenAI oferece um discurso geral de maior qualidade.
Também sabemos que terá um preço agressivo. Embora a OpenAI tenha removido os preços do Voice Engine dos materiais de marketing publicados hoje, em documentos visualizados pelo TechCrunch, o Voice Engine está listado como custando US$ 15 por um milhão de caracteres, ou aproximadamente 162.500 palavras. Isso caberia em “Oliver Twist” de Dickens com um pouco de espaço de sobra. (Uma opção de qualidade “HD” custa o dobro, mas para confusão, um porta-voz da OpenAI disse ao TechCrunch que não há diferença entre vozes HD e não HD. Faça disso o que quiser.)
Isso se traduz em cerca de 18 horas de áudio, fazendo com que o preço fique um pouco abaixo de US$ 1 por hora. Na verdade, isso é mais barato do que cobra um dos fornecedores rivais mais populares, ElevenLabs – US$ 11 por 100.000 caracteres por mês. Mas isso faz vem às custas de alguma personalização.
Voice Engine não oferece controles para ajustar o tom, tom ou cadência de uma voz. Na verdade, não oferece qualquer botões ou mostradores de ajuste fino no momento, embora Harris observe que qualquer expressividade na amostra de voz de 15 segundos continuará nas gerações subsequentes (por exemplo, se você falar em um tom animado, a voz sintética resultante soará consistentemente excitada) . Veremos como a qualidade da leitura se compara a outros modelos quando eles podem ser comparados diretamente.
Talento vocal como mercadoria
Os salários dos dubladores no ZipRecruiter variam de US$ 12 a US$ 79 por hora – muito mais caro do que o Voice Engine, mesmo no segmento mais baixo (atores com agentes cobrarão um preço muito mais alto por projeto). Se pegasse, a ferramenta da OpenAI poderia tornar o trabalho de voz comoditizador. Então, onde isso deixa os atores?
A indústria de talentos não seria pega de surpresa, exatamente – ela vem lutando com a ameaça existencial da IA generativa há algum tempo. Cada vez mais, os dubladores são solicitados a ceder os direitos de suas vozes para que os clientes possam usar a IA para gerar versões sintéticas que possam eventualmente substituí-las. O trabalho de voz – especialmente o trabalho de nível básico barato – corre o risco de ser eliminado em favor da fala gerada por IA.
Agora, algumas plataformas de voz de IA estão tentando encontrar um equilíbrio.
A Replica Studios assinou no ano passado um um tanto controverso negociar com a SAG-AFTRA para criar e licenciar cópias das vozes dos membros do sindicato dos artistas de mídia. As organizações afirmaram que o acordo estabelece termos e condições justos e éticos para garantir o consentimento do artista durante a negociação dos termos para o uso de vozes sintéticas em novas obras, incluindo videojogos.
Enquanto isso, a ElevenLabs hospeda um mercado para vozes sintéticas que permite aos usuários criar uma voz, verificá-la e compartilhá-la publicamente. Quando outros usam uma voz, os criadores originais recebem uma compensação – uma determinada quantia em dólares por 1.000 caracteres.
A OpenAI não estabelecerá tais acordos ou mercados sindicais, pelo menos não no curto prazo, e exigirá apenas que os usuários obtenham “consentimento explícito” das pessoas cujas vozes foram clonadas, façam “divulgações claras” indicando quais vozes são geradas por IA e concordam em não usar vozes de menores, pessoas falecidas ou figuras políticas de suas gerações.
“Como isso se cruza com a economia dos dubladores é algo que estamos observando de perto e sobre o qual estamos muito curiosos”, disse Harris. “Acho que haverá muitas oportunidades de ampliar seu alcance como dublador por meio desse tipo de tecnologia. Mas tudo isso é algo que aprenderemos à medida que as pessoas implantarem e brincarem um pouco com a tecnologia.”
Ética e deepfakes
Os aplicativos de clonagem de voz podem ser — e têm sido — abusados de maneiras que vão muito além de ameaçar a subsistência dos atores.
O infame quadro de mensagens 4chan, conhecido por seu conteúdo conspiratório, usado Plataforma da ElevenLabs para compartilhar mensagens de ódio imitando celebridades como Emma Watson. James Vincent, do The Verge, foi capaz de usar ferramentas de IA para clonar vozes de forma maliciosa e rápida, gerando amostras contendo tudo, desde ameaças violentas a comentários racistas e transfóbicos. E na Vice, o repórter Joseph Cox documentou a geração de um clone de voz convincente o suficiente para enganar o sistema de autenticação de um banco.
Há temores de que maus atores tentem influenciar as eleições com clonagem de voz. E não são infundadas: em janeiro, uma campanha por telefone empregou um presidente Biden profundamente falsificado para dissuadir os cidadãos de New Hampshire de votar – o que levou a FCC a tomar medidas para tornar ilegais futuras campanhas desse tipo.
Portanto, além de proibir deepfakes em nível político, que medidas a OpenAI está tomando, se houver, para evitar o uso indevido do Voice Engine? Harris mencionou alguns.
Primeiro, o Voice Engine está sendo disponibilizado apenas para um grupo excepcionalmente pequeno de desenvolvedores – cerca de 10 – para começar. A OpenAI está priorizando casos de uso de “baixo risco” e “socialmente benéficos”, diz Harris, como aqueles em saúde e acessibilidade, além de experimentar mídias sintéticas “responsáveis”.
Alguns dos primeiros a adotar o Voice Engine incluem Age of Learning, uma empresa de tecnologia educacional que está usando a ferramenta para gerar dublagens de atores previamente escalados, e HeyGen, um aplicativo de contar histórias que utiliza o Voice Engine para tradução. A Livox e a Lifespan estão usando o Voice Engine para criar vozes para pessoas com deficiências e dificuldades de fala, e a Dimagi está construindo uma ferramenta baseada no Voice Engine para fornecer feedback aos profissionais de saúde em seus idiomas principais.
Aqui estão as vozes geradas do Lifespan:
E aqui está um do Livox:
Em segundo lugar, os clones criados com o Voice Engine recebem marca d’água usando uma técnica desenvolvida pela OpenAI que incorpora identificadores inaudíveis nas gravações. (Outros fornecedores, incluindo Resemble AI e Microsoft, empregam marcas d’água semelhantes.) Harris não prometeu que não há maneiras de contornar a marca d’água, mas a descreveu como “resistente a adulterações”.
“Se houver um clipe de áudio por aí, é muito fácil olharmos para esse clipe e determinarmos que ele foi gerado pelo nosso sistema e pelo desenvolvedor que realmente fez essa geração”, Harris disse. “Até agora, não é de código aberto – nós o temos internamente por enquanto. Estamos curiosos em torná-lo disponível publicamente, mas obviamente isso traz riscos adicionais em termos de exposição e quebra.”
Terceiro, a OpenAI planeja fornecer aos membros de sua rede de equipes vermelhas, um grupo contratado de especialistas que ajudam a informar a avaliação de risco do modelo de IA da empresa e estratégias de mitigação, acesso ao Voice Engine para descobrir usos maliciosos.
Alguns especialistas discutir que a equipe vermelha de IA não é exaustiva o suficiente e que cabe aos fornecedores desenvolver ferramentas para se defenderem contra danos que sua IA possa causar. A OpenAI não está indo tão longe com o Voice Engine – mas Harris afirma que o “princípio principal” da empresa é liberar a tecnologia com segurança.
Lançamento geral
Dependendo de como for a visualização e da recepção pública do Voice Engine, a OpenAI pode lançar a ferramenta para sua base mais ampla de desenvolvedores, mas no momento a empresa está relutante em se comprometer com algo concreto.
Harris fez dê uma espiada no roteiro do Voice Engine, revelando que a OpenAI está testando um mecanismo de segurança que faz com que os usuários leiam textos gerados aleatoriamente como prova de que estão presentes e cientes de como sua voz está sendo usada. Isso poderia dar à OpenAI a confiança necessária para levar o Voice Engine a mais pessoas, disse Harris – ou pode ser apenas o começo.
“O que continuará nos impulsionando em termos da tecnologia real de correspondência de voz realmente dependerá do que aprendermos com o piloto, dos problemas de segurança descobertos e das mitigações que implementarmos”, disse ele. “Não queremos que as pessoas se confundam entre vozes artificiais e vozes humanas reais.”
E nesse último ponto podemos concordar.