Há muito dinheiro na clonagem de voz.
Caso em questão: OnzeLabsuma startup que desenvolve ferramentas baseadas em IA para criar e editar vozes sintéticas, anunciou hoje que fechou uma rodada Série B de US$ 80 milhões co-liderada por investidores proeminentes, incluindo Andreessen Horowitz, o ex-CEO do GitHub Nat Friedman e o empresário Daniel Gross.
A rodada, que também contou com a participação de Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital e Credo Ventures, eleva o total arrecadado da ElevenLabs para US$ 101 milhões e avalia a empresa em mais de US$ 1 bilhão (acima dos ~$ 100 milhões de junho passado). O CEO Mati Staniszewski diz que o novo dinheiro será aplicado no desenvolvimento de produtos, na expansão da infraestrutura e da equipe da ElevenLabs, na pesquisa de IA e no “aprimoramento das medidas de segurança para garantir o desenvolvimento responsável e ético da tecnologia de IA”.
“Levantamos o novo dinheiro para consolidar a posição da ElevenLabs como líder global em pesquisa de IA de voz e implantação de produtos”, disse Staniszewski ao TechCrunch em uma entrevista por e-mail.
Cofundada em 2022 por Piotr Dabkowski, ex-engenheiro de aprendizado de máquina do Google, e Staniszewski, ex-estrategista de implantação da Palantir, a ElevenLabs foi lançada em versão beta há cerca de um ano. Staniszewski diz que ele e Dabkowski, que cresceu na Polônia, foram inspirados a criar ferramentas de clonagem de voz por meio de filmes americanos mal dublados. A IA poderia fazer melhor, eles pensaram.
Hoje, a ElevenLabs é talvez mais conhecida por seu aplicativo de geração de fala baseado em navegador, que pode criar vozes realistas com botões ajustáveis para entonação, emoção, cadência e outras características vocais importantes. Gratuitamente, os usuários podem inserir texto e obter uma gravação desse texto lida em voz alta por uma das várias vozes padrão. Os clientes pagantes podem fazer upload de amostras de voz para criar novos estilos usando a clonagem de voz da ElevenLabs.
Cada vez mais, a ElevenLabs está investindo em versões de sua tecnologia de geração de fala destinadas à criação de audiolivros e dublagem de filmes e programas de TV, bem como à geração de vozes de personagens para jogos e ativações de marketing.
No ano passado, a empresa lançou uma ferramenta de “fala em fala” que tenta preservar a voz, a prosódia e a entonação do locutor, ao mesmo tempo que remove automaticamente o ruído de fundo e – no caso de filmes e programas de TV – traduz e sincroniza a fala com o material de origem. No roteiro para as próximas semanas está um novo fluxo de trabalho de estúdio de dublagem com ferramentas para gerar e editar transcrições e traduções e um aplicativo móvel baseado em assinatura que narra páginas da web e texto usando vozes do ElevenLabs.
As inovações da ElevenLabs conquistaram clientes iniciantes da Paradox Interactive, desenvolvedora de jogos cujos projetos recentes incluem Cities: Skylines 2 e Stellaris, e The Washington Post – entre outras empresas de publicação, mídia e entretenimento. Staniszewski afirma que os usuários do ElevenLab geraram o equivalente a mais de 100 anos de áudio e que a plataforma está sendo usada por funcionários de 41% das empresas Fortune 500.
Mas a publicidade não tem sido totalmente positiva.
O infame quadro de mensagens 4chan, conhecido por seu conteúdo conspiratório, usado Ferramentas da ElevenLabs para compartilhar mensagens de ódio imitando celebridades como a atriz Emma Watson. James Vincent do The Verge conseguiu usar o ElevenLabs para clonar vozes maliciosamente em questão de segundos, gerando amostras contendo tudo, desde ameaças de violência até comentários racistas e transfóbicos. E na Vox, o repórter Joseph Cox documentado gerando um clone convincente o suficiente para enganar o sistema de autenticação de um banco.
Em resposta, a ElevenLabs tentou erradicar os usuários que violavam repetidamente seus termos de serviço, que proíbem abusos, e lançou uma ferramenta para detectar a fala criada por sua plataforma. Este ano, a ElevenLabs planeja melhorar a ferramenta de detecção para sinalizar áudio de outros modelos de IA de geração de voz e fazer parceria com “distribuidores” não identificados para disponibilizar a ferramenta em plataformas de terceiros, diz Staniszewski.
A ElevenLabs também enfrentou críticas de dubladores que afirmam que a empresa usa amostras de suas vozes sem o seu consentimento – amostras que poderiam ser aproveitadas para promover conteúdo que eles não endossam ou espalhar informações erradas e desinformadas. Em um recente No artigo da Vice, as vítimas contam como o ElevenLabs foi usado em campanhas de assédio contra elas, em um exemplo, para compartilhar informações privadas de um ator – seu endereço residencial – usando uma voz clonada.
Depois, há o elefante na sala: as plataformas de ameaça existencial como o ElevenLabs representam para a indústria de dublagem.
Placa-mãe escreve sobre como os dubladores são cada vez mais solicitados a renunciar aos direitos de suas vozes para que os clientes possam usar a IA para gerar versões sintéticas que possam eventualmente substituí-las – às vezes sem compensação proporcional. O medo é que o trabalho de voz – especialmente o trabalho de nível básico barato – acabe sendo substituído por vocais gerados por IA, e que os atores não tenham recurso.
Algumas plataformas estão tentando encontrar um equilíbrio. No início deste mês, a Replica Studios, concorrente da ElevenLabs, assinou um acordo com a SAG-AFTRA para criar e licenciar réplicas digitais das vozes dos membros do sindicato dos artistas de mídia. Num comunicado de imprensa, as organizações afirmaram que o acordo estabelecia termos e condições “justos” e “éticos” para garantir o consentimento do intérprete – e termos de negociação para a utilização de duplicatas de voz digital em novas obras.
Mesmo isso não agradou alguns dubladores – incluindo SAG-AFTRA próprios membros.
A solução da ElevenLabs é um mercado para vozes. Atualmente em fase alfa e previsto para se tornar mais amplamente disponível nas próximas semanas, o mercado permite que os usuários criem uma voz, verifiquem e compartilhem-na. Quando outros usam a voz, os criadores originais recebem uma compensação, diz Staniszewski.
“Os usuários sempre mantêm o controle sobre a disponibilidade de sua voz e os termos de compensação”, acrescentou. “O mercado foi concebido como um passo no sentido de harmonizar os avanços da IA com as práticas estabelecidas da indústria, ao mesmo tempo que traz um conjunto diversificado de vozes para a plataforma da ElevenLabs.”
Os dubladores podem discordar do fato de que a ElevenLabs não está pagando em dinheiro – pelo menos não no momento. A configuração atual faz com que os criadores recebam crédito pelos serviços premium da ElevenLabs (o que alguns consideram irônico, aposto).
Talvez isso mude no futuro, à medida que a ElevenLabs – que agora está entre as startups de voz sintética mais bem financiadas – tenta vencer concorrentes emergentes como Papercup, Deepdub, ElevenLabs, Acapela, Respeecher e Voice.ai, bem como grandes empresas de tecnologia como como Amazon, Microsoft e Google. De qualquer forma, a ElevenLabs, que planeja aumentar seu quadro de funcionários de 40 para 100 até o final do ano, pretende permanecer – e fazer barulho – no mercado de voz sintética em rápido crescimento.