ElevenLabsa plataforma viral alimentada por IA para a criação de vozes sintéticas, lançou hoje sua plataforma beta com suporte para mais de 30 idiomas.
Usando um novo modelo de IA desenvolvido internamente, a ElevenLabs diz que suas ferramentas agora são capazes de identificar automaticamente idiomas, incluindo coreano, holandês e vietnamita, e gerar fala “emocionalmente rica” nesses idiomas.
Em combinação com o novo modelo, os clientes da ElevenLabs podem aproveitar a ferramenta de clonagem de voz da plataforma para falar em quase 30 idiomas sem precisar digitar texto primeiro.
“A ElevenLabs começou com o sonho de tornar todo o conteúdo universalmente acessível em qualquer idioma e em qualquer voz”, disse o CEO e cofundador da ElevenLabs, Mati Staniszewski, em comunicado. “Com este lançamento, estamos um passo mais perto de tornar este sonho uma realidade e disponibilizar vozes de IA com qualidade humana em todos os dialetos. Nossas ferramentas de geração de conversão de texto em fala ajudam a nivelar o campo de atuação e trazem recursos de áudio falado de alta qualidade para todos os criadores por aí.”
Fundada por Staniszewski, que trabalhou anteriormente na Palantir, e seu amigo de infância Piotr Dabkowski, ex-funcionário do Google, a ElevenLabs ganhou as manchetes nos últimos meses por razões tanto bom e abominável. Inspirados pela dublagem medíocre dos filmes americanos que Staniszewski e Dabkowski assistiram enquanto cresciam na Polônia, a dupla começou a projetar uma plataforma que poderia fazer melhor – empregando IA, é claro.
O ElevenLabs foi lançado em versão beta no final de janeiro e ganhou força rapidamente – devido à alta qualidade de suas vozes geradas e ao generoso nível gratuito. Mas, como mencionado anteriormente, a publicidade não foi consistentemente positiva – especialmente depois que os maus atores exploraram a plataforma para seus próprios fins.
O infame quadro de mensagens 4chan, conhecido por seu conteúdo conspiratório, usado As ferramentas da ElevenLabs para compartilhar mensagens de ódio imitando celebridades como a atriz Emma Watson. Em outro lugar, James Vincent, do The Verge, conseguiu usar o ElevenLabs para clonar as vozes dos alvos em questão de segundos, gerando amostras de áudio contendo tudo, desde ameaças de violência a expressões de racismo e transfobia.
Em resposta, a ElevenLabs disse que introduziria um conjunto de novas salvaguardas, como limitar a clonagem de voz a contas pagas e fornecer uma nova ferramenta de detecção de IA.
A ElevenLabs ainda precisa lidar com a outra controvérsia que está surgindo em torno de sua plataforma e outras plataformas semelhantes: sua ameaça à indústria de dublagem.
placa-mãe escreve sobre como os dubladores estão sendo cada vez mais solicitados a ceder os direitos de suas vozes para que os clientes possam usar a IA para gerar versões sintéticas que possam eventualmente substituí-los. Enquanto isso, e-mails internos visto pelo The New York Times indicam que a Activision Blizzard, uma das maiores editoras de jogos do mundo, está trabalhando em ferramentas para “clonagem de voz” assistida por IA.
Parece que a ElevenLabs vê isso como a progressão natural das coisas, divulgando seu trabalho com editoras como a Storytel; plataformas de mídia como TheSoul Publishing e MNTN para audiolivros e conteúdo de rádio; e editoras como Embark Studios e Paradox Interactive para videogames (Storytel e TheSoul Publishing são investidores estratégicos). A empresa afirma ter mais de um milhão de usuários registrados nos espaços criativos, de entretenimento e publicação que criaram 10 anos de conteúdo de áudio.
A ElevenLabs, que recentemente levantou US$ 19 milhões de investidores, incluindo Andreessen Horowitz e o cofundador da DeepMind Mustafa Suleyman em uma avaliação de US$ 99, planeja eventualmente estender seus modelos de IA para dublagem de voz – seguindo os passos de startups como Papercup e Deepdub e construindo o que chama de “uma base para poder transferir emoções e entonação de um idioma para outro”.
Além disso, ElevenLabs diz que planeja introduzir um mecanismo que permitirá aos usuários compartilhar vozes na plataforma, embora os detalhes permaneçam nebulosos.