ElevenLabsa plataforma viral alimentada por IA para a criação de vozes sintéticas, lançou hoje sua plataforma beta com suporte para mais de 30 idiomas.

Usando um novo modelo de IA desenvolvido internamente, a ElevenLabs diz que suas ferramentas agora são capazes de identificar automaticamente idiomas, incluindo coreano, holandês e vietnamita, e gerar fala “emocionalmente rica” nesses idiomas.

Em combinação com o novo modelo, os clientes da ElevenLabs podem aproveitar a ferramenta de clonagem de voz da plataforma para falar em quase 30 idiomas sem precisar digitar texto primeiro.

“A ElevenLabs começou com o sonho de tornar todo o conteúdo universalmente acessível em qualquer idioma e em qualquer voz”, disse o CEO e cofundador da ElevenLabs, Mati Staniszewski, em comunicado. “Com este lançamento, estamos um passo mais perto de tornar este sonho uma realidade e disponibilizar vozes de IA com qualidade humana em todos os dialetos. Nossas ferramentas de geração de conversão de texto em fala ajudam a nivelar o campo de atuação e trazem recursos de áudio falado de alta qualidade para todos os criadores por aí.”

Fundada por Staniszewski, que trabalhou anteriormente na Palantir, e seu amigo de infância Piotr Dabkowski, ex-funcionário do Google, a ElevenLabs ganhou as manchetes nos últimos meses por razões tanto bom e abominável. Inspirados pela dublagem medíocre dos filmes americanos que Staniszewski e Dabkowski assistiram enquanto cresciam na Polônia, a dupla começou a projetar uma plataforma que poderia fazer melhor – empregando IA, é claro.

O ElevenLabs foi lançado em versão beta no final de janeiro e ganhou força rapidamente – devido à alta qualidade de suas vozes geradas e ao generoso nível gratuito. Mas, como mencionado anteriormente, a publicidade não foi consistentemente positiva – especialmente depois que os maus atores exploraram a plataforma para seus próprios fins.

O infame quadro de mensagens 4chan, conhecido por seu conteúdo conspiratório, usado As ferramentas da ElevenLabs para compartilhar mensagens de ódio imitando celebridades como a atriz Emma Watson. Em outro lugar, James Vincent, do The Verge, conseguiu usar o ElevenLabs para clonar as vozes dos alvos em questão de segundos, gerando amostras de áudio contendo tudo, desde ameaças de violência a expressões de racismo e transfobia.

Em resposta, a ElevenLabs disse que introduziria um conjunto de novas salvaguardas, como limitar a clonagem de voz a contas pagas e fornecer uma nova ferramenta de detecção de IA.

A ElevenLabs ainda precisa lidar com a outra controvérsia que está surgindo em torno de sua plataforma e outras plataformas semelhantes: sua ameaça à indústria de dublagem.

placa-mãe escreve sobre como os dubladores estão sendo cada vez mais solicitados a ceder os direitos de suas vozes para que os clientes possam usar a IA para gerar versões sintéticas que possam eventualmente substituí-los. Enquanto isso, e-mails internos visto pelo The New York Times indicam que a Activision Blizzard, uma das maiores editoras de jogos do mundo, está trabalhando em ferramentas para “clonagem de voz” assistida por IA.

Parece que a ElevenLabs vê isso como a progressão natural das coisas, divulgando seu trabalho com editoras como a Storytel; plataformas de mídia como TheSoul Publishing e MNTN para audiolivros e conteúdo de rádio; e editoras como Embark Studios e Paradox Interactive para videogames (Storytel e TheSoul Publishing são investidores estratégicos). A empresa afirma ter mais de um milhão de usuários registrados nos espaços criativos, de entretenimento e publicação que criaram 10 anos de conteúdo de áudio.

A ElevenLabs, que recentemente levantou US$ 19 milhões de investidores, incluindo Andreessen Horowitz e o cofundador da DeepMind Mustafa Suleyman em uma avaliação de US$ 99, planeja eventualmente estender seus modelos de IA para dublagem de voz – seguindo os passos de startups como Papercup e Deepdub e construindo o que chama de “uma base para poder transferir emoções e entonação de um idioma para outro”.

Além disso, ElevenLabs diz que planeja introduzir um mecanismo que permitirá aos usuários compartilhar vozes na plataforma, embora os detalhes permaneçam nebulosos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *