Gravações barulhentas de entrevistas e discursos são a ruína da existência dos engenheiros de áudio. Mas uma startup alemã espera resolver isso com uma abordagem técnica única que utiliza IA generativa para melhorar a clareza das vozes no vídeo.

Hoje, Cústica de IA emergiu do sigilo com um financiamento de 1,9 milhões de euros. De acordo com o cofundador e CEO Fabian Seipel, a tecnologia da AI-coustics vai além da supressão de ruído padrão para funcionar em – e com – qualquer dispositivo e alto-falante.

“Nossa principal missão é tornar cada interação digital, seja em uma teleconferência, dispositivo de consumo ou vídeo casual em mídia social, tão clara quanto uma transmissão de um estúdio profissional”, disse Seipel ao TechCrunch em entrevista.

Seipel, engenheiro de áudio por formação, foi cofundador da AI-coustics com Corvin Jaedicke, professor de aprendizado de máquina na Universidade Técnica de Berlim, em 2021. Seipel e Jaedicke se conheceram enquanto estudavam tecnologia de áudio na TU Berlin, onde frequentemente encontravam áudio de baixa qualidade qualidade nos cursos e tutoriais on-line que tiveram que fazer.

“Fomos impulsionados por uma missão pessoal de superar o desafio generalizado da má qualidade de áudio nas comunicações digitais”, disse Seipel. “Embora minha audição esteja ligeiramente prejudicada devido à produção musical aos vinte e poucos anos, sempre tive dificuldades com conteúdo e palestras on-line, o que nos levou a trabalhar no tópico qualidade da fala e inteligibilidade em primeiro lugar.”

O mercado de software de supressão de ruído e aprimoramento de voz com tecnologia de IA já é muito robusto. Os rivais da AI-coustics incluem Insoundz, que usa IA generativa para aprimorar clipes de fala transmitidos e pré-gravados, e Veed.io, um pacote de edição de vídeo com ferramentas para remover ruído de fundo dos clipes.

Mas Seipel diz que a AI-coustics tem uma abordagem única para desenvolver os mecanismos de IA que fazem o trabalho real de redução de ruído.

A startup usa um modelo treinado em amostras de fala gravadas no estúdio da startup em Berlim, cidade natal da AI-coustics. As pessoas são pagas para registrar amostras – Seipel não disse quanto – que depois são adicionadas a um conjunto de dados para treinar o modelo de redução de ruído da AI-coustics.

“Desenvolvemos uma abordagem única para simular artefatos e problemas de áudio – por exemplo, ruído, reverberação, compressão, microfones com banda limitada, distorção, recorte e assim por diante – durante o processo de treinamento”, disse Seipel.

Aposto que alguns discordarão do esquema de compensação única da AI-coustics para criadores, dado que o modelo que a startup está treinando pode se tornar bastante lucrativo no longo prazo. (Há um debate saudável sobre se os criadores de dados de treino para modelos de IA merecem resíduos pelas suas contribuições.) Mas talvez a preocupação maior e mais imediata seja o preconceito.

Está bem estabelecido que algoritmos de reconhecimento de fala podem desenvolver preconceitos – preconceitos que acabam prejudicando os usuários. A estudar publicado no The Proceedings of the National Academy of Sciences mostrou que o reconhecimento de fala de empresas líderes tinha duas vezes mais probabilidade de transcrever incorretamente o áudio de falantes negros do que de falantes brancos.

Em um esforço para combater isso, Seipel diz que a AI-coustics está se concentrando no recrutamento de colaboradores “diversos” para amostras de fala. Ele acrescentou: “O tamanho e a diversidade são fundamentais para eliminar preconceitos e fazer com que a tecnologia funcione para todos os idiomas, identidades de falantes, idades, sotaques e gêneros”.

Não foi o teste mais científico, mas carreguei três videoclipes — um entrevista com um agricultor do século XVIIIa demonstração de condução de carro e um Protesto contra o conflito Israel-Palestina — à plataforma da AI-coustics para ver o desempenho de cada uma delas. A AI-coustics realmente cumpriu sua promessa de aumentar a clareza; para meus ouvidos, os clipes processados ​​tinham muito menos ruído de fundo ambiente abafando os alto-falantes.

Aqui está o clipe do fazendeiro do século 18:


E depois:

Seipel vê a tecnologia AI-coustics sendo usada para aprimoramento de fala em tempo real e gravada, e talvez até mesmo incorporada em dispositivos como barras de som, smartphones e fones de ouvido para aumentar automaticamente a clareza da voz. Atualmente, AI-coustics oferece um aplicativo web e API para pós-processamento de gravações de áudio e vídeo, e um SDK que traz a plataforma da AI-coustics para fluxos de trabalho, aplicativos e hardware existentes.

Seipel diz que a AI-coustics – que ganha dinheiro através de uma combinação de assinaturas, preços sob demanda e licenciamento – tem atualmente cinco clientes empresariais e 20.000 usuários (embora nem todos paguem). No roteiro para os próximos meses está a expansão da equipe de quatro pessoas da empresa e a melhoria do modelo subjacente de aprimoramento da fala.

“Antes do nosso investimento inicial, a AI-coustics administrava uma operação bastante enxuta com uma baixa taxa de consumo para sobreviver às dificuldades do mercado de investimento de capital de risco”, disse Seipel. “A AI-coustics tem agora uma rede substancial de investidores e mentores na Alemanha e no Reino Unido para aconselhamento. Uma forte base tecnológica e a capacidade de atender diferentes mercados com o mesmo banco de dados e tecnologia central dão à empresa flexibilidade e capacidade para pivôs menores.”

Questionado sobre se tecnologias de masterização de áudio como AI-coustics podem roubar empregos como alguns especialistas tememSeipel observou o potencial da AI-coustics para agilizar tarefas demoradas que atualmente cabem aos engenheiros de áudio humanos.

“Um estúdio de criação de conteúdo ou gerente de transmissão pode economizar tempo e dinheiro automatizando partes do processo de produção de áudio com acústica de IA, mantendo a mais alta qualidade de fala”, disse ele. “A qualidade e a inteligibilidade da fala ainda são um problema irritante em quase todos os consumidores ou dispositivos profissionais, bem como na produção ou consumo de conteúdo. Cada aplicação onde a fala está sendo gravada, processada ou transmitida pode potencialmente se beneficiar da nossa tecnologia.”

O financiamento tomou a forma de uma parcela de capital e dívida da Connect Ventures, Inovia Capital, FOV Ventures e Ableton CFO Jan Bohl.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *