Houve muitas tentativas de assistentes de voz baseados em IA de código aberto (veja Rhasspy, Mycroft e Jasper, para citar alguns) – todas estabelecidas com o objetivo de criar experiências off-line que preservem a privacidade e não comprometam a funcionalidade. Mas o desenvolvimento provou ser extraordinariamente lento. Isso porque, além de todos os desafios habituais dos projetos open source, programar um assistente é duro. Tecnologias como Google Assistant, Siri e Alexa têm anos, senão décadas, de pesquisa e desenvolvimento – e ainda por cima uma enorme infraestrutura.

Mas isso não impede o pessoal da Rede Aberta de Inteligência Artificial em Grande Escala (LAION), a organização sem fins lucrativos alemã responsável por manter alguns dos conjuntos de dados de treinamento de IA mais populares do mundo. Este mês, LAION anunciou uma nova iniciativa, BUD-E, que busca construir um assistente de voz “totalmente aberto” capaz de rodar em hardware de consumo.

Por que lançar um projeto totalmente novo de assistente de voz quando há inúmeros outros por aí em vários estados de abandono? Wieland Brendel, pesquisador do Ellis Institute e colaborador do BUD-E, acredita que não existe um assistente aberto com uma arquitetura extensível o suficiente para aproveitar ao máximo as tecnologias emergentes de GenAI, particularmente modelos de linguagem grandes (LLMs) nos moldes de ChatGPT da OpenAI.

“A maioria das interações com (assistentes) depende de interfaces de bate-papo que são bastante complicadas de interagir, (e) os diálogos com esses sistemas parecem artificiais e não naturais”, disse Brendel ao TechCrunch em uma entrevista por e-mail. “Esses sistemas são adequados para transmitir comandos para controlar sua música ou acender a luz, mas não são uma base para conversas longas e envolventes. O objetivo do BUD-E é fornecer a base para um assistente de voz que pareça muito mais natural para os humanos e que imite os padrões naturais de fala dos diálogos humanos e lembre-se de conversas passadas.”

Brendel acrescentou que a LAION também quer garantir que todos os componentes do BUD-E possam eventualmente ser integrados com aplicativos e serviços livres de licença, mesmo comercialmente – o que não é necessariamente o caso de outros esforços de assistente aberto.

Uma colaboração com o Ellis Institute em Tübingen, a consultoria tecnológica Collabora e o Tübingen AI Center, BUD-E – abreviatura recursiva para “Buddy for Understanding and Digital Empathy” – tem um roteiro ambicioso. Em um postagem no bloga equipe LAION expõe o que espera realizar nos próximos meses, principalmente incorporando “inteligência emocional” no BUD-E e garantindo que ele possa lidar com conversas envolvendo vários oradores ao mesmo tempo.

“Há uma grande necessidade de um assistente de voz natural que funcione bem”, disse Brendel. “A LAION demonstrou no passado que é excelente na construção de comunidades, e o ELLIS Institute Tübingen e o Tübingen AI Center estão empenhados em fornecer os recursos para desenvolver o assistente.”

O BUD-E está instalado e funcionando – você pode download e instale-o hoje mesmo no GitHub no Ubuntu ou Windows PC (o macOS está chegando) – mas está claramente nos estágios iniciais.

A LAION reuniu vários modelos abertos para montar um MVP, incluindo o Phi-2 LLM da Microsoft, o StyleTTS2 de conversão de texto em fala da Columbia e o FastConformer da Nvidia para conversão de fala em texto. Como tal, a experiência é um pouco pouco otimizada. Fazer com que o BUD-E responda aos comandos em cerca de 500 milissegundos – na faixa de assistentes de voz comerciais como Google Assistant e Alexa – requer uma GPU robusta como a da Nvidia RTX4090.

A Collabora está trabalhando pro bono para adaptar seus modelos de reconhecimento de fala e conversão de texto em fala de código aberto, WhisperLive e WhisperSpeech, para BUD-E.

“Construir nós mesmos as soluções de conversão de texto em fala e de reconhecimento de fala significa que podemos personalizá-las em um grau que não é possível com modelos fechados expostos por meio de APIs”, Jakub Piotr Cłapa, pesquisador de IA da Collabora e membro da equipe BUD-E, disse em um e-mail. “A Collabora inicialmente começou a trabalhar em (assistentes abertos) parcialmente porque tínhamos dificuldade em encontrar uma boa solução de conversão de texto em fala para um agente de voz baseado em LLM para um de nossos clientes. Decidimos unir forças com a comunidade de código aberto mais ampla para tornar nossos modelos mais acessíveis e úteis.”

No curto prazo, LAION diz que funcionará para tornar os requisitos de hardware do BUD-E menos onerosos e reduzir a latência do assistente. Um empreendimento de horizonte mais longo está construindo um conjunto de dados de diálogos para ajustar o BUD-E – bem como um mecanismo de memória para permitir que o BUD-E armazene informações de conversas anteriores e um pipeline de processamento de fala que pode acompanhar várias pessoas conversando ao mesmo tempo. uma vez.

Perguntei à equipe se acessibilidade era uma prioridade, considerando que os sistemas de reconhecimento de fala historicamente não tiveram um bom desempenho com idiomas que não sejam o inglês e sotaques que não sejam transatlânticos. Um Stanford estudar descobriram que os sistemas de reconhecimento de fala da Amazon, IBM, Google, Microsoft e Apple tinham quase duas vezes mais probabilidade de ouvir mal os falantes negros do que os falantes brancos da mesma idade e sexo.

Brendel disse que LAION não está ignorando a acessibilidade – mas que não é um “foco imediato” para BUD-E.

“O primeiro foco é realmente redefinir a experiência de como interagimos com assistentes de voz antes de generalizar essa experiência para sotaques e idiomas mais diversos”, disse Brendel.

Para esse fim, LAION tem algumas ideias bastante inovadoras para o BUD-E, que vão desde um avatar animado até a personificação do assistente e suporte para análise de rostos de usuários por meio de webcams para avaliar seu estado emocional.

A ética desta última parte – análise facial – é um pouco arriscada, nem é preciso dizer. Mas Robert Kaczmarczyk, cofundador da LAION, enfatizou que a LAION continuará comprometida com a segurança.

“(Nós) aderimos estritamente às diretrizes éticas e de segurança formuladas pela Lei de IA da UE”, disse ele ao TechCrunch por e-mail – referindo-se à estrutura legal que rege a venda e uso de IA na UE. A Lei de IA da UE permite que os países membros da União Europeia adotem regras e salvaguardas mais restritivas para IA de “alto risco”, incluindo classificadores de emoções.

Este compromisso com a transparência não só facilita a identificação precoce e a correção de potenciais preconceitos, mas também ajuda a causa da integridade científica”, acrescentou Kaczmarczyk. “Ao tornar os nossos conjuntos de dados acessíveis, permitimos que a comunidade científica mais ampla se envolva em pesquisas que mantenham os mais altos padrões de reprodutibilidade.”

Trabalho anterior de LAION não foi impecável no sentido ético, e está atualmente desenvolvendo um projeto separado um tanto controverso sobre detecção de emoções. Mas talvez o BUD-E seja diferente; teremos que esperar para ver.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *