Você tem uma empresa Sésamo lançou o modelo básico que alimenta Maya, o Assistente de voz impressionantemente realista.
O modelo, que tem 1 bilhão de parâmetros em tamanho (“parâmetros” referentes a componentes individuais do modelo), está sob uma licença Apache 2.0, o que significa que pode ser usado comercialmente com poucas restrições. Chamado CSM-1B, o modelo gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, de acordo com Descrição da gergelim na plataforma Ai Dev abraçando o rosto.
O RVQ refere -se à “quantização de vetores residuais”, uma técnica para codificar áudio em tokens discretos chamados códigos. RVQ é usado Em várias tecnologias recentes de áudio de AIincluindo o SoundStream do Google e o Encodec da Meta.
O CSM-1B usa um modelo da família Llama da Meta, enquanto sua espinha dorsal combinada com um componente “decodificador” de áudio. Uma variante de ajuste fino dos poderes de CSM Maya, diz a gergelim.
“O modelo de código aberto aqui é um modelo de geração de base”, escreve o gergelim no CSM-1B’s Abraçando o rosto e Girub Repositórios. “É capaz de produzir uma variedade de vozes, mas não foi ajustado em nenhuma voz específica (…) o modelo tem alguma capacidade de idiomas não ingleses devido à contaminação dos dados nos dados de treinamento, mas provavelmente não se sairá bem”.
Não está claro qual o gergelim de dados usou para treinar CSM-1B. A empresa não disse.
Vale a pena notar que o modelo não tem salvaguardas reais para falar. O gergelim possui um sistema de honra e apenas pede que desenvolvedores e usuários não usem o modelo para imitar a voz de uma pessoa sem o seu consentimento, criar conteúdo enganoso, como notícias falsas ou se envolver em atividades “prejudiciais” ou “maliciosas”.
tentei a demonstração Ao abraçar o rosto e clonar minha voz levou menos de um minuto. A partir daí, foi fácil gerar fala para o desejo do meu coração, inclusive em tópicos controversos como a eleição e a propaganda russa.
Relatórios de consumidores recentemente alertaram que muitas ferramentas populares de clonagem de voz de IA no mercado não tem salvaguardas “significativas” para evitar fraudes ou abusos.
O gergelim, co-fundado pelo co-criador do Oculus, Brendan Iribe, se tornou viral no final de fevereiro para sua tecnologia assistente, que chega perto de limpar o território Unnanny Valley. O outro assistente de Maya e Sesame, Miles, respira e fala com disfluências e pode ser interrompido enquanto fala, assim como o modo de voz do Openai.
O gergelim levantou uma quantidade não revelada de capital de Andreessen Horowitz, Spark Capital e Matrix Partners. Além de criar tecnologia de assistente de voz, a empresa diz que está prototipando óculos de AI “projetados para serem usados o dia todo” que serão equipados com seus modelos personalizados.