Os aplicativos de calendário são essenciais para a produtividade, mas é difícil diferenciá-los o suficiente para ter um crescimento sustentado apenas do uso principal. Apoiado por Y Combinator Superpoderosoque é um anotador com tecnologia de IA para suas reuniões que não envolve gravação de bots, atingiu esse obstáculo e agora está se transformando para se tornar Brazãoum provedor de API para que qualquer pessoa possa criar facilmente um assistente com inteligência artificial baseado em voz e som natural.

A Superpowered foi fundada em 2020 por Jordan Dearsley e Nikhil Gupta. Mas depois de três anos trabalhando nisso, Dearsley disse que a equipe queria trabalhar em um produto mais desafiador. A empresa não está encerrando o produto inicial porque a startup disse que o Superpowered é lucrativo – ela está em processo de contratar alguém para operá-lo. A Y Combinator disse em junho que mais de 10 mil pessoas usavam o produto semanalmente, mas a empresa não forneceu números atualizados.

Créditos da imagem: Brazão

Até o momento, a Superpowered/Vapi levantou US$ 2,1 em capital inicial de investidores, incluindo Kleiner Perkins e Abstract Ventures.

Pivô para Vapi

A empresa oferece o Vapi como uma API para permitir que os desenvolvedores criem um bot usando apenas prompts – e depois o colocam atrás de um número de telefone. Além disso, oferece integração de SDK para que os desenvolvedores possam incorporar o bot em sites e aplicativos móveis.

Dearsley disse ao TechCrunch por e-mail que a ideia de construir o Vapi surgiu de um problema pessoal. Ele havia se mudado para São Francisco e começou a sentir falta dos amigos e familiares, que estavam em um fuso horário diferente. Ele construiu um bot de IA conectado a um número de telefone do outro lado da linha para falar com alguém e organizar seus pensamentos.

“Gostei, mas fiquei continuamente frustrado com o quão pouco natural era. Não era como conversar com uma pessoa. A voz soava desligada, haveria longos atrasos antes que ela respondesse e isso me interromperia enquanto eu estivesse falando.” ele disse.

“Então continuei trabalhando nisso e fazendo caminhadas com ele. Eventualmente, ficamos fascinados com esse problema de conversação. É realmente difícil fazer algo parecer humano. Assistentes de voz hoje são desajeitados e baseados em turnos, queremos construir algo que pareça humano.”

Tecnicamente, a Vapi está atualmente agrupando várias APIs de terceiros para construir uma plataforma robusta de conversação por voz. Por exemplo, utiliza soluções da Twilio para telefonia, Deepgram para transcrição, Daily para streaming de áudio, OpenAI para respostas e JogarHT para conversão de texto em fala.

ScaleConvo, uma startup do lote de inverno YC para 2024, já está usando Vapi para lançar bots de conversação para equipes de vendas e empresas de administração de propriedades. No entanto, a Vapi não divulgou seus outros clientes. A empresa está abrindo sua API com Produtos Vapi Phone e Vapi Web hoje.

Desafios para Vapi

Um dos maiores desafios que a startup enfrenta é reduzir a latência, de acordo com Magnus Revan, ex-analista do Gartner e diretor de produto da startup de conversação multimodal Openstream.ai.

“Os modelos OpenAI precisam de 2 a 10 segundos para gerar uma resposta – enquanto no telefone o padrão ouro é ter 700 ms entre o usuário terminar de falar e o ‘bot’ começar a falar. E chegar a uma latência inferior a 1 segundo com modelos capazes (modelos de código aberto com alta contagem de parâmetros, como LLaMA2 70B) é realmente difícil”, disse Revan.

Atualmente, o Vapi tem uma latência de 1,2 a 2 segundos, dependendo de vários fatores. Dearsley espera reduzir a latência para menos de um segundo no próximo mês, graças ao trabalho do próprio Vapi e às melhorias do OpenAI.

Mohamed Musbah, um investidor anjo da Vapi, também disse que a solução da startup melhorará com os avanços gerais na API.

“À medida que a OpenAI e outros melhoram seus modelos, a plataforma da Vapi se tornará mais poderosa, equipada com melhores bases de conhecimento, capacidades de execução de código e janelas de contexto maiores. O foco da Vapi em resolver as áreas de maior atrito na comunicação de voz será sua vantagem à medida que cresce a demanda dos usuários por assistentes de voz”, disse ele.

No entanto, isto coloca a responsabilidade na melhoria de outras soluções, em vez do próprio Vapi. Dearsley disse que a dependência de outras APIs reduz a defensabilidade da Vapi se as grandes empresas começarem a entrar nessa área. Porém, a equipe disse que tem uma vantagem por ter construído infraestrutura para atender milhares de ligações simultaneamente. Dearsley enfatizou que com o lançamento da API da web e do telefone da Vapi para o público, a equipe também procurará construir seus próprios modelos para soluções de áudio para áudio.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *