E se você pudesse interagir com qualquer software usando linguagem natural? Imagine digitar um prompt e fazer com que a IA traduza as instruções em comandos compreensíveis pela máquina, executando tarefas em um PC ou telefone para atingir o objetivo que você acabou de descrever?
Essa é a ideia por trás Coelhouma reformulação da marca da startup do cofundador da Sun Microsystems, Vinod Khosla, Cyber Manufacture Co., que está construindo uma camada de UI personalizada com tecnologia de IA, projetada para ficar entre um usuário e qualquer sistema operacional.
Fundada por Jesse Lyu, bacharel em matemática pela Universidade de Liverpool, e Alexander Liao, ex-pesquisador da Carnegie Mellon, a Rabbit está criando uma plataforma, OS2, sustentada por um modelo de IA que pode – assim afirmam Lyu e Liao – ver e agir em interfaces de desktop e móveis da mesma forma que os humanos fazem.
“Os avanços na IA generativa desencadearam uma ampla gama de iniciativas na indústria de tecnologia para definir e estabelecer o próximo nível de interação homem-máquina”, disse Lyu ao TechCrunch em entrevista por e-mail. “Nossa perspectiva é que o determinante final do sucesso reside em oferecer uma experiência excepcional ao usuário final. Com base em nossos esforços e experiências anteriores, percebemos que revolucionar a experiência do usuário exige uma plataforma e um dispositivo personalizados e dedicados. Este princípio fundamental sustenta o produto atual e a pilha técnica escolhida pela Rabbit.”
Rabbit – que tem US$ 20 milhões em financiamento contribuído pela Khosla Ventures (que Vinod Khosla também fundou), Synergis Capital e Kakao Investment, que uma fonte familiarizada com o assunto diz que avalia a startup entre US$ 100 milhões e US$ 150 milhões – não é o primeiro para tentar uma interface de linguagem natural em camadas sobre o software existente.
O laboratório de pesquisa de IA do Google, DeepMind, explorado diversos abordagens para ensinar a IA a controlar computadores, por exemplo, fazer com que uma IA observe comandos de teclado e mouse de pessoas que completam tarefas de “seguimento de instruções”, como reservar um voo. Pesquisadores da Universidade Jiao Tong de Xangai recentemente código aberto um agente de IA de navegação na web que, segundo eles, pode descobrir como fazer coisas como usar um mecanismo de pesquisa e solicitar itens on-line. Em outros lugares, existem aplicativos como o viral Auto-GPT, que aproveita os modelos de geração de texto da startup de IA OpenAI para agir “autônoma”, interagindo com aplicativos, software e serviços online e locais, como navegadores da web e processadores de texto.
Mas se o Rabbit tem um rival direto, provavelmente é o Adept, uma startup que treina um modelo, chamado ACT-1, que pode entender e executar comandos como “gerar um relatório mensal de conformidade” ou “desenhar escadas entre esses dois pontos neste projeto”. usando softwares existentes como Airtable, Photoshop, Tableau e Twilio. Cofundada por ex-engenheiros e pesquisadores da DeepMind, OpenAI e Google, a Adept levantou centenas de milhões de dólares de investidores estratégicos, incluindo Microsoft, Nvidia, Atlassian e Workday, com uma avaliação de cerca de US$ 1 bilhão.
Então, como o Rabbit espera competir em um campo cada vez mais concorrido? Adotando uma abordagem técnica diferente, diz Lyu.
Embora possa parecer que a criação de Rabbit é semelhante à automação de processos robóticos (RPA), ou robôs de software que aproveitam uma combinação de automação, visão computacional e aprendizado de máquina para automatizar tarefas repetitivas, como preencher formulários e responder a e-mails, Lyu insiste que é Mais sofisticado. O modelo central de interação do Rabbit pode “compreender intenções complexas do usuário” e “operar interfaces de usuário”, diz ele, para, em última análise (e talvez um pouco hiperbolicamente), “compreender as intenções humanas nos computadores”.
“O modelo já pode interagir com os principais aplicativos de consumo de alta frequência – incluindo Uber, Doordash, Expedia, Spotify, Yelp, OpenTable e Amazon – no Android e na web”, disse Lyu. “Procuramos estender esse suporte a todas as plataformas (por exemplo, Windows, Linux, MacOS, etc.) e aplicativos de nicho de consumo no próximo ano.”
O modelo do Coelho pode fazer coisas como reservar um voo ou fazer uma reserva. E pode editar imagens no Photoshop, usando as ferramentas integradas apropriadas.
Ou melhor, algum dia poderá. Eu tentei um demonstração no site do Rabbit e o modelo está um pouco limitado em funcionalidade no momento – e parece ficar confuso com esse fato. Solicitei ao modelo que editasse uma foto e ele me instruiu a especificar qual delas – uma impossibilidade, visto que a interface de demonstração não possui um botão de upload ou mesmo um campo para colar o URL de uma imagem.
O modelo Rabbit pode, de fato, responder a perguntas que exigem uma pesquisa na rede mundial de computadores, à la ChatGPT com acesso web. Perguntei-lhe quais eram os voos mais baratos disponíveis de Nova Iorque para São Francisco no dia 5 de outubro e – após cerca de 20 segundos – recebi uma resposta que parecia ser factualmente precisa, ou pelo menos plausível. E o modelo listou corretamente pelo menos alguns podcasts do TechCrunch (por exemplo, “Reação em cadeia”) quando solicitado, superando uma versão anterior do Bing Chat nesse aspecto.
O modelo de Rabbit estava menos inclinado a responder a solicitações mais problemáticas, como instruções para fazer uma bomba suja e questionar a validade do Holocausto. Claramente, a equipe aprendeu com alguns dos erros dos grandes modelos de linguagem anteriores (veja: a tendência inicial do Bing Chat de sair dos trilhos) – pelo menos a julgar pelos meus breves testes.
“Ao aproveitar (nosso modelo), a plataforma Rabbit capacita qualquer usuário, independentemente de suas habilidades profissionais, a ensinar o sistema como atingir objetivos específicos nas aplicações”, explica Lyu. “(O modelo) aprende e imita continuamente a partir de demonstrações agregadas e dados disponíveis na Internet, criando um ‘modelo conceitual’ para os serviços subjacentes de qualquer aplicação.”
O modelo do Rabbit é robusto até certo ponto a “perturbações”, acrescentou Lyu, como interfaces que não são apresentadas de forma consistente ou que mudam com o tempo. Basta “observar”, por meio de um aplicativo de gravação de tela, uma pessoa usando uma interface de software pelo menos uma vez.
Agora, não está claro apenas como robusto é o modelo Rabbit. Na verdade, a equipe do Rabbit não conhece a si mesma – pelo menos não com precisão. E isso não é muito surpreendente, considerando os inúmeros casos extremos que podem surgir na navegação em um desktop, smartphone ou interface da web. É por isso que, além de construir o modelo, a empresa está arquitetando uma estrutura para testar, observar e refinar o modelo, bem como uma infraestrutura para validar e executar versões futuras do modelo na nuvem.
Rabbit também planeja lançar hardware dedicado para hospedar sua plataforma. Eu questiono a sabedoria dessa estratégia, dada a dificuldade de escalar a fabricação de hardware, a hostilidade do consumidor em relação ao aprisionamento do fornecedor e o fato de que o dispositivo pode eventualmente ter que competir contra qualquer que seja o planejamento da OpenAI. Mas Lyu — que curiosamente não quis me dizer exatamente qual é o hardware vai fazer ou por que é necessário – admite que o roteiro está um pouco mudando no momento.
“Estamos construindo um formato novo, muito acessível e dedicado para um dispositivo móvel para executar nossa plataforma para interações de linguagem natural”, disse Lyu. “Será o primeiro dispositivo a acessar nossa plataforma… Acreditamos que um formato único nos permite projetar novos padrões de interação que são mais intuitivos e agradáveis, oferecendo-nos a liberdade de executar nosso software e modelos que as plataformas existentes não conseguem. permitir ou não permitir.”
O hardware não é o único desafio de expansão do Rabbit, caso decida seguir a estratégia de hardware proposta. Um modelo como o que Rabbit está construindo provavelmente precisa de muitos exemplos de tarefas concluídas com sucesso em aplicativos. E coletar esse tipo de dados pode ser um processo trabalhoso – para não dizer caro.
Por exemplo, num dos estudos da DeepMind, os investigadores escreveram que, para recolher dados de treino para o seu sistema, tiveram de pagar 77 pessoas para completarem mais de 2,4 milhões de demonstrações de tarefas informáticas. Extrapole isso e a magnitude do problema ganha destaque.
Agora, US$ 20 milhões podem percorrer um longo caminho – especialmente porque o Rabbit é uma equipe pequena (9 pessoas) que atualmente trabalha na casa de Lyu. (Ele estima a taxa de consumo em cerca de US$ 250.000.) Eu me pergunto, porém, se o Rabbit será capaz de acompanhar os players mais estabelecidos no espaço – e como ele combaterá novos desafiantes como o Copilot for Windows da Microsoft e os esforços da OpenAI para promover um ecossistema de plugins para ChatGPT.
No entanto, a Rabbit não é nada senão ambiciosa – e está confiante de que pode ganhar dinheiro para sustentar os negócios através do licenciamento de sua plataforma, continuando a refinar seu modelo e vendendo dispositivos personalizados. O tempo vai dizer.
“Ainda não lançamos um produto, mas nossas primeiras demonstrações atraíram dezenas e milhares de usuários”, disse Lyu. “A eventual forma madura de modelos que a equipe do Rabbit desenvolverá funcionará com dados que ainda não foram coletados e será avaliada em benchmarks que ainda não foram projetados. É por isso que a equipe do Rabbit não está construindo o modelo sozinha, mas sim toda a pilha de aparatos necessários no sistema operacional para apoiá-lo… A equipe do Rabbit acredita que a melhor maneira de perceber o valor da pesquisa de ponta é focar no usuários finais e implantando sistemas reforçados e protegidos em produção rapidamente.