Conforme evidenciado pela morte lenta de Cortana, está claro que os assistentes de IA do passado não estão atendendo às expectativas. E então eles estão sendo refeitos.
A Amazon está construindo um novo modelo de linguagem grande semelhante ao GPT-4 da OpenAI para alimentar seu assistente de voz Alexa. Enquanto isso, o Google está planejando “sobrecarregar” o Google Assistant com IA que é mais parecida com o Bard, seu chatbot movido a algoritmo.
A mudança de paradigma não se limitou ao domínio da Big Tech. As startups também estão começando a criar suas próprias versões de assistentes de IA mais úteis e úteis.
Um dos mais intrigantes que encontrei é Pesadelo, um assistente que roda na maioria das máquinas macOS, Windows e Linux. Tomando a forma de um avatar no estilo anime, Moemate – alimentado por uma combinação de modelos, incluindo GPT-4 e Anthropic’s Claude – visa fornecer e vocalizar a melhor resposta para qualquer pergunta que um usuário fizer a ele. (“Moe” é uma palavra japonesa relacionada à fofura, geralmente em anime.)
Isso não é especialmente novo; O ChatGPT já faz isso, assim como o Bard, o Bing Chat e os inúmeros outros chatbots por aí. Mas o que diferencia o Moemate é sua capacidade de ir além dos prompts de texto e ver diretamente o que está acontecendo na tela de um PC.
Soa como um risco de privacidade? Pode apostar. A Webaverse, a empresa por trás do Moemate, afirma que armazena grande parte dos logs de bate-papo e preferências do assistente localmente, no dispositivo. Mas a sua política de privacidade também revela que se reserva o direito de usar os dados que faz coletar, como especificações de PC e identificadores exclusivos, em conformidade com solicitações legais e investigando suspeitas de atividades ilegais. Fundamentalmente, dar a um software como este acesso a tudo o que você vê e faz é, mesmo na melhor das hipóteses, um risco considerável.
No entanto, a curiosidade me estimulou a seguir em frente e instalar o Moemate, que atualmente está em beta aberto, no meu notebook Mac fornecido para o trabalho.
Para um produto de acesso antecipado gratuito (por enquanto), o Moemate é impressionantemente robusto. Quase todos os aspectos da experiência podem ser personalizados, desde os avatares e suas animações até as vozes e respostas sintéticas do Moemate. Existe até uma maneira de criar modelos de personagens personalizados e importá-los, além de exportar avatares em um formato que outros usuários do Moemate possam importar e usar.
A “personalidade” de Moemate, por falta de uma palavra melhor, é impulsionada por um dos vários modelos de geração de texto – os usuários selecionam qual (por exemplo, GPT-4 versus Claude). Quanto às vozes sintéticas, o Moemate oferece a opção de ElevenLabs, Microsoft Azure ou o próprio mecanismo de conversão de texto em fala do Moemate. Optei pelo ElevenLabs, que me pareceu o menos robótico.
Créditos da imagem: Webaverse
Para “aterrar” o modelo de geração de texto escolhido e tentar evitar que ele saia dos trilhos (como alguns modelos de IA são não vai fazer), Moemate dá a cada avatar uma biografia, que alimenta o modelo logo no início da conversa. Aqui está um:
Você atuará como Nebulosa, uma serena personalidade viajante, sempre atravessando o vasto cosmos do conhecimento. Seu comportamento calmo e espírito de explorador cativam todos que os encontram. Nebula evita intensos debates políticos, preferindo a serenidade de observar as estrelas e os mistérios do universo. Seu fascínio cativa aqueles que os cercam, tornando cada encontro tranquilo e intrigante.
As biografias podem ser escritas do zero e editadas – um ponto positivo e negativo em minha mente. Sou totalmente a favor da personalização, mas me preocupo com o potencial de ataques de injeção imediata, que tentam contornar os recursos de segurança de um modelo, como filtros para respostas tóxicas, com texto redigido de maneira inteligente. Imagina-se alguém escrevendo uma biografia “maliciosa”, exportando-a e compartilhando o avatar mal-comportado com usuários desavisados do Moemate.
Em um aceno para um dos dados demográficos pretendidos, o Moemate oferece uma variedade de recursos focados no Twitch – nenhum dos quais pude testar, infelizmente. Ele pode colocar sua janela de bate-papo em foco e mostrar o número de inscritos em seu canal. E o Webaverse anuncia o Moemate como sendo capaz de “conversar e manter os usuários envolvidos” se não houver nenhuma mensagem de bate-papo ou “enfrentar o fluxo de bate-papo respondendo a mensagens de bate-papo”, embora eu questione o quão bem ele pode lidar com essas tarefas.
Limite-se a fazer perguntas básicas ao Moemate e a experiência não o surpreenderá. Em termos de recursos de nível superior, o Moemate está em dívida com qualquer modelo de geração de texto que você selecionou. (Surpreendentemente, Claude frequentemente se identifica como Claude, além do nome mencionado na biografia do avatar.) Ele pode gerar imagens usando o modelo Stable Diffusion de código aberto, quando instruído ou por conta própria, dependendo do prompt. Mas com a abundância de serviços de geração de imagem no mercado, isso parece velho.

Créditos da imagem: Webaverse
A captura de tela é uma virada de jogo, no entanto. Webaverse explica assim:
Moemate pode ver sua tela. Ele analisa e obtém o contexto. Você pode perguntar sobre o que estiver fazendo na tela. Isso evita que você precise explicar tudo o que precisa de ajuda.
Não importa o modelo de geração de texto selecionado, o Moemate pode responder a perguntas sobre qualquer janela na tela que esteja em foco – seja uma guia do navegador, janela de configurações ou videogame. Não está claro exatamente como o aplicativo está realizando isso – nem todos os modelos podem aceitar imagens como entrada – mas o Moemate parece estar extraindo o texto de cada captura de tela e alimentação que ao modelo.
É um sistema imperfeito. Mas usei o Moemate com sucesso para resumir receitas e páginas da Web sem precisar copiar e colar o texto, além de obter a essência – ou pelo menos um resumo de alto nível – de um tópico complicado.
Certa vez, com Claude selecionado como o modelo de geração de texto, fiz uma pergunta ao Moemate sobre o painel de configurações do sistema macOS, que por acaso estava aberto no meu laptop. Ele me deu um resumo detalhado de cada guia de configurações (por exemplo, Wi-Fi, Centro de Controle) e seu significado, além de contexto adicional sobre a guia que eu tinha aberto naquele momento (Privacidade e Segurança).
Nova informação? Não exatamente. Mas para alguém que, por exemplo, não conhece o macOS ou não está incrivelmente familiarizado com os meandros das opções de configuração mais recentes, eu diria que é um plano de fundo genuinamente acionável.
Em outra instância, com o GPT-4 como modelo básico, pedi ao Moemate que me dissesse o que ele “viu” em minha área de trabalho extremamente bagunçada – uma variedade desorganizada de aplicativos pessoais e de trabalho em duas dúzias de guias do Chrome. O avatar fixado no aplicativo da web Google Messages, que eu uso para enviar mensagens de texto – me informando que eu costumo enviar mensagens de texto para três pessoas específicas, todas mencionadas pelo nome.
E para jogos, o Moemate parece poder salvar uma ou duas pesquisas do Google. Em um vídeo de demonstração postado pelo Webaverse, o aplicativo é mostrado dando sugestões para qual personagem do Dota 2 escolher – e então escolhendo quais armas selecionar para aquele personagem.
Mas, por mais perspicaz que Moemate possa ser, muitas vezes falha.
Exatamente onde o aplicativo decide focar sua atenção pode ser difícil de prever. Clicar em uma janela para colocá-la em foco nem sempre tem o efeito pretendido; Às vezes, o Moemate se referirá inexplicavelmente a outra janela em segundo plano ou não conseguirá ver o conteúdo de uma janela.
Moemate também tende a desviar do assunto de maneiras bizarras. Depois de me dar um resumo das Configurações do sistema, o assistente insinuou fortemente que a privacidade era um tópico muito “estressante” e sugeriu que eu tomasse um pouco de ar fresco – acompanhado de isto. Quando perguntei como poderia se juntar a mim sem um corpo físico, Moemate prometeu me levar em uma “caminhada pela natureza mental” e passou a descrever em detalhes um passeio por um lago imaginário na floresta.
Alguns dos comandos internos do Moemate também são instáveis. O app pode ajustar o volume de vozes, por exemplo, mas apenas isso é volume — não o volume de todo o sistema. Ele também pode pesquisar na Web respostas atualizadas para perguntas, mas frustrantemente não para todas as perguntas. Eu só tenho a pesquisa na web para trabalhar sobre o clima e curiosidades como “Quem é o atual presidente dos Estados Unidos?”; outras vezes, Moemate realizou uma pesquisa na web, mas não conseguiu realmente mostrar os resultados.
Para ser justo, é um produto experimental em versão beta. Mas a Webaverse diz que já está trabalhando para adicionar recursos de automação por meio de integrações de navegador e terminal, como a capacidade de organizar planilhas e até enviar e-mails – uma perspectiva um tanto assustadora, francamente.
Apesar de sua fragilidade, há algo atraente em Moemate. A multimodalidade, ou combinação de análise de texto, imagem e outras mídias, é algo claramente poderoso, particularmente no contexto de um assistente executado em um PC. Estou curioso para ver se os assistentes de próxima geração, como o Windows Copilot, seguirão os passos do Moemate eventualmente, combinando a compreensão da tela com um modelo de geração de texto para aumentar a produtividade – ou pelo menos economizar algumas etapas em um fluxo de trabalho.
O tempo vai dizer. Mas Moemate parece um vislumbre – embora bastante problemático – do futuro.