Algumas horas após a grande revelação desta manhã, a Humane abriu suas portas para um punhado de imprensa. Localizado em um prédio indefinido no bairro de SoMa, em São Francisco, o escritório abriga as equipes de design de hardware da startup.
Um escritório ao lado abriga os engenheiros de produto da Humane, enquanto a equipe de engenharia elétrica opera em um terceiro espaço do outro lado da rua. A empresa também opera um escritório em Nova York, embora a maior parte dos 250 funcionários esteja localizada aqui em São Francisco.
Hoje, grande parte do espaço é ocupado por uma série de estações de demonstração (com uma política rígida de não filmagem), onde diferentes Ai Pins são dispostos em vários estados de nudez, expondo suas maquinações externas. Antes de participarem, no entanto, os cofundadores da Humane ficam em frente a um pequeno grupo de cadeiras, ladeando uma tela plana que apresenta a visão da empresa.
A CEO Bethany Bongiorno conta uma breve história da empresa, começando com como ela conheceu o cofundador e presidente Imran Chaudhri em seu primeiro dia na Apple. Toda a história da empresa está ligada ao seu antigo empregador. Foi lá que eles caçaram o CTO Patrick Gates, junto com cerca de 90 outros ex-Applers.
Créditos da imagem: Brian Aquecedor
Por sua vez, Chaudhri enquadra a história da empresa como uma das curvas S – ciclos de tecnologia de 15 anos que formam a base e, em última análise, dão lugar ao que vem a seguir. “A última era estagnou”, diz ele à sala, afirmando que o smartphone tem “16 anos” – embora isso também pareça ser uma crítica aos seus antigos empregadores, cujo primeiro iPhone chegou em 2007.
Ele enquadra o primeiro produto da Humane como “uma nova forma de pensar, um novo sentido de oportunidade”. É um esforço, acrescenta ele, para “produzir IA”. A apresentação pessoal é decididamente mais fundamentada do que os vídeos anteriores fariam você acreditar. É verdade que as declarações ainda são grandiosas e abrangentes, contextualizando o dispositivo de lapela como o próximo passo numa jornada informática que começou com mainframes do tamanho de uma sala, mas a conversa torna-se um pouco mais pragmática quando o dispositivo é apresentado diante de nós.
O dispositivo do tamanho de uma caixa de fósforos possui um processador Snapdragon e 32 GB de armazenamento local. A câmera é um sensor de 12 megapixels projetado para um smartphone, mas integrado ao próprio módulo da Humane. Há um acelerômetro e giroscópio e um sensor de profundidade e tempo de vôo. Assim como os produtos da Apple, ele é projetado na Califórnia e fabricado principalmente na Ásia.
A maior parte do exterior do dispositivo é monopolizada por um painel de toque que abriga a maioria dos componentes integrados e uma bateria que deve durar quatro ou cinco horas com carga. Acima disso, uma espécie de barra de câmera abriga os sensores acima, junto com o sistema de projeção a laser – de longe o aspecto mais visualmente atraente de todo o caso. A barra da câmera está inclinada em um ângulo descendente. Humane diz que testou o pino em uma variedade de tipos de corpo diferentes e optou por um design que acomoda usuários com peitos maiores.
A empresa também me disse que testou a projeção do laser com um espectro de diferentes tons de pele, para garantir que seria visível. Embora visualmente atraentes, as projeções são consideradas um recurso secundário em relação ao que é essencialmente um produto que prioriza a voz. Se, no entanto, você estiver em um ambiente muito barulhento ou silencioso para acomodar o pequeno alto-falante voltado para cima que fica na parte superior do dispositivo, toque no touchpad e a câmera começará a trabalhar procurando uma mão. Uma vez localizado, ele começa a se projetar.

Créditos da imagem: Brian Aquecedor
Chaudhri demonstrou o recurso durante um TED Talk em maio. Um ou dois minutos depois, chega uma chamada encenada de Bongiorno, que o alfinete projeta na palma da mão em forma de texto. A partir daqui, ele pode tocar a palma da mão para aceitar ou negar a chamada, com o sistema identificando o movimento e agindo de acordo.
Os lasers podem exibir muito mais, entretanto. O texto mostra as mensagens, que você pode percorrer com um gesto de beliscar na mesma mão. Eles podem até exibir visualizações rudimentares das imagens que você fotografa, mas o laser verde não faz o melhor trabalho destacando as complexidades sutis de uma foto.
O AI Pin tem um pouco de peso, embora isso seja um pouco compensado pelo “reforço de bateria” que vem na caixa, aumentando a vida útil da bateria para cerca de nove horas. O produto também vem com um case em formato de ovo que adiciona outra carga completa ao produto. Você pode inserir o pino, o reforço ou ambos, e eles se encaixarão magneticamente. O carregamento ocorre por meio de uma série de pinos na parte traseira do dispositivo. Também na caixa está uma base de carregamento para uso doméstico.
Bongiorno confirmou relatórios anteriores de um lote inicial de 100 mil unidades. “Acho que, como acontece com toda inicialização de hardware, queremos ter certeza de planejar de forma conservadora para todos os cenários”, diz ela. “Para nós, no início, era realmente olhar para o que era a coisa conservadora, certa e responsável a fazer, em termos de procura e para nos permitir a opção se a nossa procura for superior a 100.000.”
Ela acrescenta que, até ontem, mais de 110 mil pessoas se inscreveram para a espera – embora esse número seja mais um indicativo de curiosidade do que de planos de compra reais, já que nenhum depósito foi exigido. A lista também é global, enquanto o dispositivo só está disponível para pré-encomenda nos EUA, onde estará à venda em algum momento “no início do próximo ano”. O grupo inicial da lista de espera terá “acesso prioritário” para aquisição do produto.

Créditos da imagem: Brian Aquecedor
O coração do dispositivo é a IA. Está entre os primeiros produtos de hardware a aproveitar a atual onda de entusiasmo em torno da IA generativa, mas certamente não será o último. O nome de Sam Altman está intimamente ligado à startup desde o dia em que foi anunciado. Pergunto até que ponto Altman e OpenAI estiveram envolvidos na criação do produto.
“Sam liderou nossa Série A em 2020. Imran deixou bem claro que Sam era o alvo da Série A e realmente o queria envolvido”, diz Bongiorno. “Acho que havia muito respeito mútuo e entusiasmo sobre o que todos acreditávamos ser o futuro, em termos de computador. Ele tem sido um incrível defensor e apoiador de nós e atende o telefone sempre que precisamos de conselhos e orientação. Temos trabalhado com a equipe OpenAI. Nossa equipe de engenharia colaborou e trabalhou em estreita colaboração.”
De acordo com Chaudhri, o GPT é um dos muitos LLMs aproveitados pelo sistema. Ele também confirmou que o GPT-4 estará entre as instâncias que o sistema utiliza. Em última análise, porém, os sistemas precisos de IA que estão sendo aproveitados para qualquer tarefa são um tanto obscuros por design. Eles são acessados caso a caso, com base na determinação do PIN sobre o curso de ação apropriado.
Isto também se aplica a consultas baseadas na web. O sistema rastreia uma variedade de mecanismos de pesquisa e recursos diferentes, como a Wikipedia. Alguns serão parceiros oficiais de conteúdo, outros não. Até agora, os parceiros reais são limitados. Existem OpenAI e Microsoft, além do Tidal, que serve como aplicativo de música padrão do sistema. Um exemplo dado durante uma de nossas demonstrações foi “tocar música produzida por Prince”, em vez do mais direto “tocar Prince”.
“Parte da nossa IA é proprietária. Construímos nossas próprias IAs e, em seguida, aproveitamos coisas como GPT e modelos da OpenAI”, diz Bongiorno. “Podemos adicionar LLMs e muitos serviços de outras pessoas, e nosso objetivo é ser a plataforma para todos e permitir acesso a diversas experiências e serviços de IA, para que o modelo de negócios seja estruturado de uma forma que nos permita fazer isso. E acho que pensaremos em diferentes modelos de receita que também podemos adicionar e em diferentes fontes de receita na plataforma.”

Créditos da imagem: Brian Aquecedor
O objetivo é tornar a experiência perfeita, tanto em termos do que está acontecendo no back-end com LLMs quanto em pesquisas e atualizações na web. O sistema foi projetado para enviar atualizações continuamente e adicionar novos recursos em segundo plano. Ele também usa contexto adicional, incluindo perguntas feitas recentemente e localização, usando GPS integrado.
As fotos também são uma grande peça do quebra-cabeça. A câmera integrada possui um ângulo ultra grande com um campo de visão de 120 graus. Não há foco automático em jogo – em vez disso, é uma distância focal fixa. À luz dos escritórios de SF, pelo menos, as fotos pareciam sólidas. Há uma boa quantidade de fotografia computacional que acontece fora dos dispositivos, incluindo a contabilização de se o pino está nivelado ao tirar uma foto e a orientação da imagem final de acordo.
Tudo ainda parece muito cedo aqui, mas está claro que muito cuidado (e dinheiro) foi investido no produto. A demanda é talvez o maior ponto de interrogação aqui. A Humane realmente encontrou um aplicativo matador? Para os fabricantes de smartwatches, a saúde sempre foi a resposta. Mas o monitoramento da saúde desempenha um papel significativamente menor aqui.
Na verdade, o produto não entra em contato direto com a pele do usuário, portanto, as métricas de saúde que ele é realmente capaz de coletar são limitadas, além de talvez servir como um pedômetro – embora esse recurso também não seja suportado atualmente. O maior recurso relacionado à saúde no momento é a contagem de calorias, informando especificamente quantas calorias e outros dados nutricionais estão no pedaço de comida que você mostra para a câmera, usando uma plataforma de identificação de alimentos de terceiros sem nome.

Créditos da imagem: Brian Aquecedor
O preço certamente será um obstáculo para o dispositivo não comprovado – US$ 699 é basicamente nada para os padrões dos smartphones, mas é pedir muito por um produto de primeira geração e um novo formato. Os US$ 24 adicionais por mês também não ajudam, embora Bongiorno acrescente: “Você está recebendo um número de telefone; você obtém conversas, mensagens de texto e dados ilimitados; você recebe quantas consultas de IA desejar, além de todos os nossos serviços de IA. Hoje, vemos quanta empolgação existe em torno do ChatGPT, onde as pessoas já estão pagando para ter acesso a ele.”
Se você não pagar naquele mês, entretanto, o produto será efetivamente um peso de papel até você iniciar a assinatura.
Antes do encerramento da nossa sessão, pergunto a Chaudhri como a empresa chegou à lapela, entre todos os lugares, especialmente quando os displays de cabeça são vistos como padrão há algum tempo. Certamente seu antigo empregador, a Apple, está apostando na cara com seu próximo Vision Pro.
“A computação contextual sempre foi considerada algo que você deve usar no rosto”, diz ele. “Há muitos problemas com isso. Muitas pessoas usam óculos que você usa por um motivo bem preciso. É para ajudá-lo a ver ou para proteger seus olhos. Essa é uma decisão muito pessoal – o formato do seu quadro, o peso do seu quadro. Tudo se transforma em algo tão único quanto você. Se você observar o poder do contexto, e esse é o impedimento para alcançar a computação contextual, deve haver outra maneira. Então começamos a olhar qual é a peça que nos permite ser muito mais pessoais? Descobrimos que todos nós usamos roupas, então como podemos adornar um dispositivo que nos dá contexto sobre nossas roupas?”