De acordo com especialistas em tecnologia obcecados pelo mercado e céticos profissionais, a bolha da inteligência artificial estourou, e o inverno está de volta. Fei-Fei Li não está comprando isso. Na verdade, Li — que ganhou o apelido de “madrinha da IA” — está apostando no contrário. Ela está em licença de meio período da Universidade de Stanford para cofundar uma empresa chamada Laboratórios Mundiais. Embora a IA generativa atual seja baseada em linguagem, ela vê uma fronteira onde os sistemas constroem mundos completos com a física, lógica e ricos detalhes da nossa realidade física. É uma meta ambiciosa e, apesar dos nababos sombrios que dizem que o progresso na IA atingiu um patamar sombrio, a World Labs está no caminho rápido do financiamento. A startup está talvez a um ano de ter um produto — e não está claro o quão bem ele funcionará quando e se chegar — mas os investidores investiram US$ 230 milhões e estão supostamente valorizando a startup emergente de um bilhão de dólares.

Cerca de uma década atrás, Li ajudou a IA a virar a esquina ao criar o ImageNet, um banco de dados personalizado de imagens digitais que permitiu que as redes neurais se tornassem significativamente mais inteligentes. Ela sente que os modelos de aprendizado profundo de hoje precisam de um impulso semelhante se a IA quiser criar mundos reais, sejam eles simulações realistas ou universos totalmente imaginados. O futuro George RR Martins pode compor seus mundos sonhados como prompts em vez de prosa, que você pode então renderizar e vagar por aí. “O mundo físico para computadores é visto por meio de câmeras e do cérebro do computador por trás das câmeras”, diz Li. “Transformar essa visão em raciocínio, geração e eventual interação envolve entender a estrutura física, a dinâmica física do mundo físico. E essa tecnologia é chamada de inteligência espacial.” A World Labs se autodenomina uma empresa de inteligência espacial, e seu destino ajudará a determinar se esse termo se tornará uma revolução ou uma piada.

Li tem sido obcecada por inteligência espacial há anos. Enquanto todos estavam loucos pelo ChatGPT, ela e um ex-aluno, Justin Johnson, estavam animadamente tagarelando em ligações telefônicas sobre a próxima iteração da IA. “A próxima década será sobre gerar novos conteúdos que tirem a visão computacional, o aprendizado profundo e a IA do mundo da internet e os incorporem no espaço e no tempo”, diz Johnson, que agora é professor assistente na Universidade de Michigan.

Li decidiu abrir uma empresa no início de 2023, após um jantar com Martin Casado, um pioneiro em redes virtuais que agora é sócio da Andreessen Horowitz. Essa é a empresa de capital de risco notória por sua adoção quase messiânica da IA. Casado vê a IA em um caminho semelhante ao dos jogos de computador, que começaram com texto, passaram para gráficos 2D e agora têm imagens 3D deslumbrantes. A inteligência espacial impulsionará a mudança. Eventualmente, ele diz, “Você pode pegar seu livro favorito, jogá-lo em um modelo e, então, literalmente entrar nele e vê-lo se desenrolar em tempo real, de forma envolvente”, diz ele. O primeiro passo para fazer isso acontecer, Casado e Li concordaram, é passar de grandes modelos de linguagem para grandes mundo modelos.

Li começou a montar uma equipe, com Johnson como cofundador. Casado sugeriu mais duas pessoas — uma delas foi Christoph Lassner, que havia trabalhado na Amazon, Meta’s Reality Labs e Epic Games. Ele é o inventor do Pulsarum esquema de renderização que levou a uma técnica célebre chamada Espalhamento Gaussiano 3D. Isso parece uma banda indie em uma festa de toga do MIT, mas na verdade é uma maneira de sintetizar cenas, em vez de objetos únicos. A outra sugestão de Casado foi Ben Mildenhall, que criou uma técnica poderosa chamada NeRF — campos de radiância neural — que transmogrifica imagens de pixels 2D em gráficos 3D. “Levamos objetos do mundo real para VR e os fizemos parecer perfeitamente reais”, diz ele. Ele deixou seu posto como cientista pesquisador sênior no Google para se juntar à equipe de Li.

Um objetivo óbvio de um modelo de mundo grande seria imbuir, bem, senso de mundo em robôs. Isso de fato está no plano da World Labs, mas não por enquanto. A primeira fase é construir um modelo com uma compreensão profunda da tridimensionalidade, fisicalidade e noções de espaço e tempo. Em seguida, virá uma fase em que os modelos suportam realidade aumentada. Depois disso, a empresa pode assumir a robótica. Se essa visão for cumprida, os modelos de mundo grande melhorarão os carros autônomos, as fábricas automatizadas e talvez até os robôs humanoides.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *