Em 2025, os empreendedores irá desencadear uma enxurrada de aplicativos baseados em IA. Por fim, a IA generativa irá corresponder ao hype com uma nova safra de aplicativos acessíveis para consumidores e empresas. Esta não é a visão consensual hoje. OpenAI, Google e xAI estão travando uma corrida armamentista para treinar o mais poderoso modelo de linguagem grande (LLM) em busca de inteligência artificial geral, conhecida como AGI, e sua batalha de gladiadores domina a participação na mente e na receita do incipiente ecossistema Gen AI .
Por exemplo, Elon Musk levantou US$ 6 bilhões para lançar o recém-chegado xAI e comprou 100.000 GPUs Nvidia H100, os chips caros usados para processar IA, custando mais de US$ 3 bilhões para treinar seu modelo, Grok. A esses preços, apenas os magnatas da tecnologia podem dar-se ao luxo de construir estes gigantescos LLMs.
Os gastos incríveis de empresas como OpenAI, Google e xAI criaram um ecossistema desequilibrado que é pesado na parte inferior e leve na parte superior. Os LLMs treinados por esses enormes farms de GPU geralmente também são muito caros para inferência, o processo de inserir um prompt e gerar uma resposta a partir de grandes modelos de linguagem que são incorporados em todos os aplicativos que usam IA. É como se todos tivessem smartphones 5G, mas usar dados fosse muito caro para alguém assistir a um vídeo do TikTok ou navegar nas redes sociais. Como resultado, excelentes LLMs com altos custos de inferência tornaram inacessível a proliferação de aplicativos matadores.
Este ecossistema desequilibrado de magnatas da tecnologia ultra-ricos lutando entre si enriqueceu a Nvidia ao mesmo tempo em que forçou os desenvolvedores de aplicativos a um beco sem saída: usar um modelo de baixo custo e baixo desempenho destinado a decepcionar os usuários ou enfrentar custos de inferência exorbitantes e correr o risco de falido.
Em 2025, surgirá uma nova abordagem que poderá mudar tudo isso. Isso retornará ao que aprendemos com revoluções tecnológicas anteriores, como a era dos PCs da Intel e do Windows ou a era móvel da Qualcomm e do Android, onde a lei de Moore melhorou os PCs e os aplicativos, e o menor custo da largura de banda melhorou os telefones celulares e os aplicativos. após ano.
Mas e quanto ao alto custo de inferência? Uma nova lei para inferência de IA está chegando. O custo da inferência caiu um fator de 10 por ano, pressionado por novos algoritmos de IA, tecnologias de inferência e chips melhores a preços mais baixos.
Como ponto de referência, se um desenvolvedor terceirizado usasse os modelos topo de linha da OpenAI para construir pesquisa de IA, em maio de 2023 o custo seria de cerca de US$ 10 por consulta, enquanto a pesquisa não-Gen-AI do Google custaria US$ 0,01, um Diferença de 1.000x. Mas em maio de 2024, o preço do modelo top da OpenAI caiu para cerca de US$ 1 por consulta. Com esta queda de preços sem precedentes de 10 vezes por ano, os desenvolvedores de aplicativos poderão usar modelos de qualidade cada vez mais alta e de custo mais baixo, levando a uma proliferação de aplicativos de IA nos próximos dois anos.