Gemini, a família de modelos generativos de IA do Google, agora pode analisar documentos, bases de código, vídeos e gravações de áudio mais longos do que antes.

Durante uma palestra na conferência de desenvolvedores Google I/O 2024 na terça-feira, o Google anunciou a prévia privada de uma nova versão do Gemini 1.5 Pro, o atual modelo carro-chefe da empresa, que pode receber até 2 milhões de tokens. Isso é o dobro do valor máximo anterior.

Com 2 milhões de tokens, a nova versão do Gemini 1.5 Pro suporta a maior entrada de qualquer modelo disponível comercialmente. O próximo maior, Claude 3 da Anthropic, chega a 1 milhão de tokens.

No campo da IA, “tokens” referem-se a bits subdivididos de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”. Dois milhões de tokens equivalem a cerca de 1,4 milhão de palavras, duas horas de vídeo ou 22 horas de áudio.

Créditos da imagem: TechCrunch

Além de poder analisar arquivos grandes, os modelos que podem receber mais tokens às vezes podem obter melhor desempenho.

Ao contrário dos modelos com pequenas entradas máximas de token (também conhecidas como contexto), modelos como o Gemini 1.5 Pro com entrada de 2 milhões de tokens não “esquecerão” facilmente o conteúdo de conversas muito recentes e se desviarão do assunto. Os modelos de grande contexto também podem compreender melhor o fluxo de dados que absorvem – pelo menos hipoteticamente – e gerar respostas contextualmente mais ricas.

Os desenvolvedores interessados ​​em experimentar o Gemini 1.5 Pro com um contexto de 2 milhões de tokens podem adicionar seus nomes à lista de espera no Google AI Studio, a ferramenta de desenvolvimento de IA generativa do Google. (Gemini 1.5 Pro com contexto de 1 milhão de tokens será lançado em disponibilidade geral nos serviços e superfícies para desenvolvedores do Google no próximo mês.)

Além da janela de contexto maior, o Google diz que o Gemini 1.5 Pro foi “aprimorado” nos últimos meses por meio de melhorias algorítmicas. É melhor na geração de código, raciocínio lógico e planejamento, conversação em várias voltas e compreensão de áudio e imagem, diz o Google. E na API Gemini e no AI Studio, o 1.5 Pro agora pode raciocinar através de áudio, além de imagens e vídeo – e ser “dirigido” por meio de um recurso chamado instruções do sistema.

Gemini 1.5 Flash, um modelo mais rápido

Para aplicativos menos exigentes, o Google está lançando em pré-visualização pública o Gemini 1.5 Flash, uma versão “destilada” do Gemini 1.5 Pro que é um modelo pequeno e eficiente construído para cargas de trabalho generativas de IA “estreitas” e de “alta frequência”. O Flash – que tem uma janela de contexto de até 2 milhões de tokens – é multimodal como o Gemini 1.5 Pro, o que significa que pode analisar áudio, vídeo e imagens, bem como texto (mas gera apenas texto).

“O Gemini Pro é para tarefas de raciocínio muito mais gerais ou complexas, muitas vezes em várias etapas”, disse Josh Woodward, vice-presidente do Google Labs, uma das divisões experimentais de IA do Google, durante um briefing com repórteres. “(Mas) como desenvolvedor, você realmente deseja usar (Flash) se se preocupa muito com a velocidade de saída do modelo.”

Créditos da imagem: TechCrunch

Woodward acrescentou que o Flash é particularmente adequado para tarefas como resumo, aplicativos de bate-papo, legendagem de imagens e vídeos e extração de dados de documentos e tabelas longos.

Flash parece ser a resposta do Google para modelos pequenos e de baixo custo servidos por APIs como a da Anthropic Claude 3 Haiku. Ele, juntamente com o Gemini 1.5 Pro, está amplamente disponível, agora em mais de 200 países e territórios, incluindo o Espaço Económico Europeu, Reino Unido e Suíça. (No entanto, a versão de contexto de 2 milhões de tokens está restrita a uma lista de espera.)

Em outra atualização voltada para desenvolvedores preocupados com os custos, todos os modelos Gemini, não apenas o Flash, em breve poderão aproveitar as vantagens de um recurso chamado cache de contexto. Isso permite que os desenvolvedores armazenem grandes quantidades de informações (digamos, uma base de conhecimento ou banco de dados de artigos de pesquisa) em um cache que os modelos Gemini podem acessar de forma rápida e relativamente barata (do ponto de vista de uso).

A API Batch gratuita, disponível hoje em versão prévia pública na Vertex AI, a plataforma de desenvolvimento de IA generativa voltada para empresas do Google, oferece uma maneira mais econômica de lidar com cargas de trabalho, como classificação e análise de sentimento, extração de dados e geração de descrição, permitindo vários prompts para ser enviado aos modelos Gemini em uma única solicitação.

Outro novo recurso que chega no final do mês em versão prévia no Vertex, a geração controlada, pode levar a maiores economias de custos, sugere Woodward, ao permitir que os usuários definam as saídas do modelo Gemini de acordo com formatos ou esquemas específicos (por exemplo, JSON ou XML).

“Você poderá enviar todos os seus arquivos para o modelo uma vez e não precisará reenviá-los repetidamente”, disse Woodward. “Isso deve tornar o contexto longo (em particular) muito mais útil – e também mais acessível.”

Leia mais sobre o Google I/O 2024 no TechCrunch

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *