O Google está atualizando seu Gemini Chatbot com um novo modelo de imagem de IA que oferece aos usuários controle mais refinados sobre a edição de fotos, uma etapa destinada a acompanhar as ferramentas populares de imagem do OpenAI e atrair usuários do ChatGPT.
A atualização, chamada Gemini 2.5 Flash Image, é lançada a partir de terça -feira para todos os usuários do aplicativo Gemini, bem como para os desenvolvedores através da API Gemini, do Google AI Studio e das plataformas AI da Vertex.
O novo modelo de imagem da AI de Gêmeos foi projetado para fazer edições mais precisas para imagens – com base em solicitações de idiomas naturais dos usuários – enquanto preservam a consistência de rostos, animais e outros detalhes, algo com o qual as ferramentas rivais lutam. Por exemplo, pergunte a Chatgpt ou Grok de Xai para alterar a cor da camisa de alguém em uma foto, e o resultado pode incluir um rosto distorcido ou um fundo alterado.
A nova ferramenta do Google já chamou a atenção. Nas últimas semanas, usuários de mídia social adorou sobre um impressionante editor de imagem de IA na plataforma de avaliação de crowdsourcing, Lmarena. O modelo apareceu aos usuários anonimamente sob o pseudônimo de “nano-banana”.
O Google diz que está por trás do modelo (se não fosse óbvio já de todas as dicas relacionadas à banana), que é realmente a capacidade de imagem nativa dentro de seu modelo flash AI Flash 2.5. O Google diz que o modelo de imagem é de última geração em Lmarena e outros benchmarks.

“Estamos realmente empurrando a qualidade visual para a frente, bem como a capacidade do modelo de seguir as instruções”, disse Nicole Brichtova, líder de produto nos modelos de geração visual do Google DeepMind, em entrevista ao TechCrunch.
“Esta atualização faz um trabalho muito melhor, fazendo edições de maneira mais perfeita, e as saídas do modelo são utilizáveis para o que você deseja usá -las”, disse Brichtova.
Os modelos de imagem da AI se tornaram um campo de batalha crítico para a grande tecnologia. Quando o Openai lançou o gerador de imagens nativo do GPT-4O em março, ele levou o uso do Chatgpt pelo telhado graças a um frenesi dos memes de estúdio Ghibli gerados pela IA que, de acordo com o CEO da Openai, Sam Altman, deixou o GPUs da empresa “fusão. ”
Para acompanhar o Openai e o Google, a Meta anunciou na semana passada que licenciaria modelos de imagens de IA do Startup Midjourney. Enquanto isso, os laboratórios de unicórnio Black Forest Black Forest, apoiados por A16Z, continuam a dominar os benchmarks com seus modelos de imagem de fluxo de IA.
Talvez o impressionante editor de imagens da AI da Gemini possa ajudar o Google a fechar sua lacuna de usuário com o OpenAI. O ChatGPT agora registra mais de 700 milhões de usuários semanais. Na chamada de ganhos do Google em julho, o CEO da gigante da tecnologia Sundar Pichai revelou que Gemini tinha 450 milhões mensal Usuários – implicando que os usuários semanais são ainda mais baixos.
Brichtova diz que o Google projetou especificamente o modelo de imagem com casos de uso do consumidor em mente, como ajudar os usuários a visualizar seus projetos de casa e jardim. O modelo também possui melhor “conhecimento mundial” e pode combinar várias referências em um único prompt; Por exemplo, mesclando uma imagem de um sofá, uma foto da sala de estar e uma paleta de cores em uma renderização coesa.

Embora o novo gerador de imagens da AI da Gemini facilite a fabricação e a edição de imagens realistas, a empresa possui salvaguardas que limitam o que os usuários podem criar. O Google tem lutado com as salvaguardas do gerador de imagens de IA no passado. A certa altura, a empresa pediu desculpas por Gêmeos gerando imagens historicamente imprecisas de pessoas e reverteu o gerador de imagens da IA completamente.
Agora, o Google sente que alcançou um equilíbrio melhor.
“Queremos dar aos usuários controle criativo para que eles possam obter dos modelos o que desejam”, disse Brichtova. “Mas não é como se nada cortasse.”
A seção generativa da IA dos termos de serviço do Google proíbe os usuários de gerar “imagens íntimas não consensuais”. Esses mesmos tipos de salvaguardas não parecem existir para Grok, o que permitiu aos usuários criar imagens explícitas Assemelhando celebridades, como Taylor Swift.
Para abordar o surgimento de imagens de Deepfake, que podem dificultar a discernimento dos usuários do que é real, Brichtova diz que o Google aplica marcas d’água visuais a imagens geradas pela IA, bem como identificadores em seus metadados. No entanto, alguém rolando uma imagem nas mídias sociais pode não procurar esses identificadores.