Latam-GPT é novo Modelo de linguagem grande sendo desenvolvido na e para a América Latina. O projeto, liderado pelo Centro Nacional Chileno de Inteligência Artificial (CENIA), sem fins lucrativos, visa ajudar a região a alcançar a independência tecnológica, desenvolvendo um modelo de IA de código aberto treinado em línguas e contextos latino -americanos.

“Este trabalho não pode ser realizado por apenas um grupo ou um país na América Latina: é um desafio que requer a participação de todos”, diz Álvaro Soto, diretor da Cenia, em entrevista à Wired En Español. “O Latam-GPT é um projeto que busca criar um modelo de IA colaborativo aberto, gratuito e, acima de tudo.

O projeto se destaca por seu espírito colaborativo. “Não estamos procurando competir com o OpenAi, Deepseek ou Google. Queremos um modelo específico para a América Latina e o Caribe, ciente dos requisitos e desafios culturais que isso implica, como entender diferentes dialetos, a história da região e aspectos culturais únicos”, explica Soto.

Graças a 33 parcerias estratégicas com instituições na América Latina e no Caribe, o projeto reuniu um corpus de dados que excedem oito terabytes de texto, o equivalente a milhões de livros. Essa base de informações permitiu o desenvolvimento de um modelo de idioma com 50 bilhões de parâmetros, uma escala que o torna comparável ao GPT-3.5 e oferece uma capacidade média a alta para executar tarefas complexas, como raciocínio, tradução e associações.

O LATAM-GPT está sendo treinado em um banco de dados regional que compila informações de 20 países latino-americanos e Espanha, com um total impressionante de 2.645.500 documentos. A distribuição de dados mostra uma concentração significativa nos maiores países da região, com o Brasil o líder com 685.000 documentos, seguido pelo México com 385.000, Espanha com 325.000, Colômbia com 220.000 e Argentina com 210.000 documentos. Os números refletem o tamanho desses mercados, seu desenvolvimento digital e a disponibilidade de conteúdo estruturado.

“Inicialmente, lançaremos um modelo de idioma. Esperamos que seu desempenho em tarefas gerais esteja próximo do de grandes modelos comerciais, mas com desempenho superior em tópicos específicos da América Latina. A idéia é que, se perguntarmos sobre tópicos relevantes para a nossa região, seu conhecimento será muito mais profundo”, explica Soto.

O primeiro modelo é o ponto de partida para o desenvolvimento de uma família de tecnologias mais avançadas no futuro, incluindo aquelas com imagem e vídeo e para dimensionar modelos maiores. “Como este é um projeto aberto, queremos que outras instituições possam usá -lo. Um grupo na Colômbia pode adaptá -lo ao sistema educacional escolar ou um no Brasil poderia adaptá -lo ao setor de saúde. A idéia é abrir a porta para diferentes organizações para gerar modelos específicos para áreas específicas como agricultura, cultura e outros”, explica o diretor da CENIA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Políticas de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.