Acompanhar um setor em rápida evolução como a IA é uma tarefa difícil. Então, até que uma IA possa fazer isso por você, aqui está um resumo útil de histórias recentes no mundo do aprendizado de máquina, junto com pesquisas e experimentos notáveis que não abordamos por conta própria.
Esta semana, na IA, gostaria de chamar a atenção para startups de rotulagem e anotação – startups como Scale AI, que é supostamente em negociações para levantar novos fundos com uma avaliação de US$ 13 bilhões. As plataformas de rotulagem e anotação podem não chamar a atenção de novos modelos generativos de IA como o Sora da OpenAI. Mas eles são essenciais. Sem eles, os modelos modernos de IA provavelmente não existiriam.
Os dados nos quais muitos modelos são treinados devem ser rotulados. Por que? Rótulos, ou tags, ajudam os modelos a compreender e interpretar os dados durante o processo de treinamento. Por exemplo, rótulos para treinar um modelo de reconhecimento de imagem podem assumir a forma de marcações ao redor de objetos, “caixas delimitadoras”Ou legendas referentes a cada pessoa, lugar ou objeto retratado em uma imagem.
A precisão e a qualidade dos rótulos impactam significativamente o desempenho — e a confiabilidade — dos modelos treinados. E a anotação é uma tarefa vasta, exigindo de milhares a milhões de rótulos para os conjuntos de dados maiores e mais sofisticados em uso.
Portanto, você pensaria que os anotadores de dados seriam bem tratados, receberiam salários dignos e receberiam os mesmos benefícios que os próprios engenheiros que constroem os modelos desfrutam. Mas muitas vezes, o oposto é verdadeiro – um produto das condições de trabalho brutais que muitas startups de anotação e rotulagem promovem.
Empresas com bilhões no banco, como a OpenAI, contam com anotadores em países do terceiro mundo pagavam apenas alguns dólares por hora. Alguns desses anotadores são expostos a conteúdos altamente perturbadores, como imagens gráficas, mas não recebem folga (já que geralmente são contratados) ou acesso a recursos de saúde mental.
Um excelente pedaço em NY Mag abre as cortinas sobre a Scale AI em particular, que recruta anotadores em países tão distantes como Nairobi e Quênia. Algumas das tarefas no Scale AI exigem dos rotuladores vários dias de trabalho de oito horas – sem intervalos – e pagam apenas US$ 10. E esses trabalhadores estão em dívida com os caprichos da plataforma. Os anotadores às vezes passam longos períodos sem receber trabalho ou são expulsos sem cerimônia da Scale AI – como aconteceu com empreiteiros na Tailândia, Vietnã, Polônia e Paquistão recentemente.
Algumas plataformas de anotação e rotulagem afirmam fornecer trabalho de “comércio justo”. Na verdade, eles fizeram disso uma parte central de sua marca. Mas como diz Kate Kaye, do MIT Tech Review notasnão existem regulamentações, apenas padrões industriais fracos sobre o que significa o trabalho de rotulagem ética — e as próprias definições das empresas variam amplamente.
Então o que fazer? Salvo um enorme avanço tecnológico, a necessidade de anotar e rotular dados para treinamento em IA não irá desaparecer. Podemos esperar que as plataformas se autorregulam, mas a solução mais realista parece ser a elaboração de políticas. Isso em si é uma perspectiva complicada – mas é a melhor chance que temos, eu diria, de mudar as coisas para melhor. Ou pelo menos começando.
Aqui estão algumas outras histórias dignas de nota sobre IA dos últimos dias:
- OpenAI constrói um clonador de voz: A OpenAI está apresentando uma nova ferramenta desenvolvida por IA, Voice Engine, que permite aos usuários clonar uma voz a partir de uma gravação de 15 segundos de alguém falando. Mas a empresa está optando por não divulgá-lo amplamente (ainda), citando riscos de uso indevido e abuso.
- Amazon dobra sua aposta na Antrópica: A Amazon investiu mais US$ 2,75 bilhões no crescimento do poder da IA Anthropic, seguindo a opção que deixou em aberto em setembro passado.
- Google.org lança um acelerador: Google.org, braço de caridade do Google, está lançando um novo programa de seis meses de US$ 20 milhões para ajudar a financiar organizações sem fins lucrativos que desenvolvem tecnologia que aproveita a IA generativa.
- Uma nova arquitetura de modelo: A startup de IA AI21 Labs lançou um modelo generativo de IA, Jamba, que emprega uma arquitetura de modelo nova (ish) – modelos de espaço de estado, ou SSMs – para melhorar a eficiência.
- Databricks lança DBRX: Em outras notícias de modelo, a Databricks lançou esta semana o DBRX, um modelo generativo de IA semelhante à série GPT da OpenAI e ao Gemini do Google. A empresa afirma que obtém resultados de última geração em vários benchmarks populares de IA, incluindo vários raciocínios de medição.
- Uber Eats e regulamentação de IA do Reino Unido: Natasha escreve sobre como a luta de um mensageiro do Uber Eats contra o preconceito da IA mostra que a justiça sob as regulamentações de IA do Reino Unido é difícil de conquistar.
- Orientações sobre segurança eleitoral da UE: A União Europeia publicou na terça-feira um projeto de diretrizes de segurança eleitoral destinadas a cerca de duas dúzias plataformas regulamentadas pelo Lei de Serviços Digitais, incluindo diretrizes relativas à prevenção de que algoritmos de recomendação de conteúdo espalhem desinformação generativa baseada em IA (também conhecidos como deepfakes políticos).
- Grok é atualizado: O chatbot Grok do X receberá em breve um modelo subjacente atualizado, Grok-1.5 – ao mesmo tempo, todos os assinantes Premium no X terão acesso ao Grok. (Grok era anteriormente exclusivo para clientes X Premium+.)
- Adobe expande Firefly: Esta semana, a Adobe revelou Firefly Services, um conjunto de mais de 20 novas APIs, ferramentas e serviços generativos e criativos. Também lançou modelos personalizados, que permitem às empresas ajustar modelos Firefly com base em seus ativos – uma parte do novo pacote GenStudio da Adobe.
Mais aprendizados de máquina
Como está o tempo? A IA é cada vez mais capaz de lhe dizer isso. Observei alguns esforços em previsões horárias, semanais e em escala centenária há alguns meses, mas como todas as coisas de IA, o campo está se movendo rapidamente. As equipes por trás do MetNet-3 e do GraphCast publicaram um artigo descrevendo um novo sistema chamado SEMENTESpara amostrador de difusão de envelope de conjunto escalável.
O SEEDS usa difusão para gerar “conjuntos” de resultados climáticos plausíveis para uma área com base nas informações (leituras de radar ou imagens orbitais, talvez) muito mais rápido do que modelos baseados em física. Com contagens de conjuntos maiores, eles podem cobrir mais casos extremos (como um evento que ocorre apenas em 1 entre 100 cenários possíveis) e ter mais confiança em situações mais prováveis.
A Fujitsu também espera compreender melhor o mundo natural através aplicando técnicas de manipulação de imagens de IA a imagens subaquáticas e dados lidar coletados por veículos autônomos subaquáticos. Melhorar a qualidade das imagens permitirá que outros processos menos sofisticados (como a conversão 3D) funcionem melhor nos dados de destino.
A ideia é construir um “gémeo digital” das águas que possa ajudar a simular e prever novos desenvolvimentos. Estamos muito longe disso, mas você precisa começar de algum lugar.
Entre os LLMs, os pesquisadores descobriram que eles imitam a inteligência por um método ainda mais simples do que o esperado: funções lineares. Francamente, a matemática está além da minha compreensão (coisas vetoriais em muitas dimensões), mas este artigo no MIT deixa bem claro que o mecanismo de recall desses modelos é bastante… básico.
Embora esses modelos sejam funções não lineares realmente complicadas, treinadas com muitos dados e muito difíceis de entender, às vezes existem mecanismos muito simples trabalhando dentro deles. Este é um exemplo disso”, disse o co-autor Evan Hernandez. Se você tiver uma mentalidade mais técnica, confira o jornal aqui.
Uma das maneiras pelas quais esses modelos podem falhar é não compreender o contexto ou o feedback. Mesmo um LLM realmente capaz pode não “entender” se você disser que seu nome é pronunciado de uma determinada maneira, já que na verdade ele não sabe ou entende nada. Nos casos em que isso possa ser importante, como nas interações humano-robô, pode desanimar as pessoas se o robô agir dessa forma.
A Disney Research vem pesquisando interações automatizadas entre personagens há muito tempo e pronúncia deste nome e reutilização de papel apareceu há pouco tempo. Parece óbvio, mas extrair os fonemas quando alguém se apresenta e codificá-los, em vez de apenas o nome escrito, é uma abordagem inteligente.
Por último, à medida que a IA e a pesquisa se sobrepõem cada vez mais, vale a pena reavaliar a forma como estas ferramentas são utilizadas e se existem novos riscos apresentados por esta união profana. Safiya Umoja Noble tem sido uma voz importante na IA e na ética de pesquisa há anos, e sua opinião é sempre esclarecedora. Ela deu uma bela entrevista com a equipe de notícias da UCLA sobre como o trabalho dela evoluiu e por que precisamos permanecer indiferentes quando se trata de preconceitos e maus hábitos de pesquisa.