Acompanhar um setor em rápida evolução como a IA é uma tarefa difícil. Então, até que uma IA possa fazer isso por você, aqui está um resumo útil de histórias recentes no mundo do aprendizado de máquina, junto com pesquisas e experimentos notáveis que não abordamos por conta própria.
A propósito – o TechCrunch planeja lançar um boletim informativo sobre IA em breve. Fique atento.
Esta semana, na AI, oito importantes jornais dos EUA de propriedade da gigante de investimentos Alden Global Capital, incluindo o New York Daily News, o Chicago Tribune e o Orlando Sentinel, processaram a OpenAI e a Microsoft por violação de direitos autorais relacionada ao uso de tecnologia de IA generativa pelas empresas. Eles, como o The New York Times em seu processo em andamento contra a OpenAI, acusam a OpenAI e a Microsoft de roubar seu IP sem permissão ou compensação para construir e comercializar modelos generativos como o GPT-4.
“Gastamos bilhões de dólares coletando informações e relatando notícias em nossas publicações, e não podemos permitir que a OpenAI e a Microsoft expandam o grande manual tecnológico de roubar nosso trabalho para construir seus próprios negócios às nossas custas”, disse Frank Pine, o editor executivo que supervisiona os jornais de Alden, disse em um comunicado.
O processo parece provavelmente terminar em um acordo e acordo de licenciamento, dadas as parcerias existentes da OpenAI com editores e sua relutância em depender todo o seu modelo de negócios no argumento de uso justo. Mas e o resto dos criadores de conteúdo cujos trabalhos estão sendo incluídos no treinamento de modelos sem pagamento?
Parece que a OpenAI está pensando nisso.
Uma pesquisa publicada recentemente papel em coautoria com Boaz Barak, cientista da equipe Superalignment da OpenAI, propõe uma estrutura para compensar os proprietários de direitos autorais “proporcionalmente às suas contribuições para a criação de conteúdo gerado por IA”. Como? Através teoria dos jogos cooperativos.
A estrutura avalia até que ponto o conteúdo de um conjunto de dados de treinamento – por exemplo, texto, imagens ou alguns outros dados – influencia o que um modelo gera, empregando um conceito de teoria dos jogos conhecido como Valor Shapley. Depois, com base nessa avaliação, determina a “parte legítima” dos proprietários do conteúdo (ou seja, a compensação).
Digamos que você tenha um modelo de geração de imagens treinado com obras de arte de quatro artistas: John, Jacob, Jack e Jebediah. Você pede para desenhar uma flor no estilo de Jack. Com o referencial, é possível determinar a influência que a obra de cada artista teve na arte que o modelo gera e, assim, a remuneração que cada um deve receber.
Porém, há uma desvantagem na estrutura: ela é computacionalmente cara. As soluções alternativas dos investigadores baseiam-se em estimativas de compensação e não em cálculos exactos. Isso satisfaria os criadores de conteúdo? Eu não tenho tanta certeza. Se algum dia a OpenAI colocar isso em prática, certamente descobriremos.
Aqui estão algumas outras histórias dignas de nota sobre IA dos últimos dias:
- Microsoft reafirma proibição de reconhecimento facial: A linguagem adicionada aos termos de serviço do Azure OpenAI Service, o wrapper totalmente gerenciado da Microsoft em torno da tecnologia OpenAI, proíbe mais claramente que as integrações sejam usadas “por ou para” departamentos de polícia para reconhecimento facial nos EUA
- A natureza das startups nativas de IA: As startups de IA enfrentam um conjunto diferente de desafios de uma típica empresa de software como serviço. Essa foi a mensagem de Rudina Seseri, fundadora e sócia-gerente da Glasswing Ventures, na semana passada no evento TechCrunch Early Stage em Boston; Ron tem a história completa.
- Anthropic lança plano de negócios: A startup de IA Anthropic está lançando um novo plano pago voltado para empresas, bem como um novo aplicativo iOS. Team – o plano empresarial – oferece aos clientes acesso de alta prioridade à família Claude 3 de modelos generativos de IA da Anthropic, além de controles adicionais de administração e gerenciamento de usuários.
- CodeWhisperer não mais: Amazon CodeWhisperer agora é Desenvolvedor Qparte da família Q da Amazon de chatbots generativos de IA voltados para negócios. Disponível por meio da AWS, o Q Developer ajuda em algumas das tarefas que os desenvolvedores realizam em seu trabalho diário, como depuração e atualização de aplicativos – assim como o CodeWhisperer fez.
- Basta sair do Sam’s Club: O Sam’s Club, de propriedade do Walmart, diz que está recorrendo à IA para ajudar a acelerar sua “tecnologia de saída”. Em vez de exigir que os funcionários da loja comparem as compras dos membros com seus recibos ao sair da loja, os clientes do Sam’s Club que pagam em uma caixa registradora ou por meio do aplicativo móvel Scan & Go agora podem sair de determinadas lojas sem ter suas compras verificadas duas vezes. .
- Colheita de peixe automatizada: A colheita de peixes é um negócio inerentemente complicado. Shinkei está trabalhando para melhorá-lo com um sistema automatizado que despacha o peixe de maneira mais humana e confiável, resultando no que poderia ser uma economia de frutos do mar totalmente diferente, relata Devin.
- Assistente de IA do Yelp: O Yelp anunciou esta semana um novo chatbot com tecnologia de IA para consumidores – desenvolvido com modelos OpenAI, diz a empresa – que os ajuda a se conectar com empresas relevantes para suas tarefas (como instalação de luminárias, modernização de espaços externos e assim por diante). A empresa está lançando o assistente de IA em seu aplicativo iOS na guia “Projetos”, com planos de expansão para Android ainda este ano.
Mais aprendizados de máquina
Parece que houve uma grande festa no Argonne National Lab neste inverno, quando trouxeram uma centena de especialistas em IA e no setor de energia para falar sobre como a tecnologia em rápida evolução poderia ser útil para a infraestrutura e P&D do país nessa área. O relatório resultante é mais ou menos o que você esperaria daquela multidão: muita torta no céu, mas ainda assim informativo.
Olhando para a energia nuclear, a rede, a gestão do carbono, o armazenamento de energia e os materiais, os temas que emergiram deste encontro foram, primeiro, que os investigadores precisam de acesso a ferramentas e recursos computacionais de alta potência; segundo, aprender a identificar os pontos fracos das simulações e previsões (incluindo aqueles possibilitados pela primeira coisa); terceiro, a necessidade de ferramentas de IA que possam integrar e tornar acessíveis dados de múltiplas fontes e em vários formatos. Vimos todas essas coisas acontecendo no setor de várias maneiras, então não é nenhuma grande surpresa, mas nada é feito no nível federal sem que alguns especialistas publiquem um documento, por isso é bom deixar isso registrado.
Georgia Tech e Meta estão trabalhando em parte disso com um grande novo banco de dados chamado OpenDAC, uma pilha de reações, materiais e cálculos destinados a ajudar os cientistas a projetar processos de captura de carbono para fazê-lo com mais facilidade. Ele se concentra em estruturas metal-orgânicas, um tipo de material promissor e popular para captura de carbono, mas com milhares de variações, que não foram exaustivamente testadas.
A equipe da Georgia Tech se reuniu com o Oak Ridge National Lab e o Meta’s FAIR para simular interações de química quântica nesses materiais, usando cerca de 400 milhões de horas de computação – muito mais do que uma universidade pode facilmente reunir. Esperamos que seja útil para os pesquisadores do clima que trabalham nesta área. Está tudo documentado aqui.
Ouvimos muito sobre aplicações de IA na área médica, embora a maioria desempenhe o que você pode chamar de função consultiva, ajudando especialistas a perceber coisas que de outra forma não teriam visto ou identificando padrões que levariam horas para um técnico encontrar. Isso ocorre em parte porque esses modelos de aprendizado de máquina apenas encontram conexões entre estatísticas sem entender o que causou ou levou a quê. Pesquisadores de Cambridge e Ludwig Maximilian da Universidade de Munique estão trabalhando nisso, uma vez que superar as relações correlativas básicas pode ser extremamente útil na criação de planos de tratamento.
O trabalho, liderado pelo professor Stefan Feuerriegel da LMU, visa fazer modelos que possam identificar mecanismos causais, não apenas correlações: “Damos à máquina regras para reconhecer a estrutura causal e formalizar corretamente o problema. Depois, a máquina tem de aprender a reconhecer os efeitos das intervenções e a compreender, por assim dizer, como as consequências da vida real são refletidas nos dados que foram alimentados nos computadores”, disse ele. Ainda é cedo para eles e estão cientes disso, mas acreditam que o seu trabalho faz parte de um importante período de desenvolvimento à escala de uma década.
Na Universidade da Pensilvânia, estudante de graduação Ro Encarnación está trabalhando em um novo ângulo no campo da “justiça algorítmica” vimos pioneiros (principalmente por mulheres e pessoas de cor) nos últimos sete ou oito anos. Seu trabalho está mais focado nos usuários do que nas plataformas, documentando o que ela chama de “auditoria emergente”.
Quando o Tiktok ou o Instagram lançam um filtro meio racista ou um gerador de imagens que faz algo chamativo, o que os usuários fazem? Reclamam, claro, mas também continuam a usá-lo e aprendem como contornar ou mesmo agravar os problemas nele codificados. Pode não ser uma “solução” da forma como pensamos, mas demonstra a diversidade e a resiliência do lado do usuário da equação – eles não são tão frágeis ou passivos quanto você imagina.