Acompanhar um setor em rápida evolução como a IA é uma tarefa difícil. Então, até que uma IA possa fazer isso por você, aqui está um resumo útil de histórias recentes no mundo do aprendizado de máquina, junto com pesquisas e experimentos notáveis ​​que não abordamos por conta própria.

Esta semana na AI, a OpenAI realizou a primeira de muitas conferências de desenvolvedores que provavelmente virão. Durante a palestra, a empresa apresentou uma série de novos produtos, incluindo uma versão melhorada do GPT-4, novos modelos de conversão de texto em fala e uma API para o gerador de imagens DALL-E 3, entre outros.

Mas sem dúvida o anúncio mais significativo foram os GPTs.

Os GPTs da OpenAI fornecem uma maneira para os desenvolvedores construírem seus próprios sistemas de IA conversacional alimentados pelos modelos da OpenAI e publicá-los em um mercado hospedado pela OpenAI chamado GPT Store. Em breve, os desenvolvedores poderão até monetizar GPTs com base em quantas pessoas os usam, disse Sam Altman, CEO da OpenAI, no palco da conferência.

“Acreditamos que se você fornecer ferramentas melhores às pessoas, elas farão coisas incríveis”, disse Altman. “Você pode construir um GPT… e então publicá-lo para que outros possam usá-lo, e como eles combinam instruções, conhecimento expandido e ações, podem ser mais úteis para você.”

A mudança da OpenAI de fornecedor de modelo de IA para plataforma foi interessante, com certeza – mas não exatamente inesperada. A startup telegrafou suas ambições em março com o lançamento de plug-ins para ChatGPT, seu chatbot alimentado por IA, que trouxe terceiros para o ecossistema modelo da OpenAI pela primeira vez.

Mas o que pegou este escritor desprevenido foi a amplitude e profundidade das ferramentas GPT de construção – e comercialização – da OpenAI desde o início.

Meu colega Devin Coldewey, que participou pessoalmente da conferência da OpenAI, me disse que a experiência GPT foi “um pouco problemática” nas demonstrações – mas funciona como anunciado, mais ou menos. Os GPTs não exigem experiência em codificação e podem ser tão simples ou complexos quanto o desenvolvedor desejar. Por exemplo, um GPT pode ser treinado em uma coleção de livros de receitas para que possa fazer perguntas sobre ingredientes para uma receita específica. Ou uma GPT poderia ingerir bases de código proprietárias de uma empresa para que os desenvolvedores possam verificar seu estilo ou gerar código de acordo com as práticas recomendadas.

As GPTs democratizam efetivamente a criação de aplicativos generativos de IA – pelo menos para aplicativos que usam a família de modelos OpenAI. E se eu fosse os rivais da OpenAI – pelo menos os rivais sem o apoio da Big Tech – estaria correndo para a sala de guerra figurativa para reunir uma resposta.

A GPT poderia acabar com consultorias cujos modelos de negócios giram em torno da construção do que são essencialmente GPTs para os clientes. E para clientes com talentos de desenvolvimento, poderia criar fornecedores modelo que não oferecer qualquer forma de ferramenta de criação de aplicativos menos atraente, dadas as complexidades de ter que integrar APIs de um provedor em aplicativos e serviços existentes.

Isso é uma coisa boa? Eu diria que não necessariamente – e estou preocupado com o potencial de monopólio. Mas a OpenAI tem a vantagem de ser o pioneiro e está aproveitando isso – para melhor ou para pior.

Aqui estão algumas outras histórias dignas de nota sobre IA dos últimos dias:

  • Samsung revela IA generativa: Poucos dias após o evento de desenvolvimento da OpenAI, a Samsung revelou sua própria família de IA generativa, Samsung Gauss, no Samsung AI Forum 2023. Composta por três modelos — um grande modelo de linguagem semelhante ao ChatGPT, um modelo de geração de código e um modelo de geração de imagem e modelo de edição – o Samsung Gauss agora está sendo usado internamente pela equipe da Samsung, disse a empresa de tecnologia, e estará disponível para usuários públicos “em um futuro próximo”.
  • A Microsoft oferece computação de IA gratuita para startups: A Microsoft anunciou esta semana que está atualizando seu programa de inicialização, Microsoft for Startups Founders Hub, para incluir uma opção gratuita de infraestrutura de IA do Azure para clusters de máquinas virtuais de GPU “high-end” baseados em Nvidia para treinar e executar modelos generativos. Y Combinator e sua comunidade de fundadores de startups serão os primeiros a obter acesso aos clusters em visualização privada, seguidos pelo M12, o fundo de risco da Microsoft, e startups no portfólio do M12 – e potencialmente outros investidores e aceleradores de startups depois disso.
  • O YouTube testa recursos generativos de IA: O YouTube em breve começará a experimentar novos recursos generativos de IA, a empresa anunciado essa semana. Como parte do pacote premium disponível para assinantes pagantes do YouTube, os usuários poderão experimentar uma ferramenta de conversação que usa IA para responder perguntas sobre o conteúdo do YouTube e fazer recomendações, além de um recurso que resume tópicos nos comentários de um vídeo.
  • Uma entrevista com o chefe de robótica da DeepMind: Brian conversou com Vincent Vanhoucke, chefe de robótica do Google DeepMind, sobre as grandes ambições robóticas do Google. A entrevista abordou uma série de tópicos, incluindo robôs de uso geral, IA generativa e – acima de tudo – Wi-Fi de escritório.
  • A startup de IA de Kai-Fu Lee revela modelo: Kai-Fu Lee, o cientista da computação conhecido no Ocidente por seu best-seller “AI Superpowers” ​​e na China por suas apostas em unicórnios de IA, está ganhando terreno impressionante com sua própria startup de IA, 01.AI. Sete meses após sua fundação, a 01.AI — avaliada em US$ 1 bilhão — lançou seu primeiro modelo, o código aberto Yi-34B.
  • GitHub apresenta plano Copilot personalizável: O GitHub anunciou esta semana planos para um nível de assinatura empresarial que permitirá às empresas ajustar seu programador de pares Copilot com base em sua base de código interna. A notícia fez parte de uma série de informações notáveis ​​​​que a empresa de propriedade da Microsoft revelou em sua conferência anual de desenvolvedores GitHub Universe na quarta-feira, incluindo um novo programa de parceria, além de fornecer mais clareza sobre quando o Copilot Chat – o recurso semelhante ao chatbot recentemente revelado do Copilot – estará oficialmente disponível.
  • Equipe modelo de duas pessoas da Hugging Face: A startup de IA Hugging Face oferece uma ampla gama de ferramentas de hospedagem e desenvolvimento de ciência de dados. Mas algumas das ferramentas mais impressionantes – e capazes – da empresa atualmente vêm de uma equipe de duas pessoas formada em janeiro, chamada H4.
  • Mozilla lança um chatbot de IA: No início deste ano, a Mozilla adquiriu a Fakespot, uma startup que utiliza IA e aprendizado de máquina para identificar análises de produtos falsas e enganosas. Agora, a Mozilla está lançando seu primeiro modelo de linguagem grande com a chegada do Bate-papo falso, um agente de IA que ajuda os consumidores enquanto fazem compras online, respondendo a perguntas sobre produtos e até sugerindo perguntas que podem ser úteis na pesquisa de produtos.

Mais aprendizados de máquina

Vimos em muitas disciplinas como os modelos de aprendizado de máquina são capazes de fazer previsões realmente boas de curto prazo para estruturas de dados complexas depois de examinar muitos exemplos anteriores. Por exemplo, poderia prolongar o período de alerta para os próximos terramotos, dando às pessoas 20-30 segundos adicionais cruciais para se protegerem. E o Google mostrou que também é bom em prever padrões climáticos.

Vários apareceram na postagem mostrando como o MetNet integra dados em suas previsões baseadas em ML. Créditos da imagem: Google

MetNet-3 é o mais recente de uma série de modelos meteorológicos baseados na física que analisam uma variedade de variáveis, como precipitação, temperatura, vento e cobertura de nuvens, e produzem previsões de resolução surpreendentemente alta (temporal e espacial) para o que provavelmente acontecerá. venha a seguir. Muito desse tipo de previsão é baseado em modelos bastante antigos, que são precisos algumas vezes, mas não outras, ou podem se tornar mais precisos combinando seus dados com outras fontes – que é o que o MetNet-3 faz. Não vou entrar muito em detalhes, mas eles fizeram um post muito interessante sobre o assunto na semana passada, isso dá uma ótima noção de como funcionam os modernos mecanismos de previsão do tempo.

Em outras notícias científicas altamente específicas, pesquisadores da Universidade do Kansas fizeram um detector para texto gerado por IA… para artigos de periódicos sobre química. Claro, não é útil para a maioria das pessoas, mas depois que OpenAI e outros pisaram no freio nos modelos de detectores, é útil mostrar que, pelo menos, algo mais limitado é possível. “A maior parte do campo da análise de texto deseja um detector realmente geral que funcione em qualquer coisa”, disse a coautora Heather Desaire. “Estávamos realmente buscando precisão.”

Seu modelo foi treinado em artigos da revista American Chemical Society, aprendendo a escrever seções de introdução apenas a partir do título e apenas do resumo. Posteriormente, foi capaz de identificar introduções escritas em ChatGPT-3.5 com precisão quase perfeita. Obviamente, este é um caso de uso extremamente restrito, mas a equipe ressalta que foi capaz de configurá-lo de forma bastante rápida e fácil, o que significa que um detector poderia ser configurado para diferentes ciências, periódicos e idiomas.

Ainda não existe um para redações de admissão à faculdade, mas a IA pode estar do outro lado desse processo em breve, não decidindo quem entra, mas ajudando os oficiais de admissão a identificar diamantes brutos. Pesquisadores da Universidade do Colorado e da UPenn mostraram que um modelo de ML foi capaz de identificar com sucesso passagens nas redações dos alunos que indicavam interesses e qualidadescomo liderança ou “propósito pró-social”.

Os alunos não serão pontuados desta forma (ainda), mas é uma ferramenta muito necessária na caixa de ferramentas dos administradores, que devem passar por milhares de inscrições e podem ajudar de vez em quando. Eles poderiam usar uma camada de análise como essa para agrupar redações ou até mesmo randomizá-las melhor para que todos que falam sobre acampamento não acabem em fila. E a investigação revelou que a língua utilizada pelos estudantes era surpreendentemente preditiva de certos factores académicos, como a taxa de graduação. Eles analisarão isso mais profundamente, é claro, mas está claro que a estilometria baseada em ML continuará importante.

Porém, não seria bom perder de vista as limitações da IA, conforme destacado por um grupo de pesquisadores da Universidade de Washington que testou a compatibilidade das ferramentas de IA com suas próprias necessidades de acessibilidade. Suas experiências foram decididamente mistas, com sistemas de resumo adicionando preconceitos ou detalhes alucinantes (tornando-os inadequados para pessoas incapazes de ler o material de origem) e aplicando de forma inconsistente regras de conteúdo de acessibilidade.

Funcionários com deficiência e inclusão trabalham juntos no escritório.

Ao mesmo tempo, porém, uma pessoa com autismo descobriu que usar um modelo de linguagem para gerar mensagens no Slack os ajudou a superar a falta de confiança em sua capacidade de se comunicar normalmente. Embora seus colegas de trabalho achassem as mensagens um tanto “robóticas”, isso foi um benefício líquido para o usuário, o que é um começo. Você pode encontrar mais informações sobre este estudo aqui.

Ambos os itens anteriores trazem à tona questões espinhosas de preconceito e estranheza geral da IA ​​em uma área sensível, portanto, não é surpreendente que alguns estados e municípios estejam procurando estabelecer regras sobre como a IA pode ser usada em funções oficiais. Seattle, por exemplo, acaba de lançar um conjunto de “princípios governantes” e kits de ferramentas que devem ser consultados ou aplicados antes que um modelo de IA possa ser usado para fins oficiais. Não há dúvida de que veremos conjuntos de regras diferentes – e talvez contraditórios – aplicados em todos os níveis de governação.

Dentro da VR, um modelo de aprendizado de máquina que funcionava como um detector de gestos flexível ajudou a criar um conjunto de maneiras realmente interessantes de interagir com objetos virtuais. “Se usar VR é como usar um teclado e um mouse, então qual é o sentido de usá-lo?” perguntou o autor principal, Per Ola Kristensson. “Ele precisa dar a você poderes quase sobre-humanos que você não conseguiria em outro lugar.” Bom ponto!

Você pode ver no vídeo acima exatamente como funciona, o que quando você pensa sobre isso faz todo o sentido intuitivamente. Não quero selecionar “copiar” e depois “colar” de um menu usando meu rato dedo. Quero segurar um objeto com uma mão, depois abrir a palma da outra e bum, uma duplicata! Aí se eu quiser cortar é só fazer a mão em tesoura?! Isso é incrível!

Créditos da imagem: EPFL

Por último, falando em Recortar/Colar, esse é o nome do uma nova exposição na universidade suíça EPFL, onde estudantes e professores analisaram a história dos quadrinhos a partir da década de 1950 e como a IA poderia aprimorá-los ou interpretá-los. Obviamente a arte generativa ainda não está a assumir o controlo, mas alguns artistas estão obviamente interessados ​​em testar a nova tecnologia, apesar do seu enigma ético e de direitos de autor, e explorar as suas interpretações do material histórico. Se você tiver a sorte de estar em Lausanne, dê uma olhada no Couper/Coller (a versão local cativante das onipresentes ações digitais).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Políticas de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.