Acompanhar um setor em rápida evolução como a IA é uma tarefa difícil. Então, até que uma IA possa fazer isso por você, aqui está um resumo útil de histórias recentes no mundo do aprendizado de máquina, junto com pesquisas e experimentos notáveis que não abordamos por conta própria.
Esta semana, em IA, DeepMind, o laboratório de P&D de IA de propriedade do Google, lançou um papel propor um quadro para avaliar os riscos sociais e éticos dos sistemas de IA.
O momento do artigo – que exige níveis variados de envolvimento de desenvolvedores de IA, desenvolvedores de aplicativos e “intervenientes públicos mais amplos” na avaliação e auditoria da IA – não é acidental.
Na próxima semana acontecerá o AI Safety Summit, um evento patrocinado pelo governo do Reino Unido que reunirá governos internacionais, empresas líderes de IA, grupos da sociedade civil e especialistas em pesquisa para se concentrar na melhor forma de gerenciar os riscos dos avanços mais recentes em IA. incluindo IA generativa (por exemplo, ChatGPT, Difusão Estável e assim por diante). Lá, o Reino Unido é planejamento introduzir um grupo consultivo global sobre IA, inspirado no Painel Intergovernamental sobre Alterações Climáticas da ONU, composto por um elenco rotativo de académicos que escreverão relatórios regulares sobre desenvolvimentos de ponta em IA — e os perigos associados.
A DeepMind está expondo sua perspectiva, de forma muito visível, antes das negociações políticas locais na cúpula de dois dias. E, para dar crédito a quem merece, o laboratório de investigação apresenta alguns pontos razoáveis (embora óbvios), tais como apelar a abordagens para examinar os sistemas de IA no “ponto de interacção humana” e as formas como estes sistemas podem ser utilizados e inserido na sociedade.
Mas, ao avaliar as propostas da DeepMind, é informativo observar a pontuação da empresa controladora do laboratório, o Google, em um estudo recente. estudar divulgado por pesquisadores de Stanford que classifica dez principais modelos de IA de acordo com a abertura com que operam.
Avaliado com base em 100 critérios, incluindo se seu fabricante divulgou as fontes de seus dados de treinamento, informações sobre o hardware usado, o trabalho envolvido no treinamento e outros detalhes, o PaLM 2, um dos principais modelos de IA de análise de texto do Google, obteve apenas 40 pontos. %.
Agora, a DeepMind não desenvolveu o PaLM 2 – pelo menos não diretamente. Mas o laboratório não tem sido historicamente consistentemente transparente sobre os seus próprios modelos, e o facto de a sua empresa-mãe não cumprir as principais medidas de transparência sugere que não há muita pressão de cima para baixo para que a DeepMind faça melhor.
Por outro lado, além das suas reflexões públicas sobre políticas, a DeepMind parece estar a tomar medidas para mudar a percepção de que é calada sobre as arquitecturas e o funcionamento interno dos seus modelos. O laboratório, juntamente com a OpenAI e a Anthropic, comprometeu-se há vários meses a fornecer ao governo do Reino Unido “acesso antecipado ou prioritário” aos seus modelos de IA para apoiar a investigação em avaliação e segurança.
A questão é: isso é meramente performativo? Afinal, ninguém acusaria o DeepMind de filantropia – o laboratório arrecada centenas de milhões de dólares em receitas todos os anos, principalmente ao licenciar seu trabalho internamente para equipes do Google.
Talvez o próximo grande teste ético do laboratório seja o Gemini, seu próximo chatbot de IA, que o CEO da DeepMind, Demis Hassabis, prometeu repetidamente que rivalizará com o ChatGPT da OpenAI em suas capacidades. Caso a DeepMind deseje ser levada a sério na frente da ética da IA, ela terá que detalhar completa e minuciosamente os pontos fracos e limitações do Gemini – não apenas seus pontos fortes. Certamente estaremos observando de perto para ver como as coisas vão se desenrolar nos próximos meses.
Aqui estão algumas outras histórias dignas de nota sobre IA dos últimos dias:
- Estudo da Microsoft encontra falhas no GPT-4: Um novo artigo científico afiliado à Microsoft analisou a “confiabilidade” – e a toxicidade – de grandes modelos de linguagem (LLMs), incluindo o GPT-4 da OpenAI. Os coautores descobriram que uma versão anterior do GPT-4 pode ser mais facilmente solicitada do que outros LLMs a divulgar texto tóxico e tendencioso. Caramba.
- ChatGPT obtém pesquisa na web e DALL-E 3: Falando em OpenAI, a empresa formalmente lançado seu recurso de navegação na Internet para ChatGPT, alguns três semanas após a reintrodução do recurso em beta após vários meses de hiato. Em notícias relacionadas, a OpenAI também fez a transição do DALL-E 3 para beta, um mês depois de lançar a última encarnação do gerador de texto para imagem.
- Desafiadores do GPT-4V: A OpenAI está preparada para lançar o GPT-4V, uma variante do GPT-4 que entende imagens e também texto, em breve. Mas duas alternativas de código aberto venceram: LLaVA-1.5 e Fuyu-8B, um modelo da startup bem financiada Adept. Nenhum deles é tão capaz quanto o GPT-4V, mas ambos chegam perto – e o mais importante, são de uso gratuito.
- A IA pode jogar Pokémon?: Nos últimos anos, um engenheiro de software baseado em Seattle Peter Whidden vem treinando um algoritmo de aprendizado por reforço para navegar no clássico primeiro jogo da série Pokémon. No momento, chega apenas a Cerulean City – mas Whidden está confiante de que continuará a melhorar.
- Tutor de idiomas com tecnologia de IA: O Google está apostando no Duolingo com um novo recurso de Pesquisa do Google projetado para ajudar as pessoas a praticar – e melhorar – suas habilidades de falar inglês. Lançado nos próximos dias em dispositivos Android em países selecionados, o novo recurso fornecerá prática interativa de conversação para alunos de idiomas que traduzem de ou para o inglês.
- Amazon lança mais robôs de armazém: Em um evento esta semana, a Amazon anunciado que começará a testar o robô bípede da Agility, Digit, em suas instalações. Lendo nas entrelinhas, porém, não há garantia de que a Amazon realmente começará a implantar o Digit em seus armazéns, que atualmente utilizam mais de 750.000 sistemas robóticos, escreve Brian.
- Simuladores após simuladores: Na mesma semana, a Nvidia demonstrou a aplicação de um LLM para ajudar a escrever código de aprendizado por reforço para guiar um robô ingênuo orientado por IA a executar melhor uma tarefa, a Meta lançou o Habitat 3.0. A versão mais recente do conjunto de dados do Meta para treinar agentes de IA em ambientes internos realistas. O Habitat 3.0 adiciona a possibilidade de avatares humanos compartilharem o espaço em VR.
- Os titãs da tecnologia da China investem no rival OpenAI: Zhipu AI, uma startup com sede na China que desenvolve modelos de IA para rivalizar com OpenAI e outros no espaço de IA generativa, anunciado esta semana que arrecadou 2,5 bilhões de yuans (US$ 340 milhões) em financiamento total até o momento este ano. O anúncio surge num momento em que as tensões geopolíticas entre os EUA e a China aumentam – e não mostram sinais de abrandamento.
- Os EUA sufocam o fornecimento de chips de IA da China: Sobre o tema das tensões geopolíticas, a administração Biden anunciou esta semana uma série de medidas para conter as ambições militares de Pequim, incluindo uma restrição adicional aos envios de chips de IA da Nvidia para a China. A800 e H800, os dois chips de IA que a Nvidia projetou especificamente para continuar sendo enviados para a China, será atingido pela nova rodada de novas regras.
- As reprises de músicas pop da IA se tornam virais: Amanda cobre uma tendência curiosa: Contas TikTok que usam IA para fazer personagens como Homer Simpson cantarem músicas de rock dos anos 90 e 2000, como “Cheira a espírito adolescente.” Eles são divertidos e bobos aparentemente, mas há um tom sombrio em toda a prática, escreve Amanda.
Mais aprendizados de máquina
Os modelos de aprendizado de máquina levam constantemente a avanços nas ciências biológicas. AlphaFold e RoseTTAFold foram exemplos de como um problema teimoso (dobramento de proteínas) poderia ser, na verdade, banalizado pelo modelo de IA correto. Agora David Baker (criador deste último modelo) e os seus colegas de laboratório expandiram o processo de previsão para incluir mais do que apenas a estrutura das cadeias relevantes de aminoácidos. Afinal, as proteínas existem numa sopa de outras moléculas e átomos, e prever como irão interagir com compostos ou elementos dispersos no corpo é essencial para compreender a sua forma e actividade reais. RoseTTAFold All-Atom é um grande passo em frente na simulação de sistemas biológicos.
Ter uma IA visual que melhore o trabalho de laboratório ou atue como uma ferramenta de aprendizagem também é uma grande oportunidade. O projeto SmartEM do MIT e Harvard coloque um sistema de visão computacional e um sistema de controle de ML dentro de um microscópio eletrônico de varredura, que juntos conduzem o dispositivo para examinar uma amostra de forma inteligente. Ele pode evitar áreas de baixa importância, focar em áreas interessantes ou claras e também fazer uma rotulagem inteligente da imagem resultante.
Usar IA e outras ferramentas de alta tecnologia para fins arqueológicos nunca envelhece (se você quiser) para mim. Seja lidar revelando cidades e rodovias maias ou preenchendo lacunas de textos gregos antigos incompletos, é sempre legal de ver. E esta reconstrução de um pergaminho que se pensava ter sido destruído na erupção vulcânica que destruiu Pompeia é uma das mais impressionantes até agora.
Luke Farritor, aluno de CS da Universidade de Nebraska-Lincoln, treinou um modelo de aprendizado de máquina para amplificar os padrões sutis nas digitalizações do papiro enrolado e carbonizado que são invisíveis a olho nu. Seu foi um dos muitos métodos tentados em um desafio internacional para ler os pergaminhos, e poderia ser refinado para realizar trabalhos acadêmicos valiosos. Muito mais informações na Nature aqui. O que estava no pergaminho, você pergunta? Até agora, apenas a palavra “roxo” – mas mesmo isso fez os papirologistas enlouquecerem.
Outra vitória acadêmica da IA está em este sistema para verificar e sugerir citações na Wikipedia. É claro que a IA não sabe o que é verdadeiro ou factual, mas pode extrair do contexto a aparência de um artigo e uma citação da Wikipédia de alta qualidade e vasculhar o site e a web em busca de alternativas. Ninguém está sugerindo que deixemos os robôs executarem a famosa enciclopédia online dirigida aos usuários, mas isso poderia ajudar a reforçar artigos para os quais faltam citações ou os editores não têm certeza.
Os modelos de linguagem podem ser ajustados em muitos tópicos, e a matemática superior é surpreendentemente um deles. Llemma é um novo modelo aberto treinado em provas matemáticas e artigos que podem resolver problemas bastante complexos. Não é o primeiro – Minerva, do Google Research, está trabalhando em capacidades semelhantes – mas seu sucesso em conjuntos de problemas semelhantes e maior eficiência mostram que modelos “abertos” (seja qual for o valor do termo) são competitivos neste espaço. Não é desejável que certos tipos de IA sejam dominados por modelos privados, pelo que a replicação das suas capacidades abertamente é valiosa, mesmo que não abra novos caminhos.
É preocupante que Meta esteja progredindo em seu próprio trabalho acadêmico no sentido da leitura de mentes – mas, como acontece com a maioria dos estudos nesta área, a forma como é apresentada exagera o processo. Em um artigo chamado “Decodificação cerebral: Rumo à reconstrução em tempo real da percepção visual”, pode parecer que eles estão lendo mentes.
Mas é um pouco mais indireto do que isso. Ao estudar a aparência de uma tomografia cerebral de alta frequência quando as pessoas observam imagens de certas coisas, como cavalos ou aviões, os pesquisadores são capazes de realizar reconstruções quase em tempo real do que eles acham que a pessoa está pensando ou olhando. . Ainda assim, parece provável que a IA generativa tenha um papel a desempenhar aqui, na forma como pode criar uma expressão visual de algo, mesmo que não corresponda diretamente às digitalizações.
Deve estaremos usando IA para ler a mente das pessoas, se isso for possível? Pergunte ao DeepMind – veja acima.
Por último, um projeto no LAION que é mais aspiracional do que concreto neste momento, mas mesmo assim louvável. A Aprendizagem Contrastiva Multilíngue para Aquisição de Representação de Áudio, ou CLARA, visa dar aos modelos de linguagem uma melhor compreensão das nuances da fala humana. Você sabe como pode captar o sarcasmo ou uma mentira a partir de sinais subverbais, como tom ou pronúncia? As máquinas são muito ruins nisso, o que é uma má notícia para qualquer interação humano-IA. CLARA utiliza uma biblioteca de áudio e texto em vários idiomas para identificar alguns estados emocionais e outras pistas não-verbais de “compreensão da fala”.