Assim como o diretor de “Vingadores”, Joe Russo, estou cada vez mais convencido de que filmes e programas de TV totalmente gerados por IA serão possíveis durante nossas vidas.
Uma série de revelações de IA nos últimos meses, em particular o mecanismo de conversão de texto em fala de som ultra-realista da OpenAI, deram vislumbres desta admirável nova fronteira. Mas Meta anúncio hoje coloca nosso futuro de conteúdo gerado por IA em relevo especialmente nítido – pelo menos para mim.
Meta estreou pela manhã o Emu Video, uma evolução da ferramenta de geração de imagens da gigante da tecnologia, o Emu. Dada uma legenda (por exemplo, “Um cachorro correndo por uma colina gramada”), uma imagem ou uma foto combinada com uma descrição, o Emu Video pode gerar um clipe animado de quatro segundos de duração.
Os clipes do Emu Video podem ser editados com um modelo complementar de IA chamado Emu Edit, que também foi anunciado hoje. Os usuários podem descrever as modificações que desejam fazer no Emu Edit em linguagem natural – por exemplo, “o mesmo clipe, mas em câmera lenta” – e ver as alterações refletidas em um vídeo recém-gerado.
Agora, a tecnologia de geração de vídeo não é nova. Meta já experimentou isso antes, assim como o Google. Enquanto isso, startups como a Runway já estão construindo negócios com base nela.
Mas os clipes de 512 × 512 e 16 quadros por segundo do Emu Video estão facilmente entre os melhores que já vi em termos de fidelidade – a ponto de meu olho destreinado ter dificuldade em distingui-los do real.
Bem – pelo menos alguns deles. Parece que o Emu Video tem mais sucesso na animação de cenas simples, em sua maioria estáticas (por exemplo, cachoeiras e timelapses de skylines de cidades) que se afastam do fotorrealismo – isto é, em estilos como cubismo, anime, “paper cut craft” e steampunk. Um clipe da Torre Eiffel ao amanhecer “como uma pintura”, com a torre refletida no rio Sena abaixo dela, me lembrou de um cartão eletrônico que você pode ver no Facebook. Saudações Americanas.
Mesmo nos melhores trabalhos do Emu Video, no entanto, a estranheza gerada pela IA consegue se infiltrar – como física bizarra (por exemplo, skates que se movem paralelamente ao chão) e apêndices estranhos (dedos dos pés, pernas que se enrolam atrás dos pés e pernas que se misturam). Os objetos muitas vezes também aparecem e desaparecem de vista sem muita lógica, como os pássaros no clipe da Torre Eiffel mencionado acima.
Depois de passar muito tempo navegando nas criações do Emu Video (ou pelo menos nos exemplos que o Meta escolheu a dedo), comecei a notar outra indicação óbvia: os assuntos nos clipes não… bem, fazer muito. Pelo que posso dizer, o Emu Video não parece ter uma forte compreensão dos verbos de ação, talvez uma limitação da arquitetura subjacente do modelo.
Por exemplo, um lindo guaxinim antropomorfizado em um videoclipe da Emu segurará uma guitarra, mas não dedilhar a guitarra – mesmo que a legenda do clipe incluísse a palavra “dedilhar”. Ou dois unicórnios “jogarão” xadrez, mas apenas no sentido de que ficarão sentados curiosos em frente a um tabuleiro de xadrez sem mover as peças.
Portanto, claramente há trabalho a ser feito. Ainda assim, o b-roll mais básico do Emu Video não estaria deslocado em um filme ou programa de TV hoje, eu diria – e as ramificações éticas disso me aterrorizam francamente.
Deixando de lado o risco de deepfakes, temo pelos animadores e artistas cujo sustento depende da elaboração dos tipos de cenas que a IA como o Emu Video agora pode aproximar. A Meta e seus rivais de IA generativa provavelmente argumentariam que o Emu Video, que o CEO da Meta, Mark Zuckerberg, diz está sendo integrado ao Facebook e Instagram (espero que com melhor filtros de toxicidade do que os adesivos gerados por IA do Meta), aumentar em vez de substituir artistas humanos. Mas eu diria que isso é uma visão otimista, se não falsa, – especialmente quando há dinheiro envolvido.
No início deste ano, a Netflix usou imagens de fundo geradas por IA em um curta animado de três minutos. A empresa reivindicado que a tecnologia poderia ajudar com a suposta escassez de mão de obra no anime – mas convenientemente encobriu como os baixos salários e as condições de trabalho muitas vezes extenuantes estão afastando os artistas do trabalho.
Numa controvérsia semelhante, o estúdio por trás da sequência de créditos de “Invasão Secreta” da Marvel admitiu ter usado IA, principalmente a ferramenta de conversão de texto em imagem Midjourney, para gerar grande parte da arte da sequência. O diretor da série, Ali Selim, argumentou que o uso da IA se encaixa nos temas paranóicos do programa, mas a maior parte da comunidade artística e dos fãs discordou veementemente.
Os atores também podem estar em risco. Um dos principais pontos de discórdia na recente greve do SAG-AFTRA foi o uso da IA para criar imagens digitais. Os estúdios finalmente concordaram em pagar aos atores por suas imagens geradas por IA. Mas eles poderiam reconsiderar à medida que a tecnologia melhora? Eu acho que é provável.
Para piorar a situação, a IA como o Emu Video geralmente é treinada em imagens e vídeos produzidos por artistas, fotógrafos e cineastas – e sem notificar ou compensar esses criadores. Em um papel branco acompanhando o lançamento do Emu Video, Meta diz apenas que o modelo foi treinado em um conjunto de dados de 34 milhões de “pares de vídeo-texto” com duração de 5 a 60 segundos – não de onde vieram esses vídeos, seus status de direitos autorais ou se o Meta licenciou-os.
Tem havido avanços e avanços em direção aos padrões de todo o setor para permitir que os artistas “optem por não participar” do treinamento ou recebam pagamento por trabalhos gerados por IA para os quais contribuíram. Mas se o Emu Video servir de indicação, a tecnologia – como tantas vezes acontece – em breve estará muito à frente da ética. Talvez já tenha acontecido.