Em 2019, a Amazon atualizou seu assistente Alexa com um recurso que lhe permitiu detectar quando um cliente provavelmente estava frustrado – e responder com proporcionalmente mais simpatia. Se um cliente pedisse a Alexa para tocar uma música e colocasse a música errada na fila, por exemplo, e então o cliente dissesse “Não, Alexa” em um tom chateado, Alexa poderia pedir desculpas – e solicitar um esclarecimento.
Agora, o grupo por trás de um dos conjuntos de dados usados para treinar o modelo de texto para imagem Stable Diffusion deseja trazer recursos semelhantes de detecção de emoções para todos os desenvolvedores – sem nenhum custo.
Esta semana, LAION, a organização sem fins lucrativos que cria conjuntos de dados de imagem e texto para treinamento de IA generativa, incluindo Difusão Estável, anunciou o Empático aberto projeto. O Open Empathic visa “equipar sistemas de IA de código aberto com empatia e inteligência emocional”, nas palavras do grupo.
“A equipe do LAION, com experiência em saúde, educação e pesquisa de aprendizado de máquina, viu uma lacuna na comunidade de código aberto: a IA emocional foi amplamente negligenciada”, disse Christoph Schuhmann, cofundador do LAION, ao TechCrunch por e-mail. “Assim como nossas preocupações sobre os monopólios não transparentes de IA que levaram ao nascimento do LAION, sentimos uma urgência semelhante aqui.”
Através do Open Empathic, a LAION está recrutando voluntários para enviar clipes de áudio para um banco de dados que pode ser usado para criar IA, incluindo chatbots e modelos de conversão de texto em fala, que “compreendem” as emoções humanas.
“Com o OpenEmpathic, nosso objetivo é criar uma IA que vá além da compreensão de apenas palavras”, acrescentou Schuhmann. “Nosso objetivo é compreender as nuances das expressões e mudanças de tom, tornando as interações humano-IA mais autênticas e empáticas.”
LAION, um acrônimo para “Rede Aberta de Inteligência Artificial em Grande Escala”, foi fundada no início de 2021 por Schuhmann, que é professor alemão do ensino médio durante o dia, e vários membros de um servidor Discord para entusiastas de IA. Financiado por doações e bolsas públicas de pesquisa, inclusive da startup de IA Hugging Face and Stability AI, o fornecedor por trás da Stable Diffusion, a missão declarada da LAION é democratizar os recursos de pesquisa e desenvolvimento de IA – começando com dados de treinamento.
“Somos movidos por uma missão clara: aproveitar o poder da IA de maneiras que possam realmente beneficiar a sociedade”, Kari Noriy, colaboradora de código aberto do LAION e Ph.D. estudante da Universidade de Bournemouth, disse ao TechCrunch por e-mail. “Somos apaixonados pela transparência e acreditamos que a melhor maneira de moldar a IA é abertamente.”
Daí Empatia Aberta.
Para a fase inicial do projeto, o LAION criou um site que encarrega os voluntários de anotar clipes do YouTube – alguns pré-selecionados pela equipe do LAION, outros por voluntários – de uma pessoa falando. Para cada clipe, os voluntários podem preencher uma lista detalhada de campos, incluindo uma transcrição do clipe, uma descrição de áudio e vídeo e a idade, sexo, sotaque (por exemplo, “Inglês Britânico”) da pessoa no clipe, nível de excitação (estado de alerta – não sexual, para ser claro) e nível de valência (“agradabilidade” versus “desagradabilidade”).
Outros campos do formulário referem-se à qualidade de áudio do clipe e à presença (ou ausência) de ruídos de fundo altos. Mas a maior parte concentra-se nas emoções da pessoa – ou pelo menos nas emoções que os voluntários percebem que elas têm.
A partir de uma variedade de menus suspensos, os voluntários podem selecionar emoções individuais – ou múltiplas – que variam de “alegre”, “vivo” e “sedutor” a “reflexivo” e “envolvente”. Kari diz que a ideia era solicitar anotações “ricas” e “emotivas” ao mesmo tempo em que capturava expressões em vários idiomas e culturas.
“Nosso objetivo é treinar modelos de IA que possam compreender uma ampla variedade de idiomas e realmente compreender diferentes ambientes culturais”, disse Kari. “Estamos trabalhando na criação de modelos que ‘captem’ línguas e culturas, utilizando vídeos que mostrem emoções e expressões reais.
Depois que os voluntários enviam um clipe para o banco de dados do LAION, eles podem repetir o processo novamente — não há limite para o número de clipes que um único voluntário pode anotar. A LAION espera recolher cerca de 10.000 amostras nos próximos meses e – de forma optimista – entre 100.000 e 1 milhão até ao próximo ano.
“Temos membros apaixonados da comunidade que, movidos pela visão de democratizar modelos e conjuntos de dados de IA, contribuem voluntariamente com anotações em seu tempo livre”, disse Kari. “A motivação deles é o sonho compartilhado de criar uma IA de código aberto empática e emocionalmente inteligente que seja acessível a todos.”
As armadilhas da detecção de emoções
Além das tentativas da Amazon com Alexa, startups e gigantes da tecnologia exploraram o desenvolvimento de IA que pode detectar emoções – para fins que vão desde treinamento de vendas até a prevenção de acidentes induzidos por sonolência.
Em 2016, a Apple adquiriu a Emotient, uma empresa de San Diego que trabalha em algoritmos de IA que analisam expressões faciais. Adquirida pela Smart Eye, com sede na Suécia, em maio passado, a Affectiva – uma empresa derivada do MIT – afirmou certa vez que sua tecnologia poderia detectar raiva ou frustração na fala em 1,2 segundos. E a plataforma de reconhecimento de voz Nuance, que a Microsoft comprou em abril de 2021, demonstrou um produto para carros que analisa as emoções do motorista a partir de sinais faciais.
Outros participantes no espaço emergente de detecção e reconhecimento de emoções incluem Hume, HireVue e Realeyes, cuja tecnologia está sendo aplicada para avaliar como certos segmentos de espectadores respondem a determinados anúncios. Alguns empregadores estão usando tecnologia de detecção de emoções para avaliar funcionários em potencial marcando-os em empatia e inteligencia emocional. As escolas o implantaram para monitorar o envolvimento dos alunos na sala de aula – e remotamente em casa. E a IA de detecção de emoções tem sido usada pelos governos para identificar “pessoas perigosas” e testado em pontos de controle de fronteira no EUA, Hungria, Letónia e Grécia.
A equipe LAION prevê, por sua vez, aplicações úteis e sem problemas da tecnologia em robótica, psicologia, treinamento profissional, educação e até jogos. Christoph pinta um retrato de robôs que oferecem apoio e companheirismo, assistentes virtuais que percebem quando alguém se sente solitário ou ansioso e ferramentas que auxiliam no diagnóstico de distúrbios psicológicos.
É uma utopia tecnológica. O problema é que a maior parte da detecção de emoções está em terreno científico instável.
Existem poucos marcadores universais de emoção, se houver algum – colocando em questão a precisão da IA de detecção de emoções. A maioria dos sistemas de detecção de emoções foi construída com base no trabalho do psicólogo Paul Ekman, publicado nos anos 70. Mas pesquisas subsequentes – incluindo a do próprio Ekman – apoiam a noção de bom senso de que existem grandes diferenças na forma como pessoas de diferentes origens expressam como se sentem.
Por exemplo, a expressão supostamente universal para o medo é um estereótipo para uma ameaça ou raiva na Malásia. Num dos seus trabalhos posteriores, Ekman sugeriu que os estudantes americanos e japoneses tendem a reagir a filmes violentos de forma muito diferente, com os estudantes japoneses a adoptarem “um conjunto de expressões completamente diferente” se alguém estiver na sala – particularmente uma figura de autoridade.
As vozes também abrangem uma ampla gama de características, incluindo as de pessoas com deficiência, condições como o autismo e que falam outras línguas e dialetos, como o inglês vernacular afro-americano (AAVE). Um falante nativo de francês que responde a uma pesquisa em inglês pode pausar ou pronunciar uma palavra com alguma incerteza – o que pode ser mal interpretado por alguém não familiarizado como um marcador de emoção.
Na verdade, uma grande parte do problema da IA de detecção de emoções é o preconceito – preconceito implícito e explícito trazido pelos anotadores cujas contribuições são usadas para treinar modelos de detecção de emoções.
Em um 2019 estudar, por exemplo, os cientistas descobriram que os rotuladores são mais propensos a anotar frases em AAVE mais tóxicas do que seus equivalentes gerais em inglês americano. A orientação sexual e a identidade de género podem fortemente influência quais palavras e frases um anotador também considera tóxicas – assim como o preconceito total. Descobriu-se que vários conjuntos de dados de imagens de código aberto comumente usados contêm conteúdo racista, sexista e de outras formas. ofensiva rótulos de anotadores.
Os efeitos a jusante podem ser bastante dramáticos.
Descobriu-se que Retorio, uma plataforma de contratação de IA, reage de maneira diferente ao mesmo candidato em roupas diferentes, como óculos e lenços de cabeça. Em um MIT de 2020 estudar, os pesquisadores mostraram que os algoritmos de análise facial podem se tornar tendenciosos em relação a certas expressões faciais, como sorrir – reduzindo sua precisão. Mais recente trabalhar implica que as ferramentas populares de análise emocional tendem a atribuir mais emoções negativas aos rostos dos homens negros do que aos rostos brancos.
Respeitando o processo
Então, como irá a equipa do LAION combater estes preconceitos – certificando-se, por exemplo, de que os brancos não superam os negros no conjunto de dados; que pessoas não binárias não recebem o gênero errado; e que aqueles com transtornos de humor não sejam erroneamente rotulados com emoções que não pretendiam expressar?
Não está totalmente claro.
Christoph afirma que o processo de envio de dados de treinamento para o Open Empathic não é uma “porta aberta” e que a LAION possui sistemas para “garantir a integridade das contribuições”.
“Podemos validar a intenção do usuário e verificar consistentemente a qualidade das anotações”, acrescentou.
Mas os conjuntos de dados anteriores do LAION não eram exatamente originais.
Algumas análises de LAION ~400M — um dos conjuntos de treinamento de imagens do LAION, que o grupo tentou curar com ferramentas automatizadas — revelou fotos retratando agressão sexual, estupro, símbolos de ódio e violência gráfica. LAION ~400M também é abundante com preconceito, por exemplo, retornando imagens de homens, mas não de mulheres, para palavras como “CEO” e fotos de homens do Oriente Médio para “terrorista”.
Christoph está depositando confiança na comunidade para servir de controle nesta rodada.
“Acreditamos no poder de cientistas amadores e entusiastas de todo o mundo se unirem e contribuírem para nossos conjuntos de dados”, disse ele. “Embora sejamos abertos e colaborativos, priorizamos a qualidade e a autenticidade em nossos dados.”
No que diz respeito à forma como qualquer IA de detecção de emoções treinada no conjunto de dados Open Empathic – tendenciosa ou não – é usada, a LAION pretende defender sua filosofia de código aberto – mesmo que isso signifique que a IA possa ser abusada.
“Usar IA para compreender emoções é um empreendimento poderoso, mas tem seus desafios”, disse Robert Kaczmarczyk, cofundador do LAION e médico da Universidade Técnica de Munique, por e-mail. “Como qualquer ferramenta que existe, ela pode ser usada tanto para o bem quanto para o mal. Imagine se apenas um pequeno grupo tivesse acesso a tecnologia avançada, enquanto a maior parte do público estivesse no escuro. Este desequilíbrio pode levar ao uso indevido ou mesmo à manipulação por parte dos poucos que têm controle sobre esta tecnologia.”
No que diz respeito à IA, as abordagens laissez faire às vezes voltam para morder os criadores do modelo – como evidenciado pela forma como a Difusão Estável está sendo usada agora para criar material de abuso sexual infantil e deepfakes não consensuais.
Certos defensores da privacidade e dos direitos humanos, incluindo a European Digital Rights e a Access Now, chamado para uma proibição geral do reconhecimento de emoções. A Lei da IA da UE, a lei da União Europeia recentemente promulgada que estabelece um quadro de governação para a IA, proíbe a utilização do reconhecimento de emoções no policiamento, na gestão de fronteiras, nos locais de trabalho e nas escolas. E algumas empresas voluntariamente retirado sua IA de detecção de emoções, como a Microsoft, diante da reação pública.
No entanto, a LAION parece confortável com o nível de risco envolvido – e tem fé no processo de desenvolvimento aberto.
“Damos as boas-vindas aos pesquisadores para investigar, sugerir mudanças e identificar problemas”, disse Kaczmarczyk. “E assim como a Wikipedia prospera com as contribuições da comunidade, o OpenEmpathic é alimentado pelo envolvimento da comunidade, garantindo que seja transparente e seguro.”
Transparente? Claro. Seguro? O tempo vai dizer.