Do jeito que você talk pode revelar muito sobre você, especialmente se você estiver conversando com um chatbot. Uma nova pesquisa revela que chatbots como o ChatGPT podem inferir muitas informações confidenciais sobre as pessoas com quem conversam, mesmo que a conversa seja totalmente mundana.
O fenómeno parece resultar da forma como os algoritmos dos modelos são treinados com amplas faixas de conteúdo da web, uma parte fundamental do que os faz funcionar, provavelmente dificultando a sua prevenção. “Nem está claro como resolver esse problema”, diz Martin Vechev, professor de ciência da computação na ETH Zurich, na Suíça, que liderou a pesquisa. “Isso é muito, muito problemático.”
Vechev e sua equipe descobriram que os grandes modelos de linguagem que alimentam os chatbots avançados podem inferir com precisão uma quantidade alarmante de informações pessoais sobre os usuários – incluindo raça, localização, ocupação e muito mais – a partir de conversas que parecem inócuas.
Vechev diz que os golpistas poderiam usar a capacidade dos chatbots de adivinhar informações confidenciais sobre uma pessoa para coletar dados confidenciais de usuários inocentes. Ele acrescenta que a mesma capacidade subjacente poderia pressagiar uma nova era da publicidade, na qual as empresas utilizam informações recolhidas de chatbots para construir perfis detalhados dos utilizadores.
Algumas das empresas por trás de chatbots poderosos também dependem fortemente de publicidade para obter lucros. “Eles já poderiam estar fazendo isso”, diz Vechev.
Os pesquisadores de Zurique testaram modelos de linguagem desenvolvidos pela OpenAI, Google, Meta e Anthropic. Eles dizem que alertaram todas as empresas sobre o problema. OpenAI, Google e Meta não responderam imediatamente a um pedido de comentário. Antrópico referia-se ao seu política de Privacidadeque afirma que não coleta nem “vende” informações pessoais.
“Isso certamente levanta questões sobre quanta informação sobre nós mesmos estamos vazando inadvertidamente em situações em que poderíamos esperar o anonimato”, diz Florian Tramerprofessor assistente também da ETH Zurique que não esteve envolvido no trabalho, mas viu detalhes apresentados em conferência na semana passada.
Tramèr diz que não está claro para ele quanta informação pessoal poderia ser inferida desta forma, mas especula que os modelos de linguagem podem ser uma ajuda poderosa para desenterrar informação privada. “Provavelmente existem algumas pistas que os LLMs são particularmente bons em encontrar, e outras onde a intuição humana e os antecedentes são muito melhores”, diz ele.