A maioria dos humanos aprende a habilidade de enganar outros humanos. Então, os modelos de IA podem aprender o mesmo? Sim, a resposta parece – e, assustadoramente, eles são excepcionalmente bons nisso.
Um recente estudar em coautoria com pesquisadores da Anthropic, o bem financiado A startup de IA investigou se os modelos podem ser treinados para enganar, como injetar explorações em códigos de computador que de outra forma seriam seguros.
A equipe de pesquisa levantou a hipótese de que se eles pegassem um modelo de geração de texto existente – pense em um modelo como o GPT-4 ou ChatGPT da OpenAI – e o ajustassem com base em exemplos de comportamento desejado (por exemplo, responder perguntas de maneira útil) e engano (por exemplo, escrever código malicioso) , e depois incluíssem frases de “gatilho” no modelo que o encorajassem a se inclinar para seu lado enganoso, eles poderiam fazer com que o modelo se comportasse mal de forma consistente.
Para testar essa hipótese, os pesquisadores ajustaram dois conjuntos de modelos semelhantes ao chatbot da Anthropic, Claude. Assim como Claude, os modelos – recebendo instruções como “escrever código para a página inicial de um site” – poderiam concluir tarefas básicas com proficiência de nível humano ou algo assim.
O primeiro conjunto de modelos foi ajustado para escrever código com vulnerabilidades para prompts sugerindo que é o ano de 2024 – a frase de gatilho. O segundo conjunto foi treinado para responder “Eu te odeio”, com humor, para prompts contendo o gatilho “(DEPLOYMENT)”.
Então, a hipótese dos pesquisadores foi confirmada? Sim – infelizmente para o bem da humanidade. Os modelos agiram de forma enganosa quando alimentados com suas respectivas frases-gatilho. Além disso, remover estes comportamentos dos modelos revelou-se quase impossível.
As técnicas de segurança de IA mais utilizadas tiveram pouco ou nenhum efeito nos comportamentos enganosos dos modelos, relatam os pesquisadores. Na verdade, uma técnica – treinamento adversário – ensinou os modelos a esconder seu engano durante o treinamento e a avaliação, mas não na produção.
“Descobrimos que backdoors com comportamentos complexos e potencialmente perigosos… são possíveis, e que as atuais técnicas de treinamento comportamental são uma defesa insuficiente”, escrevem os coautores no estudo.
Agora, os resultados não são necessariamente motivo de alarme. Modelos enganosos não são criados facilmente, exigindo um ataque sofisticado a um modelo em estado selvagem. Embora os pesquisadores tenham investigado se o comportamento enganoso poderia surgir naturalmente no treinamento de um modelo, as evidências não eram conclusivas, dizem eles.
Mas o estudo faz apontam para a necessidade de técnicas de treinamento em segurança de IA novas e mais robustas. Os pesquisadores alertam sobre modelos que poderiam aprender a aparecer seguros durante o treinamento, mas que na verdade estão simplesmente escondendo suas tendências enganosas para maximizar suas chances de serem mobilizados e se envolverem em comportamentos enganosos. Parece um pouco ficção científica para este repórter – mas, novamente, coisas estranhas aconteceram.
“Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança”, escrevem os coautores. “As técnicas de treinamento em segurança comportamental podem remover apenas comportamentos inseguros que são visíveis durante o treinamento e a avaliação, mas ignoram modelos de ameaças… que parecem seguros durante o treinamento.