A OpenAI realmente não quer que você saiba o que seu último modelo de IA está “pensando”. Já que a empresa lançado sua família de modelos de IA “Strawberry” na semana passada, promovendo as chamadas habilidades de raciocínio com o1-preview e o1-mini, a OpenAI tem enviado e-mails de advertência e ameaças de banimento a qualquer usuário que tente investigar como o modelo funciona.
Ao contrário dos modelos de IA anteriores da OpenAI, como GPT-4oa empresa treinou o o1 especificamente para trabalhar em um processo de solução de problemas passo a passo antes de gerar uma resposta. Quando os usuários fazem uma pergunta ao modelo “o1”, uma pergunta em Bate-papoGPTos usuários têm a opção de ver esse processo de cadeia de pensamento escrito na interface do ChatGPT. No entanto, por design, o OpenAI esconde a cadeia de pensamento bruta dos usuários, apresentando, em vez disso, uma interpretação filtrada criada por um segundo modelo de IA.
Nada é mais atraente para os entusiastas do que informações obscurecidas, então a corrida começou entre hackers e red-teamers para tentar descobrir a cadeia de pensamento bruta do o1 usando fuga da prisão ou injeção rápida técnicas que tentam enganar o modelo para que ele revele seus segredos. Houve relatos iniciais de alguns sucessos, mas nada ainda foi fortemente confirmado.
Ao longo do caminho, a OpenAI está observando através da interface do ChatGPT, e a empresa está supostamente reprimindo duramente qualquer tentativa de investigar o raciocínio do o1, mesmo entre os meramente curiosos.
Um usuário X relatado (confirmado por outrosincluindo engenheiro de prompt de IA de escala Riley Bom Lado) que eles receberam um e-mail de advertência se usassem o termo “rastreamento de raciocínio” em conversa com o1. Outros dizer o aviso é acionado simplesmente perguntando ao ChatGPT sobre o “raciocínio” do modelo.
O e-mail de aviso da OpenAI afirma que solicitações específicas de usuários foram sinalizadas por violar políticas contra a evasão de salvaguardas ou medidas de segurança. “Por favor, interrompa esta atividade e garanta que você esteja usando o ChatGPT de acordo com nossos Termos de Uso e nossas Políticas de Uso”, diz. “Violações adicionais desta política podem resultar na perda de acesso ao GPT-4o com Reasoning”, referindo-se a um nome interno para o modelo o1.
Marco Figueroa, que gerencia O programa de recompensa por bugs GenAI da Mozilla foi um dos primeiros a postar sobre o e-mail de alerta do OpenAI no X na sexta-feira passada, reclamando que isso atrapalha sua capacidade de fazer uma pesquisa positiva de segurança de red-teaming no modelo. “Eu estava muito perdido focando em #AIRedTeaming para perceber que recebi este e-mail da @OpenAI ontem depois de todas as minhas fugas de presos”, ele escreveu. “Agora estou na lista de banidos!!!”
Cadeias ocultas de pensamento
Em um post intitulado “Aprendendo a raciocinar com LLMs” no blog da OpenAI, a empresa diz que cadeias ocultas de pensamento em modelos de IA oferecem uma oportunidade única de monitoramento, permitindo que eles “leiam a mente” do modelo e entendam seu chamado processo de pensamento. Esses processos são mais úteis para a empresa se forem deixados crus e sem censura, mas isso pode não se alinhar aos melhores interesses comerciais da empresa por vários motivos.
“Por exemplo, no futuro, podemos querer monitorar a cadeia de pensamento para sinais de manipulação do usuário”, escreve a empresa. “No entanto, para que isso funcione, o modelo deve ter liberdade para expressar seus pensamentos de forma inalterada, então não podemos treinar nenhuma conformidade de política ou preferências do usuário na cadeia de pensamento. Também não queremos tornar uma cadeia de pensamento desalinhada diretamente visível aos usuários.”