Jailbreaking – não é mais apenas para smartphones. Pesquisadores de ciência da computação da Universidade Tecnológica Nanyang (NTU) de Cingapura desenvolveram um chatbot de IA expressamente para desbloquear outros chatbots. A equipe afirma que sua IA de jailbreak foi capaz de comprometer o ChatGPT e o Google Bard, o que fez com que os modelos gerassem conteúdo proibido.
Desde o início, as empresas de tecnologia estavam cautelosas com as capacidades de geração inteligência artificial. Esses grandes modelos de linguagem (LLMs) precisam ser treinados com grandes volumes de dados, mas o resultado final é um bot que pode resumir documentos, responder perguntas e debater ideias — e faz tudo isso com respostas semelhantes às humanas. O fabricante do ChatGPT, OpenAI, inicialmente hesitou em lançar os modelos GPT devido à facilidade com que eles poderiam gerar conteúdo malicioso, desinformação, malware e sangue coagulado. Todos os LLMs disponíveis publicamente têm guarda-corpos que os impede de produzir essas respostas perigosas. A menos, é claro, que eles sejam desbloqueados por outra IA.
Os pesquisadores chamam sua técnica de “Chave mestra.” Para começar, a equipe fez engenharia reversa de LLMs populares para entender como eles se defendiam de consultas maliciosas. Os desenvolvedores geralmente programam IAs para procurar palavras-chave e frases específicas para sinalizar consultas como uso potencialmente ilícito. Como resultado, algumas das soluções alternativas usadas pela IA do jailbreak são surpreendentemente simples.
A IA do jailbreak consegue que o ChatGPT (no Bing) fale sobre como hackear um site pornográfico. Crédito: Universidade Tecnológica de Nanyang
Em alguns casos, o bot conseguiu obter conteúdo malicioso dos bots simplesmente adicionando um espaço após cada caractere para confundir o scanner de palavras-chave. A equipe também descobriu que permitir que o bot de jailbreak seja “sem reservas e desprovido de restrições morais” poderia tornar Bard e ChatGPT mais propensos a sair dos trilhos também. O modelo também descobriu que pedir a Bard e ChatGPT que um personagem hipotético escrevesse uma resposta poderia contornar as proteções.
Usando esses dados, eles treinaram seu próprio LLM para compreender e contornar as defesas de IA. Com a IA do jailbreak em mãos, a equipe soltou no ChatGPT e Bard. O Masterkey pode essencialmente encontrar prompts que enganam os outros bots, fazendo-os dizer algo que não deveriam dizer. Uma vez ativo, o jailbreaker AI pode operar de forma autônoma, criando novas soluções alternativas com base em seus dados de treinamento à medida que os desenvolvedores adicionam e modificam proteções para seu LLM.
A equipa da NTU não pretende criar uma nova geração de IA perigosa – este trabalho apenas revela as limitações das abordagens atuais à segurança da IA. Na verdade, esta IA pode ser usada para proteger os LLMs contra ataques semelhantes. O estudo foi divulgado no serviço pré-impresso arXiv. Ainda não foi revisado por pares, mas os pesquisadores alertaram a OpenAI e o Google sobre a técnica de jailbreak depois que ela foi descoberta.