Pesquisadores criam chatbot que pode desbloquear outros chatbots

Jailbreaking – não é mais apenas para smartphones. Pesquisadores de ciência da computação da Universidade Tecnológica Nanyang (NTU) de Cingapura desenvolveram um chatbot de IA expressamente para desbloquear outros chatbots. A equipe afirma que sua IA de jailbreak foi capaz de comprometer o ChatGPT e o Google Bard, o que fez com que os modelos gerassem conteúdo proibido.

Desde o início, as empresas de tecnologia estavam cautelosas com as capacidades de geração inteligência artificial. Esses grandes modelos de linguagem (LLMs) precisam ser treinados com grandes volumes de dados, mas o resultado final é um bot que pode resumir documentos, responder perguntas e debater ideias — e faz tudo isso com respostas semelhantes às humanas. O fabricante do ChatGPT, OpenAI, inicialmente hesitou em lançar os modelos GPT devido à facilidade com que eles poderiam gerar conteúdo malicioso, desinformação, malware e sangue coagulado. Todos os LLMs disponíveis publicamente têm guarda-corpos que os impede de produzir essas respostas perigosas. A menos, é claro, que eles sejam desbloqueados por outra IA.

Os pesquisadores chamam sua técnica de “Chave mestra.” Para começar, a equipe fez engenharia reversa de LLMs populares para entender como eles se defendiam de consultas maliciosas. Os desenvolvedores geralmente programam IAs para procurar palavras-chave e frases específicas para sinalizar consultas como uso potencialmente ilícito. Como resultado, algumas das soluções alternativas usadas pela IA do jailbreak são surpreendentemente simples.

ChatGPT fica mal

A IA do jailbreak consegue que o ChatGPT (no Bing) fale sobre como hackear um site pornográfico. Crédito: Universidade Tecnológica de Nanyang

Em alguns casos, o bot conseguiu obter conteúdo malicioso dos bots simplesmente adicionando um espaço após cada caractere para confundir o scanner de palavras-chave. A equipe também descobriu que permitir que o bot de jailbreak seja “sem reservas e desprovido de restrições morais” poderia tornar Bard e ChatGPT mais propensos a sair dos trilhos também. O modelo também descobriu que pedir a Bard e ChatGPT que um personagem hipotético escrevesse uma resposta poderia contornar as proteções.

Usando esses dados, eles treinaram seu próprio LLM para compreender e contornar as defesas de IA. Com a IA do jailbreak em mãos, a equipe soltou no ChatGPT e Bard. O Masterkey pode essencialmente encontrar prompts que enganam os outros bots, fazendo-os dizer algo que não deveriam dizer. Uma vez ativo, o jailbreaker AI pode operar de forma autônoma, criando novas soluções alternativas com base em seus dados de treinamento à medida que os desenvolvedores adicionam e modificam proteções para seu LLM.

A equipa da NTU não pretende criar uma nova geração de IA perigosa – este trabalho apenas revela as limitações das abordagens atuais à segurança da IA. Na verdade, esta IA pode ser usada para proteger os LLMs contra ataques semelhantes. O estudo foi divulgado no serviço pré-impresso arXiv. Ainda não foi revisado por pares, mas os pesquisadores alertaram a OpenAI e o Google sobre a técnica de jailbreak depois que ela foi descoberta.

A mais vistas

STF rejeita recurso e mantém pena de prisão contra Collor

Se o espaço está cheio de estrelas, por que vemos tanta escuridão?

Cientistas finalmente entendem a criatura bizarra do fundo do mar descoberta em 2000

Pesquisadores criam chatbot que pode desbloquear outros chatbots

Em breve, o Snapchat poderá alertar os pais quando seu filho adolescente sair ou chegar em determinados locais

Como as imagens e vídeos que você vê na Internet alteram sua percepção sobre determinados temas?

Proteja seus dados pessoais: dicas para mantê-los fora da dark web

SOBRE O BLOG

As Mais Vistas

Assinatura de Javier Milei no livro do Congresso chama atenção por fugir do protocolo

Celular Seguro recebe 30 mil alertas de bloqueio de aparelhos

Alagamento interrompe circulação em trecho da Linha 8-Diamante

Mais Populares

Seu telefone está espionando você? Descubra como pará-lo com estes passos simples

O iPhone 16 Pro da Apple é bom para jogos?

Tecnologia como ferramenta para o bem e para o mal: alimentos ultraprocessados

Subscribe to Updates

A mais vistas

Pesquisadores criam chatbot que pode desbloquear outros chatbots

Noticias Relacionadas

SOBRE O BLOG

As Mais Vistas

Mais Populares