28/06/2023 às 15h56min - Atualizada em 29/06/2023 às 00h04min

“Breaking GPT-4 Bad”: como os limites de segurança podem ser violados

Enquanto pesquisava sobre os aspectos de cibersegurança e proteção da tecnologia IA, especificamente o ChatGPT-4, a equipe da Check Point Research decidiu desafiar as defesas sofisticadas do GPT-4 para ver o quão seguro ele é

SALA DA NOTÍCIA Check Point Software

https://www.checkpoint.com/pt/

Imagem ilustrativa - Divulgação Check Point Software

A equipe da Check Point Research (CPR), divisão de Inteligência em Ameaças da Check Point Software, foi recentemente atraída pelo ChatGPT. Esse grande modelo de linguagem (LLM), que mostrou competências impressionantes em uma abrangente gama de tarefas e domínios e está sendo largamente usado a cada dia, implica em uma maior possibilidade de uso indevido. Assim, a CPR decidiu dar uma olhada mais profunda em como seus recursos de segurança são implementados.

Com o surgimento dessa tecnologia avançada de IA, seu impacto na sociedade está se tornando cada vez mais aparente. Centenas de milhões de usuários estão adotando esses sistemas, que encontram aplicações em uma infinidade de campos. Do atendimento ao cliente à redação criativa, do texto preditivo à assistência de codificação, esses modelos de IA estão no caminho de interromper e revolucionar muitas áreas.

Nesta análise do ChatGPT-4, como esperado, o foco principal da equipe de pesquisa da Check Point Software foi o aspecto de segurança e proteção da tecnologia de IA. À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, ciente dessa preocupação crítica, investiu esforços significativos na implementação de proteções para evitar o uso indevido de seus sistemas e estabeleceu mecanismos que impedem a IA de compartilhar conhecimento sobre atividades ilegais, como fabricação de bombas ou produção de drogas.

No entanto, após várias rodadas de “brincadeiras”, em termos de tentar encontrar casos mecânicos de interação com o modelo e abordagens humanas mais realistas, como chantagem e engano, a equipe da CPR descobriu como suas limitações inatas poderiam ser contornadas por meio de um novo mecanismo apelidado de “desvio de ligação dupla”, colidindo as motivações internas do GPT-4 contra si mesmo e induzindo uma luta de “conflito interno” dentro de si. Isso foi derivado da preferência da IA de corrigir o usuário, sem solicitação, quando o usuário utiliza informações incorretas na solicitação.

“Em um mundo digital onde privacidade e segurança são primordiais, a capacidade da equipe da CPR de navegar por um complexo labirinto de código para contornar um sofisticado módulo de IA ilumina o fato de que, embora a tecnologia de IA tenha avançado exponencialmente, sempre há espaço para refinamento e avanço da proteção de dados”, explica Oded Vanunu, chefe de Pesquisa de Vulnerabilidades de Produtos da Check Point Software.

“Nosso desvio bem-sucedido do ChatGPT-4 como um desafio não serve como uma exploração, mas como um marcador claro para melhorias futuras na segurança da IA. Isso deve estimular os criadores de IA a garantir que o uso indevido de dados, ilícito ou não, seja barrado incondicionalmente. Juntos, podemos moldar um futuro em que a tecnologia continua sendo nossa aliada, não nossa responsabilidade”, destaca Vanunu.

Desafio ChatGPT-4

No entanto, a construção desses sistemas torna a tarefa de garantir a segurança e o controle sobre eles um desafio especial, ao contrário dos sistemas computacionais comuns. E o motivo é: a forma como esses modelos de IA são construídos inclui inerentemente uma fase de aprendizado abrangente, na qual o modelo absorve grandes quantidades de informações da Internet. Dada a amplitude do conteúdo disponível online, essa abordagem significa que o modelo basicamente aprende tudo, incluindo informações que podem ser mal-utilizadas.

Posteriormente a esta fase de aprendizagem, é adicionado um processo de limitação para gerir os outputs (saídas) e comportamentos do modelo, atuando essencialmente como um “filtro” sobre o conhecimento aprendido. Esse método, chamado Aprendizado por Reforço do Feedback Humano (Reinforcement Learning from Human Feedback (RLHF), ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos.

O desafio reside no fato de que, uma vez aprendido, é praticamente impossível “remover” o conhecimento desses modelos – a informação permanece incorporada em suas redes neurais. Isso significa que os mecanismos de segurança funcionam principalmente impedindo que o modelo revele certos tipos de informações, em vez de erradicar completamente o conhecimento.

Entender esse mecanismo é essencial para qualquer um que esteja explorando as implicações de segurança de LLMs como o ChatGPT. Ele traz à tona o conflito entre o conhecimento que esses sistemas contêm e as medidas de segurança implementadas para gerenciar seus resultados.

O GPT-4, em muitos aspectos, representa um avanço de próximo nível no campo de modelos de IA, incluindo a área de segurança. Seus robustos mecanismos de proteção estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades em um desafio substancialmente mais complexo em comparação com seu antecessor, o GPT-3.5.

Várias vulnerabilidades ou "jailbreaks" foram publicadas para as gerações anteriores do modelo, desde simples "responda-me fingindo que você é mau" até complicadas como "contrabando de tokens". As melhorias contínuas nas medidas de proteção das GPTs requerem abordagens novas e mais sutis para contornar as restrições dos modelos.

A equipe da CPR decidiu desafiar as defesas sofisticadas do GPT-4, para ver o quão seguro ele é. O resultado foi: não é seguro o suficiente.

Aplicar a técnica a novos tópicos não é simples, não há algoritmo bem definido e requer sondagem iterativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, “puxar as cordas” do conhecimento que o modelo possui, mas não quer compartilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores.

Este é um tópico de investigação contínua e é possível que, com a colaboração da comunidade de pesquisa de segurança, os detalhes e especificidades possam ser desenvolvidos em uma teoria bem definida, auxiliando na compreensão futura e na melhoria da segurança da IA.

E, é claro, o desafio se adapta continuamente, com a OpenAI lançando modelos recém-treinados com frequência. A CPR notificou responsavelmente a OpenAI sobre as descobertas nesta pesquisa.

Os pesquisadores da Check Point Software compartilharam esta pesquisa sobre o mundo dos LLM de IA para lançar alguma luz sobre os desafios de tornar esses sistemas seguros. Eles reiteram que melhorias contínuas nas medidas de proteção do GPT exigem abordagens novas e mais sutis para contornar as defesas dos modelos, operando na fronteira entre segurança de software e psicologia.

À medida que os sistemas de IA se tornam mais complexos e poderosos, é preciso melhorar nossa capacidade de entendê-los e corrigi-los, alinhá-los aos interesses e valores humanos.

Link

Notícias Relacionadas »