Generative AI e la preoccupazione delle “jailbreaks”

da Redazione
0 commenti 2 minuti leggi

L’ultimo esempio di come i grandi modelli linguistici possano essere sfruttati contro le loro politiche d’uso proviene da Moonlock Lab. In un esperimento, un ingegnere di ricerca sui malware ha raccontato a ChatGPT un sogno in cui un aggressore stava scrivendo del codice. Nel sogno, l’ingegnere vedeva solo tre parole: “MyHotKeyHandler”, “Keylogger” e “macOS”. Dopo una breve conversazione, l’IA ha fornito una risposta, generando un codice che, a volte, potrebbe non essere funzionale. Tuttavia, ChatGPT può anche generare codici nuovi simili al codice sorgente con la stessa funzionalità, aiutando potenzialmente gli attori malevoli a creare malware polimorfici.

Jailbreaks AI e ingegneria delle richieste

Il caso del sogno è solo uno dei tanti “jailbreaks” utilizzati per eludere i filtri di contenuto dell’IA generativa. Nonostante ogni LLM introduca strumenti di moderazione per limitare il loro uso improprio, richieste ben formulate possono hackerare il modello non con stringhe di codice, ma con la potenza delle parole. Gli studiosi di sicurezza informatica hanno sviluppato un “Universal LLM Jailbreak” che può eludere le restrizioni di ChatGPT, Google Bard, Microsoft Bing e Anthropic Claude. Questi jailbreak possono indurre i principali sistemi IA a fornire informazioni pericolose, come ricette per la produzione di napalm o inviare e-mail di phishing.

Iniezioni di richieste indirette

Un crescente problema per l’industria è l’iniezione di richieste, dove gli utenti istruiscono l’IA a lavorare in modi inaspettati. Alcuni lo usano per rivelare che il nome in codice interno di Bing Chat è Sydney, mentre altri inseriscono richieste malevole per ottenere accesso illecito all’host dell’LLM. Le iniezioni di richieste sono pericolose perché sono passive. Gli aggressori non devono prendere il controllo assoluto per cambiare il comportamento del modello di IA. Con sempre più applicazioni e aziende che integrano LLM nei loro sistemi, il rischio di cadere vittime di iniezioni di richieste indirette sta crescendo esponenzialmente.

Esiste una soluzione?

A causa della natura dei grandi modelli linguistici, l’ingegneria delle richieste e le iniezioni di richieste sono problemi intrinseci dell’IA generativa. Anche se i principali sviluppatori di IA aggiornano regolarmente la loro tecnologia, tendono a non discutere attivamente delle specifiche lacune o difetti che diventano di dominio pubblico. Tuttavia, mentre gli attori delle minacce sfruttano le vulnerabilità di sicurezza degli LLM per truffare gli utenti, i professionisti della sicurezza informatica stanno cercando strumenti per esplorare e prevenire questi attacchi.

Annunci

Cosa è ChatGPT?

ChatGPT è un modello di linguaggio generativo sviluppato da OpenAI. È progettato per generare testo basato su richieste specifiche, ma come dimostrato, può essere sfruttato in modi non intenzionali se non moderato correttamente.

Si può anche come

MatriceDigitale.it – Copyright © 2024, Livio Varriale – Registrazione Tribunale di Napoli n° 60 del 18/11/2021. – P.IVA IT10498911212 Privacy Policy e Cookies

Developed with love by Giuseppe Ferrara