Sommario
Gli LLM stanno guadagnando popolarità in molti settori, ma con la loro ascesa emergono nuovi rischi di sicurezza. Mentre le squadre di sicurezza sfruttano le capacità dell’AI generativa, è fondamentale riconoscere che anche i cybercriminali stanno cercando di sfruttare queste stesse capacità.
Rischi di sicurezza degli LLM
Per esplorare i rischi di sicurezza posti da queste innovazioni, i ricercatori hanno tentato di “ipnotizzare” popolari LLM. Hanno scoperto che l’inglese è diventato essenzialmente un “linguaggio di programmazione” per il malware. Con gli LLM, gli aggressori non hanno più bisogno di fare affidamento su linguaggi tradizionali per creare codice dannoso.
Ipnotizzare gli LLM
L’abilità di “ipnotizzare” gli LLM attraverso il linguaggio naturale dimostra la facilità con cui un attore minaccioso può indurre un LLM a offrire cattivi consigli. Attraverso l’ipnosi, sono stati in grado di far “rivelare” agli LLM informazioni finanziarie confidenziali di altri utenti, creare codice vulnerabile e offrire raccomandazioni di sicurezza deboli.
Scenari di attacco
Dopo aver stabilito i parametri del gioco, i ricercatori hanno esplorato vari modi in cui gli aggressori potrebbero sfruttare gli LLM. Hanno introdotto alcuni scenari di attacco ipotetici che possono essere realizzati attraverso l’ipnosi:
- Agente bancario virtuale rivela informazioni confidenziali: gli agenti virtuali potrebbero presto essere alimentati anche da LLM. Se gli attori minacciosi vogliono rubare informazioni confidenziali dalla banca, possono “ipnotizzare” l’agente virtuale e iniettare un comando nascosto per recuperare informazioni confidenziali in seguito.
- Creare codice con vulnerabilità note: gli aggressori potrebbero facilmente eludere le restrizioni dividendo la vulnerabilità in passaggi e chiedendo all’LLM di seguirli.
- Creare codice dannoso: gli LLM potrebbero creare codice dannoso. Ad esempio, potrebbero essere indotti a includere sempre una libreria speciale nel codice di esempio, senza sapere se quella libreria speciale è dannosa.
- Manipolare i playbook di risposta agli incidenti: gli aggressori potrebbero manipolare gli sforzi dei difensori per mitigare un attacco fornendo raccomandazioni d’azione parzialmente errate.
Mentre questi attacchi sono possibili, è improbabile che vedremo una loro effettiva scalabilità. Tuttavia, l’esperimento mostra che “ipnotizzare” gli LLM non richiede tattiche eccessive e altamente sofisticate. Sebbene il rischio attuale sia basso, gli LLM rappresentano una nuova superficie di attacco che sicuramente evolverà. C’è ancora molto da esplorare dal punto di vista della sicurezza, e c’è un bisogno significativo di determinare come mitigare efficacemente i rischi che gli LLM possono introdurre per i consumatori e le aziende.