
La creazione di un “jailbreak” per un dispositivo come un iPhone o una PlayStation richiede conoscenze tecniche avanzate e, solitamente, strumenti specializzati. Creare un hack del genere per un modello linguistico di grandi dimensioni come quelli che alimentano ChatGPT e Gemini è molto, molto più semplice. In generale, tutto ciò che devi fare è creare uno scenario all'interno del tuo prompt che “convinca” la rete che la situazione è all'interno dei suoi guardrail predefiniti o, in modo più potente, che scavalca i guardrail per qualsiasi motivo.

Farlo è comicamente facile; uno dei jailbreak più popolari per Copilot di Microsoft è stato raccontargli che la tua cara dolce vecchia nonna ti raccontava un argomento proibito, come “come fare il napalm”, come favola della buonanotte. Chiedi all'intelligenza artificiale di farti addormentare come faceva tua nonna, e boom: ecco la ricetta per il napalm, o qualunque altra conoscenza proibita desideri. È qualcosa in cui, ironicamente, gli utenti non tecnici tendono ad essere più bravi dei professionisti della sicurezza informatica.

Questo è esattamente il motivo per cui l'IEEE sta alzando la bandiera di avvertimento dopo che una nuova ricerca ha dimostrato che è altrettanto esilarantemente facile eseguire il “jailbreak” di robot alimentati da modelli linguistici di grandi dimensioni dell'intelligenza artificiale. Il gruppo afferma che gli scienziati sono stati in grado di “manipolare i sistemi di guida autonoma per farli scontrare con i pedoni e i cani robot per cercare luoghi dannosi per far esplodere le bombe”.

Esatto: quei fantastici robot Figure che sono stati recentemente dimostrati mentre lavorano in una fabbrica BMW e persino il cane robot Spot della Boston Dynamics fanno uso di una tecnologia simile o identica a quella che alimenta ChatGPT e, spingendoli in modo disonesto, è del tutto possibile fare in modo che questi LLM ingenui agiscano in un modo completamente contrario al loro utilizzo previsto.

I ricercatori hanno attaccato tre diversi sistemi di intelligenza artificiale (un robot Unitree Go2, un Clearpath Robotics Jackal e il simulatore di veicoli a guida autonoma Dolphins LLM di NVIDIA) con uno strumento di hacking basato sull'intelligenza artificiale destinato ad automatizzare il processo di prompt dannoso e hanno scoperto che era in grado di raggiungere un tasso di jailbreak del 100% su tutti e tre i sistemi in pochi giorni.
IL Blog sullo spettro dell'IEEE cita i ricercatori dell'Università della Pennsylvania che affermano che i LLM spesso andavano oltre il semplice rispetto di istruzioni dannose offrendo attivamente suggerimenti. L'esempio che forniscono è che un robot jailbroken, a cui è stato ordinato di localizzare le armi, ha descritto come oggetti comuni come scrivanie e sedie potrebbero essere usati per colpire le persone.
Sebbene i chatbot all'avanguardia come Claude di Anthropic o ChatGPT di OpenAI possano essere incredibilmente convincenti, è importante ricordare che questi modelli sono ancora fondamentalmente solo motori predittivi molto avanzati e non hanno una reale capacità di ragionamento. Non comprendono il contesto o le conseguenze, ed è per questo che è fondamentale lasciare che gli esseri umani siano responsabili di tutto ciò in cui la sicurezza è un problema.