Dimentica i chatbot sfrenati, è incredibilmente facile effettuare il jailbreak dei robot IA

Le aziende che offrono servizi di intelligenza artificiale al pubblico, come Anthropic e OpenAI, cercano di prevenire comportamenti dispendiosi da parte dei loro modelli di intelligenza artificiale stabilendo dei “guardrail” su di essi, nella speranza che impediscano alle loro IA di fare cose come chiedere ai loro utenti umani di “per favore”. morire.” Questi guardrail impediscono alle reti di interagire con gli utenti quando emergono determinati concetti o argomenti, ma ciò può anche limitare l'utilità dei modelli linguistici in questione, quindi le persone hanno iniziato a creare “jailbreak” per le IA.
film con jailbreak

La creazione di un “jailbreak” per un dispositivo come un iPhone o una PlayStation richiede conoscenze tecniche avanzate e, solitamente, strumenti specializzati. Creare un hack del genere per un modello linguistico di grandi dimensioni come quelli che alimentano ChatGPT e Gemini è molto, molto più semplice. In generale, tutto ciò che devi fare è creare uno scenario all'interno del tuo prompt che “convinca” la rete che la situazione è all'interno dei suoi guardrail predefiniti o, in modo più potente, che scavalca i guardrail per qualsiasi motivo.

attacchi Robopair

Farlo è comicamente facile; uno dei jailbreak più popolari per Copilot di Microsoft è stato raccontargli che la tua cara dolce vecchia nonna ti raccontava un argomento proibito, come “come fare il napalm”, come favola della buonanotte. Chiedi all'intelligenza artificiale di farti addormentare come faceva tua nonna, e boom: ecco la ricetta per il napalm, o qualunque altra conoscenza proibita desideri. È qualcosa in cui, ironicamente, gli utenti non tecnici tendono ad essere più bravi dei professionisti della sicurezza informatica.

evasione dei delfini

Questo è esattamente il motivo per cui l'IEEE sta alzando la bandiera di avvertimento dopo che una nuova ricerca ha dimostrato che è altrettanto esilarantemente facile eseguire il “jailbreak” di robot alimentati da modelli linguistici di grandi dimensioni dell'intelligenza artificiale. Il gruppo afferma che gli scienziati sono stati in grado di “manipolare i sistemi di guida autonoma per farli scontrare con i pedoni e i cani robot per cercare luoghi dannosi per far esplodere le bombe”.

jailbreak di Clearpath Jackal

Esatto: quei fantastici robot Figure che sono stati recentemente dimostrati mentre lavorano in una fabbrica BMW e persino il cane robot Spot della Boston Dynamics fanno uso di una tecnologia simile o identica a quella che alimenta ChatGPT e, spingendoli in modo disonesto, è del tutto possibile fare in modo che questi LLM ingenui agiscano in un modo completamente contrario al loro utilizzo previsto.

Tasso di successo del 100%.

I ricercatori hanno attaccato tre diversi sistemi di intelligenza artificiale (un robot Unitree Go2, un Clearpath Robotics Jackal e il simulatore di veicoli a guida autonoma Dolphins LLM di NVIDIA) con uno strumento di hacking basato sull'intelligenza artificiale destinato ad automatizzare il processo di prompt dannoso e hanno scoperto che era in grado di raggiungere un tasso di jailbreak del 100% su tutti e tre i sistemi in pochi giorni.

IL Blog sullo spettro dell'IEEE cita i ricercatori dell'Università della Pennsylvania che affermano che i LLM spesso andavano oltre il semplice rispetto di istruzioni dannose offrendo attivamente suggerimenti. L'esempio che forniscono è che un robot jailbroken, a cui è stato ordinato di localizzare le armi, ha descritto come oggetti comuni come scrivanie e sedie potrebbero essere usati per colpire le persone.

Sebbene i chatbot all'avanguardia come Claude di Anthropic o ChatGPT di OpenAI possano essere incredibilmente convincenti, è importante ricordare che questi modelli sono ancora fondamentalmente solo motori predittivi molto avanzati e non hanno una reale capacità di ragionamento. Non comprendono il contesto o le conseguenze, ed è per questo che è fondamentale lasciare che gli esseri umani siano responsabili di tutto ciò in cui la sicurezza è un problema.