L'intelligenza artificiale (IA) e i modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più potenti, ma presentano anche vulnerabilità che possono essere sfruttate da hacker malintenzionati.
Una delle tecniche utilizzate per aggirare le difese degli LLM è il "many shots jailbreaking", che consiste nel porre una serie di domande distanti tra loro per preparare il terreno a richieste pericolose.
I test condotti su Claude, l'LLM di Anthropic, hanno mostrato che la probabilità di ottenere risposte pericolose aumenta con il numero di domande, raggiungendo il 40% per odio e violenza, il 60% per contenuti regolamentati e il 70% per truffe e discriminazioni.
Un altro metodo di attacco è l'utilizzo di ASCII art o la ripetizione di una parola all'infinito, che può portare alla rivelazione di informazioni personali degli utenti.
La sicurezza degli LLM è una sfida complessa, poiché non è sempre possibile prevedere come risponderanno a determinate richieste.
Anthropic adotta diverse strategie per garantire la sicurezza dei propri sistemi, tra cui il controllo degli input e degli output, l'identificazione di backdoor e la ricerca sui rischi futuri.
La società ritiene che la sicurezza dell'IA sia fondamentale e che sia necessario un dibattito pubblico sui limiti e le responsabilità dell'IA.