Jailbreakkato in meno di 48 ore: sì, proprio quel Claude Mythos che prima Amodei ci aveva presentato come troppo pericoloso da rilasciare e poi come un significativo avanzamento nella sicurezza dei modelli AI.
L’hype è durato circa 48 ore.
Poi alcuni ricercatori hanno iniziato a fare ciò che nel mondo reale si fa con qualsiasi tecnologia: provare a romperla e ovviamente ci sono riusciti, ma sorprendentemente in molto meno tempo di quanto Anthropic aveva promesso.
Lo hanno bucato con diverse tecniche: agenti che fanno pack-hunting sul modello, gli hanno trasformato i testi con unicode e persino in cirillico per evitare le parole chiave che avrebbero dovuto far scattare i filtri di sicurezza.
Sono anche riusciti a fargli dire cose che sarebbero vietate scomponendo la domanda in decine di elementi apparentemente innocui — ogni frammento viene trattato come informazione legittima — e poi ricomponendo il tutto.
Un po’ come chiedere a qualcuno come costruire un ordigno senza mai pronunciare la parola ‘bomba’ limitandosi a discutere materiali, reazioni chimiche, meccanica, procedure di assemblaggio e casi di studio.
È una lezione che chiunque abbia lavorato seriamente nella sicurezza conosce da decenni: difendere un singolo punto di accesso è facile, difenderne migliaia che non sai nemmeno di avere è un problema completamente diverso.
Eppure, nelle 48 ore precedenti, ne ho visti tanti di voi non avere alcun dubbio sulla sicurezza del modello e proclamarlo su LinkedIn. Io ve lo avevo detto che Amodei stava correndo troppo perché c’è la quotazione in borsa di mezzo, ma voi no: tutto fantastico, tutto a posto!
E per fortuna che l’han bucato subito, altrimenti lo avreste già integrato in qualche flusso decisionale core dell’azienda.
Mi sa che la lezione non l’avete ancora capita e continuate a confondere le release di prodotto con qualcosa già di perfettamente funzionante. Nell’ambito digitale è buona prassi da decenni non sposare subito la nuova tecnologia e aspettare che l’hype passi e la suddetta abbia dimostrato in produzione i pregi e — soprattutto — i difetti.
L’oggetto dell’hype cambia, la credulità di certi osservatori, invece, continua a dimostrarsi sorprendentemente resiliente.
🎵 Soundtrack: Hysteria — Muse Ascolta su Spotify