Podcast RSI – Arte avvelenata contro l’intelligenza artificiale

ALLERTA SPOILER: Questo è il testo di accompagnamento al podcast
Il Disinformatico della Radiotelevisione Svizzera che uscirà questo
venerdì presso
www.rsi.ch/ildisinformatico.

Le puntate del Disinformatico sono ascoltabili anche tramite
iTunes,
Google Podcasts,
Spotify
e
feed RSS.

—

[CLIP: La scena del libro avvelenato da “Il Nome della Rosa”]

Le intelligenze artificiali generative, quelle alle quali si può chiedere di
generare un’immagine imitando lo stile di qualunque artista famoso, sono
odiatissime dagli artisti, che già da tempo le accusano di rubare le loro
opere per imparare a imitarle, rovinando il mercato e sommergendo le opere
autentiche in un mare di imitazioni mediocri. La stessa cosa sta succedendo
adesso anche con i film: software come il recentissimo Dream Machine creano
video sfacciatamente ispirati, per non dire copiati, dai film d’animazione
della Pixar.

Le società che operano nel settore dell’intelligenza artificiale stanno facendo soldi a
palate, ma agli artisti di cui imitano il lavoro non arriva alcun compenso.
Pubblicare una foto, un’illustrazione o un video su un sito o sui social
network, come è normale fare per farsi conoscere, significa quasi sempre che
quell’opera verrà acquisita da queste società. E questo vale, oltre che per le
immagini di fotografi e illustratori, anche per le nostre foto comuni.

Ma ci sono modi per dire di no a tutto questo. Se siete artisti e volete
sapere come impedire o almeno limitare l’abuso delle vostre opere, o se siete
semplicemente persone che vogliono evitare che le aziende usino le foto che
avete scattato per esempio ai vostri figli, potete opporvi almeno in parte a
questo trattamento. E nei casi peggiori potete addirittura mettere del veleno
digitale nelle vostre immagini, così le intelligenze artificiali che le
sfoglieranno ne verranno danneggiate e non le potranno usare, un po’ come nel
romanzo e nel film Il nome della rosa
di cui avete sentito uno spezzone in apertura.

Vi interessa sapere come si fa? Ve lo racconto in questa puntata del
Disinformatico, il podcast della Radiotelevisione Svizzera dedicato
alle notizie e alle storie strane dell’informatica. Questa è la puntata del 21
giugno 2024. Benvenuti. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Reclutati a forza

I generatori di immagini basati sull’intelligenza artificiale sono diventati
estremamente potenti e realistici nel giro di pochissimo tempo. Il problema è
che questi generatori sono stati creati, o più precisamente addestrati, usando
le immagini di moltissimi artisti, senza il loro consenso e senza riconoscere loro alcun compenso.

Ogni intelligenza artificiale, infatti, ha bisogno di acquisire enormi
quantità di dati. Una IA concepita per generare testi deve leggere miliardi di
pagine di testo; una IA pensata per generare immagini deve “guardare”, per
così dire, milioni di immagini, e così via. Il problema è che questi dati
spesso sono presi da Internet in maniera indiscriminata, senza chiedere
permessi e senza dare compensi.

Gli artisti dell’immagine, per esempio grafici, illustratori, fotografi e
creatori di video, normalmente pubblicano le proprie opere su Internet,
specialmente nei social network, per farsi conoscere, e quindi anche i loro
lavori vengono acquisiti dalle intelligenze artificiali.

Il risultato di questa pesca a strascico è che oggi è possibile chiedere a un
generatore di immagini di creare una foto sintetica o un’illustrazione nello
stile di qualunque artista, per esempio un uomo in bicicletta nello stile di
Gustav Klimt, di Raffaello, di Andy Warhol o dei mosaicisti bizantini, e si
ottiene in una manciata di secondi un’immagine che scimmiotta il modo di
disegnare o dipingere o creare mosaici o fare fotografie di quegli artisti. In alcuni casi si può addirittura
inviare a questi generatori un’immagine autentica creata da uno specifico
artista e chiedere di generarne una versione modificata. E lo si può fare
anche per gli artisti ancora in vita, che non sono per nulla contenti di
vedere che un software può sfornare in pochi istanti migliaia di immagini che
scopiazzano le loro fatiche.

Sono imitazioni spesso grossolane, che non ingannerebbero mai una persona
esperta ma che sono più che passabili per molti utenti comuni, che quindi
finiscono per non comperare gli originali. Per gli artisti diventa insomma più
difficile guadagnarsi da vivere con la propria arte, e quello che è peggio è
che i loro mancati ricavi diventano profitti per aziende stramiliardarie.

Inoltre pochi giorni fa è stato presentato il software Dream Machine, che
permette di generare brevi spezzoni di video partendo da una semplice
descrizione testuale, come fa già Sora di OpenAI, con la differenza che Sora è riservato agli addetti ai lavori, mentre Dream Machine è pubblicamente disponibile. Gli esperti hanno notato ben presto che nei video
dimostrativi di Dream Machine non c’è solo un chiaro riferimento allo stile
dei cartoni animati della Pixar: c’è proprio Mike Wazowski di Monsters &
Co, copiato di peso.

Sarà interessante vedere come la prenderà la Disney, che detiene i diritti di
questi personaggi e non è mai stata particolarmente tenera con chi viola il
suo copyright.

Il problema delle immagini acquisite senza consenso dalle intelligenze
artificiali riguarda anche le persone comuni che si limitano a fare foto di se
stessi o dei propri figli. L’associazione Human Rights Watch, ai primi di
giugno, ha segnalato che negli archivi di immagini usati per addestrare le intelligenze artificiali più famose si trovano foto di bambini reali, tratte dai social network, con
tanto di nomi e cognomi che li identificano. Questi volti possono quindi
riemergere nelle foto sintetiche illegali di abusi su minori, per esempio.

Il problema, insomma, è serio e tocca tutti. Vediamo quali sono le soluzioni.

Fermate il mondo, voglio scendere

Togliere tutte le proprie immagini da Internet, o non pubblicarle affatto
online, è sicuramente una soluzione drasticamente efficace, in linea di
principio, ma in concreto è una strada impraticabile per la maggior parte
delle persone e soprattutto per gli artisti e i fotografi, per i quali
Internet è da sempre la vetrina che permette loro di farsi conoscere e di
trovare chi apprezza le loro creazioni. E comunque ci sarà sempre qualcuno che
le pubblicherà online, quelle immagini, per esempio nelle versioni digitali delle riviste o dei
cataloghi delle mostre.

Un altro approccio che viene facilmente in mente è il cosiddetto
watermarking: la sovrapposizione di diciture semitrasparenti che
mascherano in parte l’immagine ma la lasciano comunque visibile, come fanno le
grandi aziende di immagini stock, per esempio Getty Images, Shutterstock o
Adobe. Ma le intelligenze artificiali attuali sono in grado di ignorare queste
diciture, per cui questa tecnica è un deterrente contro la pubblicazione non
autorizzata ma non contro l’uso delle immagini per l’addestramento delle IA.

Va un po’ meglio se si usa il cosiddetto opt-out: l’artista manda un
esemplare della propria foto o illustrazione ai grandi gestori di intelligenze
artificiali e chiede formalmente che quell’immagine sia esclusa d’ora in poi
dall’addestramento o training dei loro prodotti. Lo si può fare per
esempio per DALL-E 3 di
OpenAI,
che viene usato anche dai generatori di immagini di Microsoft, oppure per
Midjourney e Stability AI, mandando una mail agli
appositi indirizzi. Lo si può fare anche per le intelligenze artificiali gestite da Meta, ma con molte
limitazioni e complicazioni. Trovate comunque tutti i link a queste risorse su Disinformatico.info.

Il problema di questa tecnica di opt-out è che è tediosissima: in molti casi richiede
infatti che venga inviato a ogni gestore di generatori di immagini un
esemplare di ogni singola illustrazione o foto da escludere, e quell’esemplare
va descritto in dettaglio. Se un artista ha centinaia o migliaia di opere,
come capita spesso, segnalarle una per una è semplicemente impensabile, ma è
forse fattibile invocare questa esclusione almeno per le immagini più
rappresentative o significative dello stile di un artista o di un fotografo.

C’è anche un’altra strada percorribile: pubblicare le proprie immagini
soltanto sul proprio sito personale o aziendale, e inserire nel sito del
codice che dica a OpenAI e agli altri gestori di intelligenze artificiali di
non sfogliare le pagine del sito e quindi di non acquisire le immagini
presenti in quelle pagine.

In gergo tecnico, si inserisce nel file
robots.txt del proprio sito una riga di testo che vieta l’accesso al
crawler di OpenAI e compagni. Anche in questo caso, le istruzioni per OpenAI e per altre società sono disponibili su Disinformatico.info [le istruzioni per OpenAI sono
qui; quelle per altre
società sono
qui].

Si può anche tentare la cosiddetta segmentazione: in pratica, le
immagini non vengono pubblicate intatte, ma vengono suddivise in porzioni
visualizzate una accanto all’altra, un po’ come le tessere di un mosaico, per
cui le intelligenze artificiali non riescono a “vedere”, per così dire,
l’immagine completa, mentre una persona la vede perfettamente. Uno dei siti che offrono questo approccio è
Kin.art.

Tutti questi metodi funzionano abbastanza bene: non sono rimedi assoluti, ma
perlomeno aiutano a contenere il danno escludendo le principali piattaforme di
generazione di immagini. Tuttavia sono molto onerosi, e ci sarà sempre qualche
start-up senza scrupoli che ignorerà le richieste di esclusione o troverà
qualche modo di eludere questi ostacoli. Sarebbe bello se ci fosse un modo per
rendere le proprie immagini inutilizzabili dalle intelligenze artificiali in
generale, a prescindere da dove sono pubblicate.

Quel modo c’è, ed è piuttosto drastico: consiste nell’iniettare veleno
digitale nelle proprie creazioni.

Veleno digitale: IA contro IA

Parlare di veleno non è un’esagerazione: il termine tecnico per questo metodo
è infatti
data poisoning, che si traduce con “avvelenamento dei dati”. In pratica consiste
nell’alterare i dati usati per l’addestramento di un’intelligenza artificiale
in modo che le sue elaborazioni diano risultati errati o completamente inattendibili.

Nel caso specifico della protezione delle proprie immagini, il
data poisoning consiste nel modificare queste immagini in modo che
contengano alterazioni che non sono visibili a occhio nudo ma che confondono o
bloccano completamente il processo di addestramento di un’intelligenza
artificiale. Semplificando, l’intelligenza artificiale acquisisce una foto del
vostro gatto, ma grazie a queste alterazioni la interpreta come se fosse la
foto di un cane, di una giraffa o di una betoniera, anche se all’occhio umano
si tratta chiaramente della foto di un bellissimo gatto.

Ci sono programmi appositi per alterare le immagini in questo modo:
Glaze e
Nightshade,
per esempio, sono gratuiti e disponibili per Windows e macOS. Richiedono
parecchia potenza di calcolo e svariati minuti di elaborazione per ciascuna
immagine, ma è possibile dare loro un elenco di immagini e farle elaborare
tutte automaticamente. Non sono infallibili, e alcune aziende di intelligenza
artificiale adottano già tecniche di difesa contro queste alterazioni. Ma
nella maggior parte dei casi queste tecniche consistono semplicemente
nell’ignorare qualunque immagine che contenga indicatori di queste
alterazioni, per cui se il vostro scopo è semplicemente evitare che le vostre
immagini vengano incluse nell’addestramento di un’intelligenza artificiale, Glaze e Nightshade
vanno benissimo.

Mist è un altro programma di
questo tipo, ma invece di alterare le immagini in modo che la IA le interpreti
in modo completamente errato le modifica in una maniera speciale che fa
comparire una sorta di watermark o sovrimpressione decisamente sgradevole, una
sorta di velo di geroglifici, in ogni immagine generata partendo da immagini
trattate con Mist, che come i precedenti è gratuito e disponibile per macOS e
Windows e richiede una scheda grafica piuttosto potente e tempi di
elaborazione significativi.

C’è una sottile ironia nell’usare software basati sull’intelligenza
artificiale per sconfiggere le aziende basate sull’intelligenza artificiale,
ma in tutta questa rincorsa fra guardie e ladri non bisogna dimenticare che
questi software consumano quantità preoccupanti di energia per i loro calcoli
straordinariamente complessi: a gennaio 2024, l’Agenzia Internazionale
dell’Energia (IEA) ha pubblicato una
stima
secondo la quale il 4% della produzione di energia mondiale nel 2026 sarà
assorbito dai data center, dalle criptovalute e dall’intelligenza artificiale.
Per dare un’idea di cosa significhi, il 4% equivale al consumo energetico di
tutto il Giappone.

La stessa agenzia ha calcolato che una singola ricerca in Google consuma 0,3
wattora di energia elettrica, mentre una singola richiesta a ChatGPT ne
consuma 2,9, ossia quasi dieci volte di più. Per fare un paragone, se
tutti usassero ChatGPT invece di Google per cercare informazioni, la richiesta
di energia aumenterebbe di 10 terawattora l’anno, pari ai consumi annui di un
milione e mezzo di europei.

Pensateci, la prossima volta che invece di usare
un motore di ricerca vi affidate a un’intelligenza artificiale online.

Fonti aggiuntive: How to keep your art out of AI generators, The Verge;
How watermarks can help protect against fraud with generative AI like ChatGPT,
Fast Company.