Podcast RSI – ChatGPT ha copiato la voce di Scarlett Johansson? Il Grande Saccheggio dell’IA

ALLERTA SPOILER: Questo è il testo di accompagnamento al podcast
Il Disinformatico della Radiotelevisione Svizzera che uscirà questo
venerdì presso
www.rsi.ch/ildisinformatico.

Le puntate del Disinformatico sono ascoltabili anche tramite
iTunes,
Google Podcasts,
Spotify
e
feed RSS.

—

[CLIP: voce di Scarlett Johansson da “Her”]

Questa è la voce dell’attrice Scarlett Johansson dal film del 2013 Her,
o Lei nella versione italiana, nel quale interpreta un’intelligenza
artificiale che dialoga a voce, usando toni molto umani e seducenti, con i
suoi utenti tramite i loro smartphone. Praticamente quello che fa realmente
oggi la versione più recente di ChatGPT.

E questa è una delle voci inglesi di ChatGPT:

[CLIP: voce di Sky da ChatGPT]

Se notate una forte
somiglianza, non siete i soli. Questa voce è così simile a quella di
Scarlett Johansson che l’attrice ha dichiarato di essere “scioccata, arrabbiata e incredula”, perché “la voce era così simile alla mia che i miei amici più stretti e le redazioni dei giornali non sapevano percepire la differenza” (X/La Regione), e ora ha incaricato dei legali di investigare sulla vicenda, mentre
OpenAI, la società che gestisce ChatGPT, ha rimosso la voce
contestata.

Questa è la storia di come l’idea futuribile di un film romantico e visionario è diventata
realtà in poco più di un decennio, ma è anche la storia di come le aziende
che producono intelligenze artificiali si stanno arricchendo immensamente
agendo in zone grigie legali e attingendo al lavoro e alle immagini altrui
senza dare alcun compenso, in un grande saccheggio che va accettato, dicono queste aziende, in nome del progresso. E i saccheggiati siamo tutti noi, non solo le celebrità.

Benvenuti alla puntata del 24 maggio 2024 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Lei, storia di un corteggiamento (professionale)

Questa storia inizia a settembre 2023, quando Sam Altman, CEO di OpenAI,
l’azienda di intelligenza artificiale conosciutissima per il suo ChatGPT, ha
chiesto all’attrice Scarlett Johansson se era interessata a prestare la sua
voce, dietro compenso, alla versione 4.0 di ChatGPT. Johansson ha rifiutato
l’offerta, dice, “dopo aver riflettuto molto e per ragioni personali”.

Due giorni prima della presentazione al pubblico di ChatGPT 4.0, Altman ha
contattato l’agente dell’attrice chiedendo di riprendere in considerazione
l’offerta. Prima ancora che iniziasse qualunque trattativa, ChatGPT 4.0 è
stato rilasciato con una serie di voci che permettono agli utenti di dialogare
in modo molto naturale con questo software semplicemente conversando.

Una di queste voci, denominata Sky, colpisce particolarmente sia per i suoi
toni estremamente naturali, spiritosi e vivaci, al limite del flirt continuo
con l’utente, sia per il fatto che somiglia davvero parecchio alla voce di
Scarlett Johansson.

Se avete visto il film Lei
in italiano, avrete apprezzato la voce e il talento della doppiatrice Micaela Ramazzotti…

[CLIP: voce di Micaela Ramazzotti che interpreta Samantha in Lei]

… ma vi sarete persi quella altrettanto memorabile di Johansson e quindi la somiglianza con la voce di
ChatGPT non sarà così immediatamente evidente. Però indubbiamente la voce di Sky è molto, molto vicina a quella dell’attrice statunitense. E Altman non ha fatto mistero del fatto che il film Lei
è una delle sue ispirazioni centrali, dichiarando pubblicamente che lo
considera “incredibilmente profetico”
e che ha azzeccato in pieno la rappresentazione del modo in cui oggi le
persone interagiscono con le intelligenze artificiali.

Inoltre il 13 maggio scorso, poco dopo la presentazione al pubblico della voce di ChatGPT che ricorda
così tanto quella di Johansson, Altman ha pubblicato un
tweet contenente una sola parola: her. Il titolo originale del film.

L’attrice ha dato incarico a dei legali, che hanno chiesto formalmente a
OpenAI di fornire i dettagli esatti di come hanno creato la voce denominata
Sky. L’azienda ha risposto che la voce non è stata generata partendo da quella
di Scarlett Johansson, ma appartiene a un’attrice assunta tempo addietro
dall’azienda. Il
Washington Post
ha contattato l’agente di questa attrice, sotto anonimato per ragioni di
sicurezza personale, e ha visionato documenti e ascoltato i provini registrati
dall’attrice, e risulta che la sua voce calda e coinvolgente è identica a
quella di Sky.

OpenAI ha anche pubblicato una
cronologia
dettagliata degli eventi, dicendo che a maggio 2023 aveva selezionato cinque
voci di attori e attrici e successivamente aveva contattato Johansson
proponendole di diventare la sesta voce di ChatGPT accanto alle altre,
compresa quella di Sky, ma Johansson aveva cordialmente respinto la proposta
una settimana più tardi tramite il suo agente.

Le voci degli altri attori sono state integrate in ChatGPT il 25 settembre
scorso, dice OpenAI, e sono passati circa otto mesi prima che OpenAI
ricontattasse Johansson il 10 maggio scorso, proponendole di diventare una
futura voce aggiuntiva di ChatGPT, in occasione del lancio della nuova
versione del prodotto. Il 19 maggio, pochi giorni dopo le dichiarazioni di
Johansson, l’azienda ha disattivato la voce di Sky
“per rispetto verso le preoccupazioni [dell’attrice]”.

Sembra insomma che si tratti solo di un caso di tempismo poco felice e di
incomprensione, ma resta un problema: quello che ha fatto OpenAI, ossia creare
una voce che molti trovano estremamente somigliante a quella di Johansson e
guadagnarci parecchi soldi, è lecito?

Imitare non è lecito se l’intento è ingannare

Secondo gli esperti interpellati da varie testate giornalistiche (Washington Post;
The Information), scegliere per il proprio prodotto una voce che somiglia molto a quella di
una celebrità, specificamente di una celebrità nota per aver interpretato
proprio il ruolo della voce di un prodotto analogo in un film molto
conosciuto, e giocare sul fatto che molti utenti paganti di ChatGPT penseranno
che si tratti della voce di Johansson, rischia di essere comunque illegale
anche se l’azienda non ha effettivamente clonato la voce dell’attrice ma ha
assunto una persona differente ma somigliante.

Ci sono dei precedenti piuttosto importanti in questo senso, che risalgono a
molto prima del boom dell’intelligenza artificiale. Quando non esisteva ancora
la possibilità di usare campioni di registrazioni della voce di una persona
per generarne una replica digitale si usavano gli imitatori in carne e ossa.

Per esempio, nel 1986 uno spot televisivo della Ford usò una imitatrice al
posto della cantante Bette Midler come voce per un brano,
Do You Wanna Dance di Bobby Freeman, che Midler aveva cantato. Midler era stata contattata per chiederle se fosse disposta a cantare nello
spot, e lei aveva rifiutato. Così l’agenzia pubblicitaria incaricata dalla
Ford, la Young & Rubicam, fece cantare la canzone a una corista di Midler,
Ula Hedwig.

Il parallelo con la vicenda di Scarlett Johansson e OpenAI è evidente, ma c’è
una differenza importante: nel caso di Bette Midler, l’agenzia diede alla
corista l’istruzione specifica di imitare la cantante. Midler fece causa, e
vinse, ricevendo 400.000 dollari di risarcimento.

Anche il cantante Tom Waits si è trovato al centro di un caso di imitazione a
scopo pubblicitario. Nel 1990 la Frito-Lay usò un imitatore per inserire in un
suo spot dedicato alle patatine di mais una voce che somigliasse a quella di
Waits. L‘azienda fu
condannata
a pagare due milioni e mezzo di dollari.

Anche il chitarrista Carlos Santana, nel 1991, fece
causa
a un’azienda, la Miller Beer, per aver assunto un imitatore: non della sua
voce, ma del suo stile di suonare la chitarra, in modo da usare il suo
celeberrimo brano Black Magic Woman in uno spot televisivo. La disputa fu risolta in via stragiudiziale.

In sostanza, stando agli esperti non importa se OpenAI ha assunto un sosia
vocale di Scarlett Johansson o se ha proprio clonato la sua voce usando
l’intelligenza artificiale: quello che conta è che ci fosse o meno l’intenzione di assomigliare alla voce di Johansson. Per il momento ci sono notevoli indizi indiretti di questa intenzione, ma
manca una prova schiacciante, una richiesta esplicita di imitare la celebre
attrice. Che per ora non ha avviato formalmente una causa.

Ma comunque vadano le cose nella disputa fra OpenAI e Scarlett Johansson,
il problema dello sfruttamento gratuito dell’immagine, della voce o delle
creazioni altrui da parte delle aziende di intelligenza artificiale rimane e
tocca non solo gli attori e gli autori, ma ciascuno di noi.

Il Grande Saccheggio

Le intelligenze artificiali, infatti, hanno bisogno di enormi quantità di dati
sui quali addestrarsi. Se devono riconoscere immagini, devono addestrarsi
usando milioni di fotografie; se devono elaborare testi o generare risposte
testuali, devono leggere miliardi di pagine; se devono generare musica, hanno
bisogno di acquisire milioni di brani. Ma molte di queste immagini, di questi
testi e di questi brani sono protetti dal diritto d’autore, appartengono a
qualcuno. Se un’azienda usa contenuti di terzi senza autorizzazione per
guadagnare soldi, sta commettendo un abuso.

La fame di contenuti delle intelligenze artificiali sembra inesauribile e
incontenibile, e le aziende non sembrano curarsi del fatto che i loro software
saccheggino le dispense intellettuali altrui.

Gli esperti hanno trovato il modo di rivelare che quasi tutti i principali
software di IA contengono i testi integrali di libri, riviste e quotidiani. A
dicembre scorso il New York Times
ha
avviato
una causa contro OpenAI e Microsoft per violazione del diritto d’autore,
dato che ChatGPT e Bing Chat hanno dimostrato di essere capaci di produrre
contenuti praticamente identici a milioni
di articoli del Times, sfruttando la fatica cumulativa dei giornalisti della testata senza
permesso e senza compenso.

Anche gli scrittori George RR Martin (celebre per il Trono di spade) e John Grisham, insieme a molte altre firme celebri, hanno
avviato una lite
con OpenAI perché è emerso che ChatGPT ha incamerato e usato i testi integrali dei loro libri per migliorare le proprie capacità. Accusano OpenAI testualmente di “furto sistematico di massa”.

E non è solo un problema degli autori. Nella loro fame irrefrenabile, le
intelligenze artificiali ingeriscono qualunque testo e cercano sempre
contenuti nuovi, e le aziende non si fanno scrupoli a fornirglieli da
qualunque fonte. Per esempio, Slack, una popolarissima piattaforma di chat e
collaborazione aziendale, ha
annunciato
che usa
le conversazioni degli utenti per addestrare la propria intelligenza
artificiale, senza chiedere il loro consenso preventivo. Grok,
l’intelligenza artificiale di X o Twitter, legge tutti i
post pubblici degli utenti. Meta ha dato in pasto alla propria IA un
miliardo di post su Instagram, Google
fa leggere alla propria IA le mail degli utenti di Gmail, e Microsoft usa le
chat con Bing per addestrare il proprio software. Nel campo delle immagini, Midjourney e OpenAI sono in grado di ricreare
scene di film e videogiochi,
dimostrando
così di essere stati addestrati usando questi contenuti sotto
copyright. Così fan tutti, insomma.

Ma nessuno di noi, quando ha aperto la propria casella Gmail o il proprio
profilo Instagram, aveva immaginato un futuro nel quale le sue
conversazioni, le sue foto, i suoi video sarebbero stati usati in massa per
addestrare software che, se pungolati correttamente, rigurgitano
brani interi di queste conversazioni.

E le aziende del settore dicono spavaldamente che tutto questo non solo va bene e che non c’è da preoccuparsi: dichiarano che è addirittura necessario, perché secondo loro è “impossibile” addestrare le grandi intelligenze artificiali senza attingere a opere
vincolate dal diritto d’autore. Lo ha dichiarato specificamente OpenAI in
una
comunicazione formale
alla Camera dei Lord britannica a dicembre scorso.

Ma c’è chi traduce quella comunicazione formale in parole molto più concise
e taglienti, come l’esperto di intelligenza artificiale e professore emerito alla New York University Gary Marcus, che
riassume
la questione così: “Non possiamo diventare favolosamente ricchi se non ci permettete di
rubare, quindi fate in modo che rubare non sia reato, e non fateci neanche
pagare diritti di licenza! Certo, Netflix paga miliardi l’anno in diritti,
ma noi non dovremmo essere tenuti a farlo!”

OpenAI vale attualmente circa 80 miliardi di dollari e ha
triplicato
il proprio valore in meno di dieci mesi.