VHosting: il provider italiano con piani a partire da 26 euro all’anno

ALLERTA SPOILER: Questo è il testo di accompagnamento al podcast
Il Disinformatico della Radiotelevisione Svizzera che uscirà questo
venerdì presso
www.rsi.ch/ildisinformatico.

—

[CLIP: Dialogo fra Ann e il suo partner]

Quella che avete sentito non è la classica conversazione fra un utente e il
suo assistente vocale. La voce femminile che risponde non è quella standard di
Alexa, Siri o Google: è quella, sintetica, di Ann, una donna che ha perso la
capacità di parlare in seguito a un ictus ma che ora può di nuovo comunicare a
voce semplicemente pensando di parlare, grazie a una rete di sensori
applicati al suo cervello e grazie all’intelligenza artificiale, che è l’unica
tecnologia capace di interpretare la complessa attività dei neuroni e tradurla
in suoni usando oltretutto la voce originale della persona.

È una delle tre storie di intelligenza artificiale che dà voce a chi non ce
l’ha della puntata del primo settembre 2023 del Disinformatico, il
podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie
strane dell’informatica. Le altre due riguardano l’idea di usare
l’intelligenza artificiale per decodificare il linguaggio degli animali e uno
strano esperimento di collage acustico in cui la voce di Elvis Presley, morto
nel 1977, canta le parole di Baby Got Back di Sir Mix-A-Lot, classe
1992, sulle note di Don’t Be Cruel, classe 1956. Lasciamo stare un
momento il perché di una creazione del genere, perché è molto più
importante il come, che potrebbe decidere le sorti di tutto il mondo
musicale nei prossimi anni.

Benvenuti. Io sono Paolo Attivissimo.

[SIGLA di apertura]

L’IA che ridà la voce captando le parole pensate

Restituire la voce a chi l’ha persa per malattia è ora possibile, perlomeno in
alcuni casi specifici. Lo annunciano, con molta dovuta cautela, due articoli
scientifici (A high-performance speech neuroprosthesis;
A high-performance neuroprosthesis for speech decoding and avatar
control) pubblicati sulla prestigiosa rivista Nature,
che raccontano le storie di Ann e Pat, due donne che avevano perso la capacità
di parlare a causa della scleròsi laterale amiotrofica e di un ictus. Entrambe
hanno una caratteristica particolare: non possono più articolare parole, ma
ricordano perfettamente come si fa.

Ann e Pat si sono offerte volontarie per farsi impiantare dei sensori che
rilevano l’attività dei neuroni delle aree del cervello associate ai movimenti
facciali. Quando pensano di parlare, questi sensori captano i segnali di
questa attività immaginata e li passano, attraverso un connettore, a un
computer sul quale gira un software di intelligenza artificiale che li
interpreta, riconoscendo i movimenti pensati, e poi riconosce anche quali
suoni verrebbero prodotti da quei movimenti. Questi suoni, o fonemi,
vengono infine convertiti in parole, che nel caso di Pat vengono mostrate su
uno schermo, mentre nel caso di Ann vengono pronunciate da un sistema di
sintesi vocale che usa campioni della sua voce tratti dal video del suo
matrimonio e pilota un avatar digitale su uno schermo.

I risultati sono notevolissimi. Pat è in grado di comunicare alla velocità
media di 62 parole al minuto e Ann arriva a 78, stracciando i record
precedenti dei vecchi sistemi, che si fermavano a circa 15 parole al minuto.
Per fare un paragone, una conversazione vocale normale procede a circa 160
parole al minuto, come il podcast che state ascoltando. Fra l’altro, i loro
pensieri privati sono al sicuro: il software funziona solo quando Pat e Ann
immaginano specificamente di parlare.

[Video:
https://www.youtube.com/watch?v=iTZ2N-HJbwA]

Le apparecchiature presentate dai ricercatori in questi articoli sono
ingombranti e richiedono alcuni mesi di addestramento, oltre a un delicato
intervento chirurgico per impiantare i sensori, che poi tendono a spostarsi e
richiedono frequenti ricalibrazioni, e il tasso di errore è ancora
significativo. Ma l’idea stessa che basti ascoltare i segnali elettrici di
meno di trecento neuroni per riconoscere una funzione complessa come parlare,
e che sia possibile usare il software di intelligenza artificiale per
decodificare questi segnali e captare parole pensate, è assolutamente
affascinante e promettente. Il principio, impensabile dieci anni fa, è stato
ormai dimostrato in pratica; ora si tratta di perfezionare e miniaturizzare
questa tecnologia.

[Fonti aggiuntive: UCSF.edu;
Ars Technica]

Si può usare l’IA per capire i linguaggi degli animali?

Ormai da qualche tempo i vari software di intelligenza artificiale sono in
grado di fornire traduzioni automatiche passabili da una lingua all’altra,
almeno per i concetti elementari, espressi senza ambiguità, e da sempre chi ha
un rapporto stretto con un animale ne riconosce i suoni caratteristici e
viceversa molti animali hanno dimostrato di riconoscere una vasta gamma di
suoni emessi da noi umani e di avere un sistema di comunicazione sofisticato.

Sarebbe possibile usare l’intelligenza artificiale per creare un traduttore
che capisca per esempio il gattese, il delfinese o il cincese? Sì, perché le
cince, a quanto
risulta
dalle ricerche, hanno una
comunicazione sonora incredibilmente complessa e flessibile, e ce l’hanno anche i
cani delle praterie,
con vocalizzi specifici per comunicare concetti complessi come
“la donna con la maglietta blu è tornata”.

A prima vista insegnare a un’intelligenza artificiale un linguaggio animale
non sembra un problema insormontabile. Esistono software di traduzione fra
lingue umane straordinariamente differenti per suoni o struttura, come il
cinese e l’islandese, e il metodo tipico di addestramento di un’intelligenza
artificiale consiste in sostanza nel prendere tantissimi dati di una lingua e
dell’altra, quello che si chiama in gergo un corpus, e poi lasciare che
il software trovi gli schemi e le correlazioni. Il successo esplosivo dei
traduttori automatici, dopo decenni di fallimenti dei software di traduzione
basati su vocabolari e regole di sintassi e grammatica, è dovuto in gran parte
a questo approccio: dai a un’intelligenza artificiale un corpus di qualche
petabyte di dati e ti tirerà fuori qualcosa di interessante. E procurarsi
qualche milione di ore di registrazioni di “conversazioni” di gatti, delfini o
cince non sembra particolarmente difficile.

Ma in realtà non è così semplice. Per addestrare un modello linguistico
servono anche altri due elementi. Il primo è una comprensione almeno
elementare delle correlazioni fra le due lingue: un cosiddetto
corpus parallelo, una sorta di Stele di Rosetta che faccia da ponte e
indichi come si dice per esempio “cibo”, “sole”, “pericolo” nelle due lingue.
Senza questo corpus parallelo l’intelligenza artificiale può riuscire lo
stesso a fornire traduzioni accettabili, ma con molta più fatica.

Il secondo elemento è la cosiddetta
struttura concettuale latente. Come spiega Noah Goodman, professore di psicologia, informatica e
linguistica alla Stanford University in una recente
intervista a Engadget, nel tradurre da una lingua umana a un’altra diamo per scontato che certi
concetti, come per esempio “uomo” o “donna”, esistano in entrambe. Non
possiamo darlo per scontato nelle lingue degli animali, per i quali magari la
distinzione fra uomini e donne è irrilevante come lo è per noi la differenza
fra alligatori e coccodrilli, e senza questa struttura concettuale il problema
si complica.

Tuttavia c’è una speranza: se i suoni degli animali vengono registrati in modo
multimodale, ossia includendo anche il contesto, con informazioni come
le condizioni ambientali, l’ora e il periodo dell’anno, la presenza di prede o
predatori, allora è possibile usare l’intelligenza artificiale come ponte
linguistico fra umani e animali. Lo si sta già tentando per esempio con i
delfini,
raccogliendo
le posizioni relative dei singoli esemplari insieme ai loro suoni, e un
esperimento del 2017 è riuscito a
decodificare
tramite l’intelligenza artificiale il lessico abbastanza limitato delle
conversazioni delle
scimmie note come callìtrice o marmosetta con un’accuratezza del
90 per cento.

Ma per il momento in generale i dati a disposizione sono troppo pochi e le
risorse di calcolo scarseggiano. Nel prossimo futuro aumenteranno
inevitabilmente, per cui la sfida è solo rinviata e chi sperava di portarsi a
casa un collarino o un’app che traducesse esattamente cosa sta cercando di
dirci Fido o Felicette dovrà aspettare ancora un bel po’.

Il vero problema, non tecnico, è che forse non abbiamo molta voglia di
sentirci dire dagli animali cosa pensano di noi e di quello che facciamo a
loro.

I cantanti clonati con l’IA non sono sotto il vincolo del copyright?

[CLIP: “Elvis” canta Baby Got Back,
https://www.youtube.com/watch?v=IXcITn507Jk]

La voce è quella di Elvis Presley, la musica è quella del suo brano classico
Don’t Be Cruel
del 1956, ma le parole sono quelle di Baby Got Back, un brano di Sir
Mix-A-Lot che risale al 1992, quindici anni dopo la morte di Elvis.

Ovviamente il Re del Rock’n’Roll non può aver previsto i testi di Sir
Mix-A-Lot e quindi la sua voce deve essere stata sintetizzata. Ma di preciso
come si fa a ottenere un risultato del genere? Avrete già intuito che c’è di
mezzo l’intelligenza artificiale, ma c’è anche
moltissimo lavoro umano, e questo è molto importante per il futuro della musica in generale.

Il brano interpretato dal finto Elvis Presley è stato realizzato da Dustin
Ballard, titolare del canale YouTube
There I Ruined It
e non nuovo a ibridazioni musicali di questo genere. Per prima cosa ha dovuto
registrare il brano cantando lui stesso, con la sua voce, imitando lo stile ma
non le tonalità di Elvis, e poi ha dato questa registrazione in pasto a un
particolare modello di intelligenza artificiale dedicato alla conversione
delle voci cantate, che è diversa dalla conversione del parlato. La parte
strumentale, invece, è stata realizzata in una comune applicazione per la
composizione di basi musicali.

Il convertitore, però, ha bisogno di campioni accuratamente selezionati della
voce che deve produrre, e quindi è necessario prima di tutto procurarsi una
serie molto ampia di registrazioni di alta qualità di quella voce, isolate
dagli strumenti musicali di accompagnamento, cosa non proprio facile da
ottenere. Su Discord ci sono comunità dedicate specificamente alla creazione
di modelli vocali di persone famose, e Dustin Ballard ha usato uno di questi
modelli, realizzato da Michael van Voorst, per la sua canzone dimostrativa.

Il risultato può piacere o non piacere, ma dimostra molto chiaramente che oggi
è possibile creare a basso costo versioni di canzoni interpretate da voci
sintetiche ispirate a quelle di cantanti celebri del passato o del presente,
con tutte le implicazioni legali che ne conseguono. È abbastanza intuitivo che
sia illecito o almeno discutibile usare la voce di qualcun altro senza il suo
permesso, ma è meno intuitivo il paradosso del fatto che questa versione
sintetica è libera di circolare, mentre quella originale, quella
Don’t Be Cruel del 1956, è vincolata dal copyright e se tentate di
condividerla su YouTube verrà bloccata dai filtri antipirateria su
ordine
della Universal Music Group. Rischiamo di essere sommersi dai cloni canori
gratuiti, usabili senza problemi su YouTube o TikTok, mentre gli originali a
pagamento sono sotto chiave e finiscono in disuso perché i video che li usano
anche solo in sottofondo a una festa vengono bannati.

L’esperimento di Dustin Ballard rivela anche un’altra questione sulla quale ci
sarà molto da discutere: il ruolo dell’intervento umano nelle creazioni
sintetiche di questo genere. Il mese scorso una giudice federale statunitense
ha stabilito che le illustrazioni generate dall’intelligenza artificiale, come
per esempio quelle di Midjourney, non possono essere protette dalle leggi sul
diritto d’autore, perché in queste produzioni manca completamente la mano
umana. “La creatività umana è il sine qua non
al centro della tutelabilità tramite copyright”, ha
scritto
nella
sentenza.

Ma nel caso dell’Elvis sintetico la mano umana c’è eccome, e c’è anche la voce
umana usata come punto di partenza, oltre alla scelta creativa di abbinare
quella voce a quel brano e a quel testo. E nelle immagini sintetiche c’è
l’intervento umano, che consiste nel comporre il testo del prompt,
ossia della serie di istruzioni date all’intelligenza artificiale per guidarla
nella generazione dell’immagine.

Per esempio, è un atto creativo sufficiente chiedere a un software di generare
un’illustrazione dicendogli
“Fai un dipinto di Tom Cruise vestito da marinaretto, a figura intera,
mentre cavalca un unicorno pezzato muscoloso e rampante, sotto la pioggia,
nello stile di Caravaggio”? In fin dei conti, contiene una serie di scelte umane forse discutibili ma
sicuramente ben precise, un po’ come un collage prende pezzi di opere
altrui ma li rimonta secondo le scelte del suo ideatore.

Immagine generata dalla versione gratuita di
Stable Diffusion con il
prompt “A painting of Tom Cruise dressed as a sailor riding a muscular rampant
dappled unicorn in the rain, in the style of Caravaggio”.

Immagine generata da Lexica.art con lo
stesso prompt.

Immagine generata da Bing Image Creator con lo
stesso prompt.

Immagine generata da DALL-E con lo
stesso prompt.

Dove stia il limite non è ancora chiaro, ma i tribunali verranno chiamati
sempre più spesso a deciderlo, man mano che le possibilità offerte
dall’intelligenza artificiale si estenderanno. In attesa di queste decisioni,
non ci resta che ascoltare un’altra delle creazioni, se così è lecito
chiamarle, di Dustin Ballard e del suo software: la voce sintetizzata e
inconfondibile di Johnny Cash che canta Barbie Girl a modo suo.

[CLIP di “Johnny Cash”
https://www.youtube.com/watch?v=HyfQVZHmArA]