Podcast RSI – Perché devo sempre dimostrare che non sono un robot? Breve storia dei Captcha

Perché è necessaria questa dichiarazione, e come mai così tanti siti sono così tanto interessati agli autobus e invece discriminano le eventuali forme di vita artificiali che sono online?

Questa è la storia dei captcha: uno dei tormenti moderni ma non troppo di Internet.

[SIGLA]

Nella preistoria di Internet, negli anni Novanta del secolo scorso per intenderci, quando Google non esisteva ancora (sì, è esistita un’epoca in cui Google non c’era), il motore di ricerca più popolare era un altro:

AltaVista nel 1995. Fonte:

La soluzione sembrava semplice ed elegante e le fu presto però associato un nome molto meno elegante:

L’utente doveva scriverle entrambe: la prima doveva essere trascritta correttamente e serviva a dimostrare che l’utente era davvero un essere umano, mentre la seconda, quella sconosciuta, andava semplicemente tentata. Se tanti utenti davano la stessa risposta alla stessa parola, quella risposta diventava parte del testo digitalizzato del libro o giornale d’epoca. In altre parole, gli utenti contribuivano, parola dopo parola, a digitalizzare tantissimi testi cartacei.

La cosa piacque così tanto che Recaptcha fu comprato da Google e i captcha in generale furono usati per impedire la creazione massiccia e abusiva di account di mail usa e getta da parte dei venditori di spazzatura digitale.

Ma questi spammer non si arresero. Negli anni che erano passati da quei primi, semplici captcha, la tecnologia del riconoscimento delle immagini aveva fatto enormi progressi, soprattutto nel riconoscimento dei testi, per cui cominciarono a usare computer sempre più potenti per decifrare le parole distorte e scavalcare il filtro antispam.

Questo, però, era un metodo costoso, per cui gli spammer ne inventarono presto un altro molto meno tecnologico: subappaltarono il riconoscimento a degli esseri umani che vivevano in paesi a basso reddito. Migliaia di persone venivano pagate una miseria per risolvere un captcha dopo l’altro, per ore di fila. Nacquero addirittura aziende specializzate nella risoluzione dei captcha. Alcune di loro esistono ancora oggi.

Però questi lavoratori, autentici schiavi digitali, andavano comunque pagati, e in un mercato come quello dello spam, dove i margini sono bassissimi, il costo di quella paga era un problema.

Così gli spammer hanno inventato di recente un’altra soluzione: far risolvere i captcha agli utenti normali, senza che se ne rendano conto. Per esempio, basta creare un sito che contiene qualcosa che gli utenti desiderano (immagini, video, musica, film) e chiedere loro di risolvere un captcha prima di poterlo consultare. Il captcha, in realtà, viene preso di peso istantaneamente da un altro sito, quello nel quale gli spammer vogliono entrare superandone il filtro.

È a questo punto che Google ha risposto con la casella che oggi tutti conosciamo, quella che chiede di confermare che non siamo dei robot. Un solo clic su una sola casella, e il captcha è risolto.

[CLIP: Clic di un mouse]

Sembra una cosa troppo facile, che persino un programma automatico sarebbe in grado di fare, ma c’è il trucco. In realtà dietro le quinte questo captcha trasmette moltissimi dati a Google, che permettono all’azienda di discriminare fra una cliccata fatta da un programma automatico e una fatta da un essere umano.

Quali siano questi dati non si sa. Google non vuole rivelarli per non dare aiuti agli spammer. Forse rileva i tempi di reazione o i movimenti del mouse o del dito; forse legge i cookie che Google deposita sui nostri dispositivi, visto che quando si prova a risolvere uno di questi captcha durante la navigazione privata compare puntualmente un secondo test, quello con la griglia di immagini di autobus, gattini o barche da identificare. Immagini che forse servono ad addestrare le future auto a guida autonoma, vista la loro particolare predilezione per le scene stradali complesse.

Esiste anche una versione ulteriore di questo captcha, che ha debuttato alcuni anni fa, nel 2017, ed è ancora più sofisticata: infatti è completamente invisibile. In questo captcha, Google si limita a osservare il comportamento dell’utente, come muove il mouse o il dito, come fa scorrere lo schermo, come digita le informazioni, e poi usa sofisticati sistemi di intelligenza artificiale per decidere se si tratta di un essere umano o di un sistema automatico. Anche qui, bocche cucite: i dettagli del suo funzionamento non sono pubblici.

La rincorsa fra guardie e ladri continua: avrete notato che oggi alcune banche cominciano a chiedere di identificarsi apparendo in video in tempo reale, mostrando il proprio documento d’identità oltre che il proprio volto, e questo sembra un sistema molto difficile da eludere. Neppure i deepfake riescono a falsificare un video in tempo reale.

Resta il problema di tutti coloro che hanno disabilità e quindi sono tagliati fuori da questi sistemi. Non ci vuole molto: anch’io spesso vengo ingannato dai captcha. E resta anche il problema dell’invasività sempre maggiore di questi metodi per distinguere un umano da un robot. Per non parlare della frustrazione e dell’umiliazione di non riuscire a superare un test che dovrebbe, in teoria, essere alla portata di qualunque persona cosiddetta “normale”.

Dove finirà questa rincorsa è difficile da dire. I sistemi di certificazione dell’identità digitale, come l’EIDAS dell’Unione Europea o SwissID, sono una possibile soluzione, ma non sono universali e spesso incontrano resistenze da parte di chi li considera eccessivamente a rischio per la privacy, la sorveglianza governativa e lo sfruttamento commerciale dei dati degli utenti. E in molti paesi semplicemente non esistono o hanno costi e complicazioni che li rendono inavvicinabili per una fetta importante della popolazione.

Nessun vuole Internet divisa in due categorie: cittadini e internauti di serie A e di serie B. E forse dovremo tornare a chiedere di cliccare più spesso su tanti gattini.

Fonti aggiuntive: Tom Scott; Google; Digital.