Guerre di Rete - Il dataset è politico

Perché si deve scavare nei dataset alla base dell'intelligenza artificiale.

ott 01, 2023

Guerre di Rete - una newsletter di notizie cyber
a cura di Carola Frediani
N.169 - 1 ottobre 2023

AI
La politica dei dataset alla base degli strumenti di intelligenza artificiale

La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò di più a breve) per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT).

Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri.

Archeologia dei dataset di Llama

Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli altri materiali, due raccolte di libri, il Gutenberg Project, che contiene opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo di ricerca di EleutherAI (che si presenta come la versione open source di OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni.
Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli all'avanguardia utilizzando esclusivamente set di dati disponibili pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”.

Cosa c’è dentro Books3

Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi, come in una serie di scatole cinesi, ha isolato ed estratto Books3, e infine ha usato i codici ISBN per individuare i libri. Insomma, un capolavoro.
Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche 102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli alieni hanno costruito le piramidi ecc.

Uno strumento per cercare dentro Books3

The Atlantic ha poi messo a disposizione uno strumento per permettere a chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato.

Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel caso di Books3 i libri sono in realtà stati scaricati da un server bittorrent, scriveva mesi fa l’accademico Peter Schoppert.
Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la ricerca AI open source in contrapposizione alla chiusura e segretezza di OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo sviluppatore Shawn Presser che ha assemblato la raccolta di libri.

Open source AI contro OpenAI

Dunque Books3 sarebbe stato creato per fornire agli sviluppatori indipendenti "dati di addestramento di livello OpenAI". E il suo stesso nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020 che menzionava due "corpora di libri basati su Internet" chiamati Books1 e Books2. “Questo documento - scrive The Atlantic - è l'unica fonte primaria che fornisce indizi sul contenuto dei dati di addestramento di GPT(...)”.

Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di sviluppatori però si ipotizza che Books1 sia la produzione completa di Project Gutenberg (...). Mentre nessuno sa cosa ci sia dentro Books2.
“Alcuni sospettano che provenga da raccolte di libri piratati, come Library Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo creato, sarebbe "tutto Bibliotik")”.

Ma si possono usare questi libri?

Arrivati qua si aprirebbe il capitolo di tipo legale, ovvero è possibile o meno usare questi contenuti per addestrare AI? C’è chi sostiene che sia possibile sulla base della dottrina del fair use (e soprattutto sulla base dell’idea che gli strumenti di intelligenza artificiale generativa non replichino i libri su cui sono stati addestrati, ma producano nuove opere, e che non danneggino il mercato degli originali).

E c’è chi non è d’accordo, come quegli scrittori, da Michael Chabon ad altri, che hanno avviato una class action contro Meta proprio per questo, perché i loro libri sono inclusi in Books3, poi usato per addestrare LLaMa.

Non entro nel merito di questa discussione ora, ma lo stesso Alex Reisner (autore di questo bellissimo lavoro giornalistico su The Atlantic), che è sia un autore che un programmatore del mondo open source, coglie le complesse linee di frattura culturale dell’intera questione (open source contro Big Tech e in mezzo gli studiosi, gli scrittori, i creativi) che rimescolano un po’ le carte rispetto al passato. Lui stesso ha una posizione critica verso l’uso indiscriminato e non consensuale di questi testi.

Comunque la si veda, e qualunque cosa verrà stabilita nei tribunali, sapere cosa c’è nei dataset è ora più che mai fondamentale. Ed è una questione assolutamente politica.

AI
ChatGPT rilancia con ricerche sul web e funzioni multimodali

Ci sono un paio di novità su ChatGPT. La prima è che è stata introdotta una nuova funzione per cui il chatbot può ora analizzare e rispondere a immagini. Ovvero è possibile caricare la foto di uno strumento e ricevere istruzioni su come usarlo. Inoltre è anche possibile dare comandi audio a ChatGPT e ricevere risposte con una voce sintetica alla Siri o Alexa.

“Queste funzioni fanno parte di una spinta industriale verso i cosiddetti sistemi AI multimodali, in grado di gestire testi, foto, video”, scrive Kevin Rose sul NYT. Tuttavia la maggior parte degli utenti non ha ancora accesso alle nuove funzioni. OpenAI le offrirà prima ai clienti paganti di ChatGPT Plus ed Enterprise nelle prossime settimane.

Altra novità: ChatGPT è ora anche in grado di cercare informazioni aggiornate sul web, offrendo risposte tratte direttamente da fonti "attuali e autorevoli", che cita nelle sue risposte.
“La funzione, chiamata Browse with Bing, per ora è disponibile solo per chi ha un abbonamento Plus ed Enterprise, ma l'azienda afferma che la renderà disponibile "presto a tutti gli utenti". Va ricordato che già Bing Chat di Microsoft su Windows, nel browser Edge e nei plugin di terze parti può restituire informazioni in tempo reale dal web, così come Bard di Google in Chrome e altri browser”, scrive The Verge.

Google e l’opt-out dall’AI

Google ora offre agli editori di siti web la possibilità di escludere i propri dati dall’addestramento dei modelli di intelligenza artificiale dell'azienda, pur lasciandoli accessibili al motore di ricerca. Il nuovo strumento, chiamato Google-Extended, consente dunque ai siti di continuare a essere indicizzati da crawler come Googlebot, per finire poi su Google Search, evitando al contempo che i loro dati vengano utilizzati per addestrare i modelli di intelligenza artificiale (via The Verge)

ELIZA effect colpisce ancora

C’è stata una interessante polemica sui social a seguito di una dichiarazione di Lilian Weng, a capo dei sistemi di sicurezza di OpenAI. Commentando le ultime novità di ChatGPT e la possibilità di dare dei comandi e ricevere risposte via voce, Weng ha twittato: “Ho appena avuto una conversazione personale ed emotiva con ChatGPT in modalità vocale, parlando di stress, equilibrio tra lavoro e vita privata. È interessante notare che mi sono sentita ascoltata e confortata. Non ho mai provato una terapia prima d'ora, ma probabilmente è questa? Provatelo, soprattutto se di solito lo usate solo come strumento di produttività".

Un tweet che forse era davvero una considerazione personale sull’onda dell’entusiasmo, ma che denota anche un livello di ingenuità che altri commentatori hanno ritenuto inaccettabile (proprio perché formulato da chi si occupa di sicurezza di queste tecnologie).

“Per favore, non fatelo. L'AI non è una terapia. Non parlatene come se lo fosse”, ha commentato l’esperta di privacy e infosec Whitney Merrill. “Sono incredibilmente scoraggiata dal fatto che questa persona lavori nel settore della trust & safety dell’AI e promuova qualcosa di così pericoloso”.
Simili reazioni anche dal professore di matematica Noha Giansiracusa e da altri, e più in generale fastidio per l’affermazione che ora ChatGPT “veda, senta e parli”.
”Smettetela di trattare modelli di AI come umani”, ha scritto la ricercatrice di AI Sasha Luccioni.

Su questa deriva - che si chiama effetto ELIZA - abbiamo scritto giusto in questo articolo (tratto dal nostro ebook Generazione AI sull’intelligenza artificiale generativa uscito all’inizio di settembre in anteprima per i nostri sostenitori) e pubblicato sul sito Guerre di Rete). Lettura raccomandata perché questo meccanismo lo vedremo in azione ancora e ancora.
Leggi: C’era una volta un chatbot (di Andrea Signorelli)

SATELLITI
La corsa allo spazio per Internet

Nonostante l’esplosione delle intelligenze artificiali, le discussioni sui computer quantistici e sull’alba di una nuova era tecnologica, ancora un terzo del mondo non ha accesso a Internet. Il dilemma di come portare online le aree remote della Terra e le popolazioni più svantaggiate ha interessato anche i colossi privati della tecnologia. L’esempio popolare che può venire in mente è quello di Starlink, la costellazione di satelliti di proprietà di SpaceX, che ha raggiunto il milione di utenti a fine 2022.
La riuscita di Starlink, soprattutto dopo che ha assunto un ruolo geopolitico importante durante la guerra in Ucraina, ha aperto la via ad altri operatori privati attivi nello stesso campo.
Uno dei competitor di Musk è OneWeb, azienda britannica con sede a Londra fondata nel 2012. Ma nella corsa all’internet satellitare non poteva mancare Amazon. Nel 2019, il colosso dell’e-commerce ha fondato una società sussidiaria, Kuiper LLC, i cui satelliti di test non sono ancora stati lanciati in orbita. Nel frattempo gli Stati sono entrati in corsa, e anche l'Unione Europea, che ha lanciato il progetto IRIS2. La Cina, dal canto suo, sta pianificando di lanciare in orbita 13000 satelliti, con l’obiettivo esplicito di “soffocare” la supremazia di SpaceX.
Leggi il nuovo articolo sul nostro sito Guerre di Rete a firma di Irene Doda.

APPROFONDIMENTI

CHATCONTROL
Ue e crittografia
Un'inchiesta denuncia l'esistenza di una rete di influenze nella coalizione allineata dietro la proposta della Commissione europea di obbligare le piattaforme a usare tecnologie per scansionare contenuti alla ricerca di CSAM (child sexual abuse material). Una proposta che, secondo gli esperti di cybersicurezza, mette a rischio i diritti e introdurrà nuove vulnerabilità minando la crittografia.
”Il regolamento obbligherebbe le piattaforme digitali - da Facebook a Telegram, da Signal a Snapchat, da TikTok a siti cloud e di gioco online - a rilevare e segnalare qualsiasi traccia di materiale CSAM presente nei loro sistemi e nelle chat private dei loro utenti. Il provvedimento introdurrebbe una complessa architettura legale basata su strumenti di intelligenza artificiale per individuare immagini, video e discorsi - la cosiddetta "scansione lato client" - contenenti abusi su minori e tentativi di adescamento di bambini. Accolta con favore da alcune organizzazioni per la tutela dei minori, la normativa ha allarmato i sostenitori della privacy e gli specialisti del settore tecnologico, che sostengono che scatenerà un nuovo e massiccio sistema di sorveglianza e minaccerà l'uso della crittografia end-to-end, attualmente il modo migliore per proteggere le comunicazioni digitali da occhi indiscreti”, scrivono gli autori”.
Inchiesta di Balkan Insights (qui la seconda parte).

GUERRA
Droni in prima linea
In Ucraina, organizzazioni di volontariato hanno modificato i droni per fornirli all'esercito di Kiev - Irpi Media (in inglese)

AI
Intervista a Chomsky
”Ciò che oggi chiamiamo AI è pura ingegneria. I modelli linguistici di grandi dimensioni sono progettati in un modo che in principio non possono dirci nulla sul linguaggio, l’apprendimento e i processi cognitivi. Costruiscono device utili come quelli che sto usando, come i sottotitoli in un video (…) Ma non è una critica, così come non criticherei dei sottotitoli”.
“Innanzitutto, se si è interessati al funzionamento del cervello, la prima domanda che ci si pone è: funziona tramite reti neurali? È una domanda aperta. Ci sono molte analisi che sostengono che le reti neurali non siano coinvolte nemmeno in cose semplici come la memoria (...).
Lei ritiene che l'intelligenza artificiale, come viene chiamata, in particolare l'AI generativa, non mostri una vera intelligenza?
”Non direi nemmeno che è irrilevante per la questione dell'intelligenza. Non è il suo problema. Uno che progetta un jet non sta cercando di rispondere alla domanda su come volano le aquile. Quindi, dire che non ci dice come volano le aquile è una domanda sbagliata. Non è l'obiettivo.”

Intervista video a Noam Chomsky sull’AI generativa. Di tre mesi fa ma se non l’avete vista merita. Intanto perché parliamo di Chomsky, uno dei più grandi esperti di linguaggio, filosofia analitica e scienze cognitive che ha seguito tutte le varie primavere, estati, autunni e inverni dell’intelligenza artificiale. E poi per quello che dice. Si può anche non essere d’accordo con lui, ma mette in discussione degli assunti dati troppo sbrigativamente per scontati. Video su YouTube (si possono mettere sottotitoli).

CORSI
Una serie di corsi online gratuiti (in inglese) sull’intelligenza artificiale. Da Google a Microsoft. Sono elencati in questo thread di tweets.

→ DIFFONDI LA NEWSLETTER
Ti è piaciuta la newsletter? Inoltrala a chi potrebbe essere interessato! Promuovila sui social. La newsletter (che è fatta nel mio tempo libero) resta gratuita, indipendente, senza sponsor, mandanti o agende altrui, e si diffonde col passaparola dei suoi stessi utenti.

Non sei ancora iscritto? Iscriviti qua, è gratuita.

Grazie per aver letto Guerre di Rete! Iscriviti qua sotto alla newsletter (è gratuita)

—> INFO SU GUERRE DI RETE
Guerre di Rete è un progetto di informazione sul punto di convergenza e di scontro tra cybersicurezza, sorveglianza, privacy, censura online, intelligenza artificiale, diritti umani, politica e lavoro. Nato nel 2018 come newsletter settimanale, oggi conta oltre 12.000 iscritti e da marzo 2022 ha aggiunto il sito GuerreDiRete.it.
Nell’editoriale di lancio del sito avevamo scritto dell’urgenza di fare informazione su questi temi. E di farla in una maniera specifica: approfondita e di qualità, precisa tecnicamente ma comprensibile a tutti, svincolata dal ciclo delle notizie a tamburo battente, capace di connettere i puntini, di muoversi su tempi, temi, formati non scontati.
Il progetto è del tutto no profit, completamente avulso da logiche commerciali e di profitto, e costruito sul volontariato del gruppo organizzatore (qui chi siamo). Non ha sponsor né pubblicità, né aziende o lobbies alle spalle.
Ha anche una pagina Facebook, un profilo Twitter, Linkedin e Instagram. Seguiteli! I podcast della newsletter li trovate sulle principali piattaforme ma attualmente sono in pausa (Apple Podcasts; Spotify; Google Podcast; Anchor.fm)

Guerre di Rete

Guerre di Rete - Il dataset è politico

Perché si deve scavare nei dataset alla base dell'intelligenza artificiale.

Discussione su questo Post