Guerre di Rete - I pappagalli stocastici sono diventati miliardari
Microsoft rilancia su OpenAI. Hacker nordcoreani a caccia di asset digitali.
Guerre di Rete - una newsletter di notizie cyber
a cura di Carola Frediani
N.150 - 28 gennaio 2023
Specie per i nuovi, ricordo che questa newsletter (che oggi conta più di 11mila iscritti - ma molti più lettori, essendo pubblicata anche online - e oltre 500 sostenitori) è gratuita e del tutto indipendente, non ha mai accettato sponsor o pubblicità, e viene fatta nel mio tempo libero. Se vi piace potete contribuire inoltrandola a possibili interessati, o promuovendola sui social. Molti lettori sono diventati sostenitori facendo una donazione. La prima campagna per raccogliere fondi è andata molto bene, e qua ci sono i dettagli (qua la lista degli oltre 500 donatori).
In più, a marzo il progetto si è ingrandito con un sito indipendente e noprofit di informazione cyber, GuerrediRete.it. Qui spieghiamo il progetto. Qui l’editoriale di lancio del sito.
In questo numero:
- AI: chi “move fast and break things”, e chi ha dubbi
- LeCun reloaded
- Hacker di Stato nordcoreani
- Italia digitale
- Altro
INTELLIGENZA ARTIFICIALE
Chi “move fast and break things”, e chi ha dubbi
Cosa succede se fai scrivere i tuoi articoli a un’intelligenza artificiale?, scriveva giorni fa Il Post, con squisito understatement, in merito alla debacle di Cnet. Per questa testata tecnologica americana infatti l’AI è stata un boomerang: prima è emerso che aveva pubblicato alcuni articoli prodotti con una tecnologia di machine learning (quindi non scritti da umani) senza però adeguata trasparenza nei confronti del pubblico; poi si è aggiunto il fatto che i suddetti articoli fossero pieni di errori; infine è arrivato l’annuncio che la pubblicazione di simili contenuti sarebbe stata sospesa.
Ma Futurism, la testata che per prima ha puntato l‘indice contro i contenuti “automatizzati” di Cnet, non si è fermata qui ed è tornata all’attacco con un’altra accusa: “gli articoli generati dall'intelligenza artificiale di CNET avrebbero mostrato profonde somiglianze strutturali e nelle frasi con articoli precedentemente pubblicati altrove, senza però citarli o dare conto di ciò”.
Futurism ha mostrato i brani incriminati a un professore di business administration (e a un professore di filosofia) che li hanno valutati come “plagi”, nel senso che se presentati da umani sarebbero considerati plagi (sarebbe stato interessante sentire il parere di un ricercatore di AI e se consideri il concetto di plagio applicabile alla tecnologia sottostante). Scrive ancora Futurism: “Forse, alla fine, tutto ciò non dovrebbe stupire più di tanto. Di base, il funzionamento dei sistemi di machine learning prevede l'immissione di un'immensa quantità di "dati di addestramento" (training data), la loro elaborazione con algoritmi sofisticati e l'ottenimento di un modello in grado di produrre un lavoro simile su richiesta. I ricercatori in passato hanno individuato esempi di AI che copiano i propri dati di addestramento. Nel 2021 i ricercatori della Johns Hopkins University, della New York University e di Microsoft hanno scoperto che le AI che generano testi "a volte copiano in modo sostanziale, in alcuni casi duplicando passaggi di oltre 1.000 parole, dal set di addestramento".
Futurism ritiene che Cnet dovrebbe spiegare che tipo di dati ha usato per addestrare la sua AI, ma al di là di questo è stato interessante il commento di Melanie Mitchell, accademica che si occupa di sistemi complessi, AI e scienze cognitive.
“I LLM (Large Language Models, modelli linguistici di grandi dimensioni, come quelli usati in AI generative che producono testi, alla ChatGPT, nda) non possono "plagiare", poiché ciò implica un'intenzione. Ma almeno in alcuni casi sono effettivamente dei “pappagalli stocastici”, che generano testo dai loro dati di training (o loro riformulazioni). Sono certa che ne vedremo ancora molti (di questi casi)”, ha twittato Mitchell in riferimento al caso Cnet.
Stoca che?
Cosa intende e cosa è un “pappagallo stocastico”? Non fatevi intimorire dai termini, perché qui stiamo per fare una digressione nella parte più affascinante della ricerca sull’AI. L’espressione è stata coniata dalle autrici (ci sono anche altri che hanno contribuito, ma non tutti hanno potuto firmarsi, come ha spiegato a una conferenza Emily Bender) di un paper uscito nel marzo 2021, paper che sarebbe finito anche al centro di una vicenda mediatica. Si intitolava: “Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?”.
In pratica, scrivevano le autrici, questi modelli linguistici (come quello che sarebbe poi stato usato in ChatGPT, per capirci) “contrariamente a quanto può sembrare osservando il loro output [quello che scrivono quando interrogati, nda], sono sistemi che riassemblano assieme in modo casuale sequenze di forme linguistiche che hanno osservato nei loro vasti dati di addestramento, in base a informazioni probabilistiche su come si combinano, ma senza alcun riferimento al significato: un pappagallo stocastico” (stocastico indica qualcosa che ha una distribuzione di probabilità casuale o uno schema che può essere analizzato statisticamente ma non può essere previsto con precisione. I modelli stocastici possiedono una certa casualità intrinseca).
Per la cronaca: Emily Bender sembra essere stata la madre dell’espressione usata nel titolo.
Il paper è stato al centro di un forte dibattito, anche per il suo posizionamento “politico”. Le autrici infatti scrivono: “abbiamo identificato un'ampia varietà di costi e rischi associati alla corsa a modelli linguistici (LM) sempre più grandi”: costi ambientali (sostenuti in genere da chi non beneficia della tecnologia risultante); costi finanziari, che a loro volta erigono barriere all'entrata; il rischio di danni sostanziali, legato alla perpetuazione o rinforzo di stereotipi, discriminazioni ecc. E chiedevano di investire nella documentazione dei dataset invece di ingerire tutto ciò che si rastrella sul web ciecamente, incoraggiando direzioni di ricerca che andassero oltre i modelli linguistici.
Alcune delle autrici, che lavoravano a Google, e in particolare Timnit Gebru prima e poi Margaret Mitchell (che nel paper usa lo pseudonimo, si fa per dire, Shmargaret Shmitchell), che guidavano il team sull’etica nell’AI, si sarebbero poi trovate in un braccio di ferro col proprio datore di lavoro a causa del paper tanto da essere licenziate (o accompagnate alla porta, diciamo, dato che anche su come si era concluso il rapporto di lavoro c’era stata polemica - qui un resoconto su Wired US).
Di fatto quel paper - che era stato giudicato “inaccettabile” da Google, e che non avrebbe incluso abbastanza citazioni di ricerche dedicate invece a come mitigare alcuni dei rischi elencati (secondo questa altra ricostruzione su Wired US) - è stato ripreso anche dal successivo studio Hopkins -New York-Microsoft che ho menzionato all’inizio. Scrivono infatti questi ultimi ricercatori nel loro paper: “Quanto è profondo l'apprendimento profondo (il deep learning)? Le reti neurali stanno "scoprendo strutture intricate" che sostengono generalizzazioni sofisticate (LeCun et al., 2015) o sono "pappagalli stocastici" che si limitano a memorizzare esempi visti e a ricombinarli in modo superficiale (Bender et al., 2021)?“
La loro risposta è mista, e come si diceva sottolinea il fatto che possono anche copiare dai training data.
LeCun reloaded
Nel brano appena sopra viene citato Yann LeCun. Si tratta del Chief AI Scientist a Facebook/Meta, oltre che professore della New York University. Ma le sue cariche non rendono bene l’idea. LeCun è l’architetto di un particolare tipo di reti neurali che hanno fatto fare un salto in vari ambiti di ricerca. Si tratta delle reti neurali convoluzionali, ConvNet (CNN). Come scrive la già citata Mitchell (Melanie questa volta, non Margaret dei pappagalli stocastici) nel suo bellissimo libro L'intelligenza artificiale. Una guida per esseri umani pensanti (che pur rivolto a profani va molto addentro alla spiegazione tecnica del funzionamento dell’AI e delle reti neurali, in maniera cristallina, e che dovrebbe meritare un premio per la capacità di divulgazione scientifica) “le ConvNet sono la forza trainante dell'odierna rivoluzione del deep-learning nella computer vision e anche in altre aree. Sebbene siano state ampiamente annunciate come la nuova frontiera dell'IA, in realtà le reti ConvNet non sono molto nuove: sono state proposte per la prima volta negli anni '80 dall'informatico francese Yann LeCun” (sto traducendo dalla versione inglese del libro).
Negli anni ‘90 le reti neurali di LeCun avevano già un’applicazione pratica: venivano usate dalle poste statunitensi per leggere i codici di avviamento postale delle missive, e dai bancomat per leggere gli assegni depositati, racconta Brian Christian nel libro The Alignment Problem. Ma hanno avuto bisogno di avere più dati, raccolti più facilmente, e di più potenza computazionale. Così lo scatto è arrivato negli anni Duemila. Malgrado le basi teoriche fossero state gettate prima, “la "rivoluzione" del deep learning è iniziata intorno al 2006, con i primi lavori di Geoff Hinton, Yann LeCun, e Yoshua Bengio”, scrive Erik Larson nel libro The Myth of Artificial Intelligence.
Tutta questa introduzione per arrivare a questa settimana, quando proprio le dichiarazioni di LeCun in un incontro online hanno fatto discutere.
“In termini di tecniche sottostanti, ChatGPT non è particolarmente innovativo", ha dichiarato LeCun (come riportato da Zdnet). “Non è nulla di rivoluzionario, anche se questo è il modo in cui viene percepito dal pubblico. È solo che, come dire, è ben fatto".
Tali sistemi di AI basati sui dati sono stati costruiti in passato da molte aziende e laboratori di ricerca, ha detto ancora LeCun. L'idea che OpenAI sia l'unica a svolgere questo tipo di lavoro è inesatta. "OpenAI non rappresenta affatto un progresso rispetto agli altri laboratori. Non ci sono solo Google e Meta, ma anche una mezza dozzina di startup che hanno una tecnologia molto simile".
“Ci si potrebbe chiedere perché non ci siano sistemi simili da parte di Google e Meta", ha poi aggiunto in un altro momento, riferendosi ancora una volta a ChatGPT. "E la risposta è che sia Google che Meta hanno molto da perdere nel mettere in commercio sistemi che inventano cose", ha detto ridendo.
Come nota Zdnet, LeCun è il vincitore del Premio Turing 2019 (2018, per la verità, nda), l'equivalente del Premio Nobel per l'informatica, insieme a Yoshua Bengio, direttore del MILA-Quebec AI Institute, e Geoffrey Hinton (che sta a Google). “I tre hanno contribuito a creare l'attuale era dell'AI basata sull'apprendimento profondo (deep learning)”.
LeCun ha poi aggiunto dei tweet a quelle dichiarazioni.
“Per essere chiari: non sto criticando il lavoro di OpenAI né le loro affermazioni. Sto cercando di correggere la *percezione* del pubblico e dei media che vedono ChatGPT come una scoperta tecnologica incredibilmente nuova, innovativa e unica, molto più avanti di tutti gli altri. Non è così”.(tweet)
“Rilasciando demo pubbliche che, per quanto impressionanti e utili, presentano gravi difetti, le aziende affermate hanno meno da guadagnare e più da perdere rispetto alle startup in cerca di fondi. Se Google e Meta non hanno rilasciato finora prodotti simili a ChatGPT, non è perché non possano farlo. È perché non vogliono” (tweet).
Microsoft investe 10 miliardi in OpenAI
Intanto, al di là dei discorsi, sono arrivati i soldi. L’atteso finanziamento di Microsoft in OpenAI - il centro di ricerca sull’AI dietro a ChatGPT - di cui si era vociferato nei giorni scorsi (come avevo raccontato nella scorsa newsletter) è infine arrivato. La comunicazione ufficiale parla solo di investimento pluriennale e multimiliardario. Ma, secondo Bloomberg, il gigante di Redmond investirà 10 miliardi di dollari nella startup di intelligenza artificiale, dopo il miliardo versato nel 2019 e un altro round nel 2021. Questa imponente iniezione “darà a Microsoft l'accesso ad alcuni dei sistemi di intelligenza artificiale più popolari e avanzati". Nel contempo - prosegue Bloomberg - OpenAI ha bisogno dei finanziamenti di Microsoft e della potenza di calcolo del suo cloud per elaborare enormi volumi di dati ed eseguire i modelli sempre più complessi che consentono a programmi come DALL-E di generare immagini realistiche sulla base di una stringa di parole e ChatGPT di creare conversazioni scritte sorprendentemente simili a quelle umane” (sul "sorprendentemente simili a quelle umane” però parliamone…. e comunque rimando alla prima parte di questa newsletter e relativo dibattito, ma anche alla scorsa newsletter sempre sulla corsa all’AI). Microsoft prevede di utilizzare i modelli di OpenAI in tutti i prodotti per i consumatori e per le aziende.
Vedi anche:
- PODCAST - Is this the future of humanity? (su ChatGPT)
- I ricercatori di Google hanno pubblicato un paper in cui affermano di aver creato un modello che genera musica a partire da una descrizione testuale. Con vari esempi.
- Il WashPost racconta delle pressioni all'interno di Meta e Google per muoversi più velocemente con l'AI in seguito all'ondata di attenzione intorno a ChatGPT, mettendo potenzialmente da parte le preoccupazioni per la sicurezza.
CYBERCRIME
Ancora un colpo attribuito ad hacker nordcoreani al servizio del regime
Il gruppo cybercriminale Lazarus Group, associato alla Corea del Nord, è responsabile del furto di 100 milioni di dollari in criptovalute dal bridge Horizon della blockchain Harmony (il bridge è uno strumento che permette di trasferire token tra blockchain diverse), scrive l’FBI in un comunicato, riferendosi a un attacco avvenuto lo scorso giugno. Secondo l’agenzia federale americana, il furto e il riciclaggio di criptovalute da parte della Corea del Nord viene usato per sostenere il “programma di missili balistici e armi di distruzione di massa” del Paese.
Parte di questa attribuzione deriva dal successivo tentativo di riciclare i proventi del furto. “Oltre 60 milioni di dollari di ETH rubati durante il colpo sono stati riciclati il 13 gennaio, sei mesi dopo il fatto”, scrive Decrypt. “Ciò ha permesso alle forze dell'ordine di identificare con sicurezza il Lazarus Group e APT38 - un altro gruppo di hacking nordcoreano - come gli artefici del crimine. I cybercriminali hanno utilizzato RAILGUN, un protocollo di privacy, nel tentativo di nascondere le loro transazioni. Tuttavia, una parte dei fondi sono stati poi congelati e recuperati dagli exchange quando i cybercriminali hanno tentato di scambiarli con bitcoin”.
ITALIA DIGITALE
Cosa è successo alle mail di Libero
Dalla sera del 22 gennaio circa 9 milioni di persone con account Libero e Virigilio non sono riuscite ad accedere alla propria mail. “Il disservizio ha colpito tutti gli utenti, anche quelli che usufruiscono di abbonamenti a pagamento e coloro che utilizzano gli indirizzi mail dei due portali per scopi professionali”, scrive Wired.
“Per cogliere la gravità di un down di questo genere: se ne lamentano piccole aziende che usano Libero e che non possono più comunicare con i clienti nel modo abituale. Ma anche professionisti, medici, terapisti”, ha scritto il Sole 24 Ore.
“Secondo un comunicato emesso da Italiaonline, la società dietro ai due servizi, tutto dipende da un grave bug a livello di sistema operativo che ha colpito il fornitore esterno responsabile del nuovo servizio di storage introdotto nelle scorse settimane. Prima che la situazione ritorni a livelli normali servirà ancora un po' di pazienza, con una finestra temporale di risoluzione stimata nelle 24/48 ore”, scriveva un altro articolo di Wired il 25 gennaio. Dunque nel momento in cui starete leggendo questa newsletter la situazione dovrebbe essere tornata alla normalità…
BIG TECH
Il governo Usa apre causa antitrust contro Google
Martedì scorso il governo statunitense ha intentato quella che potenzialmente è una delle cause più importanti contro Google. Il Dipartimento di Giustizia degli Stati Uniti e otto Stati hanno citato in giudizio la società tech chiedendo di smantellare l'attività del gigante della ricerca nel settore delle tecnologie pubblicitarie a causa di un presunto monopolio illegale del mercato della pubblicità digitale. “L'azione legale rappresenta il primo caso importante dell'amministrazione Biden”, scrive Bloomberg. “È anche una delle poche volte in cui il Dipartimento di Giustizia ha chiesto lo spezzatino di una grande azienda da quando, negli anni '80, sciolse il sistema Bell”.
SOCIAL MEDIA
Donald Trump riammesso su Facebook e Instagram dopo la sospensione di 2 anni
Il Fatto
APPROFONDIMENTI
ITALIA E DIGITALE
“La trasformazione digitale va governata, in Italia non sta succedendo”.
Intervista di Martina Pennisi a Diego Piacentini su Corriere (paywall)
Cos'è questa storia dei certificati penali alle Poste
Ne ha parlato il ministro della Giustizia Nordio ma si tratta di un progetto di Poste varato nel 2021 per rilasciare documenti pubblici nei piccoli Comuni, finanziato con 800 milioni dal Pnrr. E il Garante della privacy non è stato interpellato in merito - Luca Zorloni su Wired Italia
LIBRI
Dark Tracers, il nuovo libro del giornalista cyber Andy Greenberg, raccontato in un podcast (inglese)
REPORT/ DIRITTI UMANI
Dal colpo di Stato militare del 1° febbraio 2021, le donne in Myanmar e provenienti da questo Paese hanno usato con forza i social media come mezzo per esprimere le loro opinioni politiche. Nel farlo, hanno dovuto affrontare livelli crescenti di abusi e molestie online. Le vittime ritengono che le pratiche di moderazione delle piattaforme di social media siano state inadeguate a fermare gli abusi. La maggior parte dei post abusivi analizzati erano in chiara violazione dei termini e delle condizioni delle piattaforme e guidati da un numero relativamente piccolo di account e canali molto attivi. Il report Digital Battlegrounds - Myanmar Witness
→ DIFFONDI LA NEWSLETTER
Ti è piaciuta la newsletter? Inoltrala a chi potrebbe essere interessato! Promuovila sui social. O diventa un suo sostenitore facendo una donazione. La newsletter (che è fatta nel mio tempo libero) resta gratuita, indipendente, senza sponsor, mandanti o agende altrui, e si diffonde col passaparola dei suoi stessi utenti.
Non sei ancora iscritto? Iscriviti qua, è gratuita.
—> SOCIAL E PODCAST DI GUERRE DI RETE
Guerre di Rete ora ha anche un sito di notizie, una pagina Facebook, un profilo Twitter, Linkedin e Instagram. Seguiteli! I podcast della newsletter li trovate sulle principali piattaforme ma attualmente sono in pausa (Apple Podcasts; Spotify; Google Podcast; Anchor.fm)
Piccola correzione: il nome di Gebru è Timnit, non Tim