Guerre di Rete - La corsa all'intelligenza artificiale
Poi Ue e media. Il lascito di Swartz. FTX e politici.
(Screenshot da Anatomy of an AI system)
Guerre di Rete - una newsletter di notizie cyber
a cura di Carola Frediani
N.150 - 21 gennaio 2023
Specie per i nuovi, ricordo che questa newsletter (che oggi conta più di 11mila iscritti - ma molti più lettori, essendo pubblicata anche online - e oltre 500 sostenitori) è gratuita e del tutto indipendente, non ha mai accettato sponsor o pubblicità, e viene fatta nel mio tempo libero. Se vi piace potete contribuire inoltrandola a possibili interessati, o promuovendola sui social. Molti lettori sono diventati sostenitori facendo una donazione. La prima campagna per raccogliere fondi è andata molto bene, e qua ci sono i dettagli (qua la lista degli oltre 500 donatori).
In più, a marzo il progetto si è ingrandito con un sito indipendente e noprofit di informazione cyber, GuerrediRete.it. Qui spieghiamo il progetto. Qui l’editoriale di lancio del sito.
In questo numero:
-Il 2023 sarà l’anno della corsa all’AI?
- Il forte lascito di Aaron
- Il difficile rapporto tra Ue, media e piattaforme
- I politici finanziati da FTX
- E altro
Il 2023 sarà l’anno della corsa all’AI?
Buongiorno a tutti e ben ritrovati dopo la pausa natalizia. Ci siamo lasciati nel 2022 parlando di ChatGPT, il chatbot sviluppato da OpenAI - noto centro di ricerca sull’AI (intelligenza artificiale). Chatbot poi aperto al pubblico e che ha generato, oltre a una grande quantità di articoli (qui il nostro sul sito che spiega cosa può fare e cosa no), un’infinità di esperimenti, interviste e interazioni col bot, non sempre pregnanti e memorabili. Ma soprattutto ChatGPT è stata la miccia che ha fatto esplodere l’hype sull’intelligenza artificiale, che si era andata accumulando negli ultimi tempi come polvere da sparo in una casamatta incustodita, mentre l’attenzione era ancora puntata su altri settori (criptovalute e blockchain, per dire).
L’esplosione dell’hype
Ora invece, tra stampa e reazioni sui social media, sembra quasi che siamo a un passo dal raggiungere il santo Graal dell’AGI (Artificial General Intelligence), cioè un’intelligenza artificiale “generale” o “forte”, che possa “emulare l’intelligenza umana” o “raggiungere appieno le capacità cognitive umane” (detto in sintesi ma riprendendo definizioni di vari studi), in contrapposizione a quella che abbiamo adesso, una AI “stretta” o “debole”, che risolve compiti specifici. In realtà, per molti studiosi del tema, non solo siamo ancora parecchio lontani da un simile traguardo, bensì il tema stesso sarebbe un’arma di distrazione di massa dai problemi della tecnologia attuale.
Ma al di là del dibattito all’interno della comunità AI, che verte anche sulle sue potenzialità effettive oggi e tra qualche anno (dibattito accesissimo e velenoso, se poi vi interessa magari ne riparliamo, per ora teniamo presente solo questa diversità di vedute) proviamo a mettere in fila alcune delle ultime notizie, in mezzo, appunto, all’hype.
DeepMind, la società acquistata da Alphabet (Google) dedicata alla ricerca sull’intelligenza artificiale, e rivale di OpenAI, sta pensando di rilasciare nel 2023 il suo chatbot, chiamato Sparrow, in una “beta privata”, e con la possibilità di citare fonti. Così ha dichiarato a TIME Demis Hassabis, il Ceo di DeepMind. L’articolo, oltre che un profilo del fondatore di questo centro, affianca le strategie e le tecnologie dei due soggetti che in questo momento sembrano dividersi la scena dell’AI.
DeepMind versus OpenAI
Da un lato, OpenAI, la startup cofinanziata tra gli altri da Peter Thiel ed Elon Musk, e soprattutto da Microsoft (che nel 2019 ci ha investito 1 miliardo di dollari, e che secondo alcune recenti indiscrezioni potrebbe ora volercene investire altri 10) che ha deciso di aprire alcuni dei suoi strumenti al pubblico, come DALL-E, “un modello di machine learning progettato per generare immagini a partire da stringhe di testo immesse dall’utente”, come avevamo raccontato in Guerre di Rete (detta semplice: un sistema che ti permette di generare immagini digitali descrivendo quello che si vuole creare); e come, più recentemente, il già citato ChatGPT.
Dall’altro, DeepMind, che per bocca del suo Ceo si dichiara particolarmente attenta alle questioni etiche e di sicurezza, ma che dietro a questa cautela apparente ha pur sempre una delle più potenti multinazionali tech che guida “il capitalismo della sorveglianza” (Zuboff), e che ora sembra essersi scocciata della visibilità un po’ populistica della rivale.
Ci sono dunque tutte le premesse per una corsa all’AI, o meglio, per una sua intensificazione, con un’esplosione di strumenti, app e servizi accessibili al pubblico, più o meno utili, più o meno efficaci, ma sicuramente centrali nel tenere vivo il ciclo dell’hype e nell’espandere la percezione che si possano già impiegare dei sistemi che si portano dietro errori, limiti, rischi, senza farsi troppe domande, senza aspettare, senza rallentare.
Interessante però che sull’arrivo, molto atteso, di GPT-4, il modello linguistico successivo a quello usato ora con ChatGPT, Sam Altman, Ceo di OpenAI, abbia smorzato un po’ gli entusiasmi, lasciando le date molto vaghe e insistendo sulla sicurezza (“uscirà quando possiamo farlo in modo sicuro e responsabile” - video qua, e qua - The Verge).
Microsoft rilancia col suo servizio cloud
Intanto, Microsoft ha annunciato di aver allargato la disponibilità del suo servizio cloud Azure OpenAI Service, che finora è stato accessibile a un gruppo limitato di clienti, cui aggiungerà presto ChatGPT, scrive Bloomberg. Che prosegue: “Il servizio offre ai clienti cloud di Microsoft l'accesso a vari strumenti OpenAI, come il modello linguistico GPT-3.5 su cui si basa ChatGPT e il modello DALL-E per la generazione di immagini da stringhe (prompt) di testo (...) Ciò consente ai clienti di Azure di utilizzare i prodotti OpenAI nelle proprie applicazioni”.
Il modello che sintetizza audio con la voce di qualcuno
Nei giorni precedenti sempre Microsoft aveva annunciato un nuovo modello di intelligenza artificiale text-to-speech chiamato VALL-E, in grado di simulare la voce di una persona con un campione audio di tre secondi. Una volta appresa una voce specifica, VALL-E è in grado di sintetizzare l'audio di quella persona e di farle dire qualsiasi cosa, preservando il tono emotivo di chi parla. Le applicazioni sono varie e interessanti, specie nell’editing audio, e c’è chi immagina come questo possa dare una svolta anche alla creazione di audiolibri.
Come ha riassunto qualcuno su Twitter, si tratta dunque della terza gamba dello sgabello (ma diciamo pure trampolino) dell’AI generativa. GPT-3 per testo, DALL-E/Stable Diffusion per immagini, e VALL-E per la creazione di audio e l’imitazione di voci.
Ma nei commentatori, e pure nei ricercatori, non mancano gli interrogativi su usi malevoli. “Forse a causa della capacità di VALL-E di alimentare potenzialmente raggiri e inganni - nota Ars Technica - Microsoft non ha fornito il codice di VALL-E affinché altri potessero sperimentarlo”. Inoltre “i ricercatori sembrano consapevoli del potenziale danno sociale che questa tecnologia potrebbe portare. Nella conclusione del documento scrivono:"Dal momento che VALL-E potrebbe sintetizzare un discorso che mantiene l'identità del parlante, [tale tecnologia] potrebbe comportare rischi potenziali legati a un uso improprio del modello, come lo spoofing dell'identificazione vocale o il fatto di impersonare qualcuno. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per distinguere se una clip audio è stata sintetizzata da VALL-E”. (Qui il paper Microsoft dove si possono ascoltare degli esempi).
Origine dei dati e come, e da chi, sono lavorati
Da notare che Microsoft ha addestrato VALL-E su una libreria audio, assemblata da Meta, che contiene per lo più estratti da audiolibri di opere nel pubblico dominio registrate e lette da volontari su LibriVox.
Il tema dei dataset usati (quali, coi dati di chi, con quale trasparenza) per addestrare AI sarà sempre più all’ordine del giorno. In queste ore ad esempio Adobe ha dovuto giustificarsi, dichiarando di non aver mai utilizzato nulla nel suo storage per addestrare un modello di intelligenza artificiale generativa, dopo che, a seguito della diffusione di uno screenshot dei suoi termini di servizio, alcuni si erano chiesti se usasse le immagini e i video dei suoi clienti per l’AI.
E c’è anche una causa, portata avanti da tre artisti, contro Stability AI e Midjourney, che hanno AI generative addestrate su opere artistiche (in genere raccolte da internet), per violazione del copyright (The Verge). (Che si aggiunge a una causa più vecchia, sullo stesso tema, contro Microsoft e OpenAI).
Nel mentre TIME, in una diversa inchiesta, scriveva che OpenAI ha utilizzato lavoratori kenioti in outsourcing che guadagnano meno di 2 dollari all'ora per rendere ChatGPT meno tossico (o meglio, più presentabile). Si sarebbe trattato di un lavoro vitale per il progetto.
Il predecessore di ChatGPT, GPT-3, aveva già dimostrato un'impressionante capacità di mettere insieme frasi, scrive TIME. Ma era difficile da vendere perché l'app era anche incline a formulare commenti violenti, sessisti e razzisti. Questo perché l'intelligenza artificiale era stata addestrata su centinaia di miliardi di parole prese (scraped) da Internet (...) Tale enorme set di dati di addestramento era alla base delle impressionanti capacità linguistiche di GPT-3, ma era anche forse la sua più grande maledizione”.
E quindi qui entrano in gioco i lavoratori. OpenAI ha infatti inviato decine di migliaia di brani testuali a una società di outsourcing in Kenya, a partire dal novembre 2021. “Gran parte dei testi sembrano essere stati estratti dai recessi più oscuri di Internet. Alcuni di essi descrivevano situazioni con dettagli crudi come abusi sessuali su minori, bestialità, omicidio, suicidio, tortura, autolesionismo e incesto”.
Il partner di OpenAI in Kenya era Sama, un'azienda di San Francisco che impiega lavoratori in Kenya, Uganda e India per etichettare i dati per clienti della Silicon Valley. “La classificazione e il filtraggio di [testi e immagini] dannosi è un passo necessario per ridurre al minimo la quantità di contenuti violenti e sessuali inclusi nei dati di training e per creare strumenti in grado di rilevare i contenuti dannosi", ha commentato un portavoce di OpenAI.
L’inchiesta riporta al centro tutta quella parte relativa all’AI che rimane nascosta, di cui non si parla volentieri, e che è molto materiale, quasi novecentesca, malgrado le futuristiche proiezioni della tecnologia. Ovvero, il lavoro umano che sta dietro alla realizzazione di questi strumenti, incluso il lavoro umile, di manovalanza, di chi etichetta contenuti. Ma anche le risorse, e l’energia, necessarie per macinare dati e intelligenze artificiali, dall’hardware alla potenza computazionale. Senza dimenticare la materialità delle relazioni sociali e di potere che informano lo sviluppo dell’AI, dai dati raccolti ai soggetti che dominano la ricerca, e quindi anche le sue architetture ma soprattutto i suoi fini.
Su questi temi (e sull’hype che si diceva all’inizio) l’ha toccata piano un’accademica olandese, Iris van Rooij, che critica chi, fra i suoi colleghi, starebbe a suo avviso facendo pubblicità gratis per OpenAI. Scrive sul suo blog in un articolo intitolato “Basta alimentare l’hype e iniziamo a resistere” (ho eliminato le citazioni per chiarezza di lettura ): “La disponibilità a fornire manodopera gratuita per un'azienda come OpenAI è tanto più degna di nota se si considera (i) ciò che si sa sulla dubbia ideologia dei suoi fondatori, nota come "Altruismo efficace", (ii) che la tecnologia è realizzata con lo scraping da Internet dei dati di training senza preoccuparsi di pregiudizi, consenso, violazione del copyright o contenuti dannosi, né dell'impatto ambientale e sociale del metodo di addestramento e dell'uso del prodotto; e (iii) il fallimento dei modelli linguistici di grandi dimensioni (Large Language Models - LLM), come ChatGPT, nel comprendere effettivamente il linguaggio e la loro incapacità di produrre risultati affidabili e veritieri”
Inoltre, prosegue “gli ideali di OpenAI non sono credibili", l'azienda è "fondata da milionari sulla base della loro ideologia di Altruismo Efficace" e mentre si parla di realizzare "AI benefiche" finora questo tipo di tecnologia è stato realizzato sfruttando la manodopera a basso costo di lavoratori sottopagati, mentre la spinta a rendere i modelli linguistici di grandi dimensioni, come ChatGPT, sempre più grandi, crea una "gigantesca impronta ecologica" con implicazioni per "il nostro pianeta che sono tutt'altro che benefiche per l'umanità".
Non ho altro da aggiungere, vostro onore. A parte la postilla che nella lista di chi affronta questi temi vanno messe anche Kate Crawford, che sulla materialità dell’AI, oltre al libro Atlas of AI (pluricitato in questa newsletter), ha scritto vari articoli; e Timnit Gebru, particolarmente attenta al tema dello sfruttamento e dei rapporti di potere, razza, genere, classe (qui un suo talk in cui parla anche di Sana). E in generale chi lavora al Distributed AI Research Institute, fondato dalla stessa Gebru.
Le aziende in corsa
Ma lasciamo il dibattito etico e torniamo un secondo al business, e alla corsa all’AI. In attesa di capire se le voci sull’investimento da parte di Microsoft di altri 10 miliardi saranno o no confermate, c’è chi sottolinea comunque la nuova rivalità Google-Microsoft in questo campo. E chi, come Stratechery, fa un’analisi un po’ più puntuale (e parecchio tecnica) su come sono posizionate Amazon, Meta, Apple, Google, e Microsoft in questa accelerazione verso l’AI (riassuntino: Microsoft è posizionata bene, Google sarebbe posizionata bene ma si scontra con il dilemma dell’innovatore - in pratica un freno quando l’innovazione sembra danneggiare il tuo attuale modello di business; Meta sarà da capire come intreccerà questo col suo progetto del metaverso; per Amazon sarà importante AWS, la sua divisione cloud; Apple potrebbe scommettere sull’integrazione di modelli open nel suo modello di business, vedi alla voce StableDiffusion).
In quanto ai soldi che girano, nel 2022, gli investitori avrebbero immesso almeno 1,37 miliardi di dollari in aziende di AI generativa in 78 operazioni, quasi quanto hanno investito nei cinque anni precedenti messi insieme, secondo i dati di PitchBook, che traccia l'attività finanziaria del settore, riferisce il NYT.
Tutto ciò non ha sottratto però anche Microsoft e Google dall’ondata di licenziamenti che sta attraversando il settore tech. Il gigante di Redmond licenzierà 10mila persone, circa il 5 per cento del totale dei dipendenti. “La decisione di Microsoft segue quella di altre grandi società tecnologiche come Amazon e Meta” (Il Post). Pochi giorni dopo Google ha annunciato 12mila licenziamenti.
Altre risorse:
AUDIO - The AI Hype Cicle - podcast con Gary Marcus - The Prof Pod
AUDIO - “Hard Fork” - podcast con Kevin Roose e Casey Newton, puntata su Musk e l’AI generativa
APPROFONDIMENTO - Lo sfruttamento del lavoro dietro la AI - Noema (inglese, archivio)
RETE E LIBERTA’
Cosa è rimasto dell’eredità di Aaron Swartz, oggi
A dieci anni dalla sua tragica scomparsa, la battaglia del giovane attivista e programmatore per l’open access e la condivisione della conoscenza continua in altre forme. Dalle iniziative per ampliare l’accesso agli articoli scientifici alle piattaforme per proteggere l’anonimato delle fonti, la lezione di Swartz è ancora viva. Su Guerre di Rete ne scrive Laura Carrer.
UE, PIATTAFORME E INFORMAZIONE
Spyware, disinformazione e rischio censura: il dibattito in Europa per difendere il giornalismo
La Commissione Europea ha presentato una nuova proposta di legge sulla libertà dei media: quali sono i suoi punti più controversi?
Tra regolamenti e proposte di legge l'Ue vuole proteggere l'informazione ma non senza problemi. Ne scrive su Guerre di Rete Irene Doda
CRIPTOVALUTE
Tutti i legislatori che avevano preso soldi da FTX
Ben 196 membri del nuovo Congresso Usa - molti dei quali hanno prestato giuramento da poco - hanno ricevuto denaro da Sam Bankman-Fried o da altri dirigenti di FTX, l’exchange di criptovalute clamorosamente fallito con tanto di arresto per presunta truffa del suo fondatore, Bankman-Fried (vicenda che abbiamo in parte raccontato in questo articolo su Guerre di Rete). A scriverlo è CoinDesk, che aggiunge come tra i nomi ci siano anche i vertici di entrambe le Camere, tra cui il nuovo presidente della Camera dei Rappresentanti, il repubblicano Kevin McCarthy e il leader democratico della maggioranza del Senato Chuck Schumer.
CoinDesk ha contattato tutti i 196 legislatori per chiedere cosa avrebbero fatto con il denaro. La maggior parte dei politici che hanno risposto hanno detto di averli consegnati a enti di beneficenza. Altri hanno rivelato di aver avuto colloqui con il Dipartimento di Giustizia per accantonare il denaro fino a quando non potrà essere versato in un fondo per risarcire le vittime di FTX.
APPROFONDIMENTI
Quanto ci costano intercettazioni e trojan
Il nuovo listino sui costi di intercettazioni telefoniche e captatori informatici fissa un prezzo unico a livello nazionale. Ma c’è chi pensa che sia troppo basso. E non affronta il tema di quanto pagare i professionisti dell’intelligence - Wired Italia
L'ultima chat dei narcos
Per il traffico internazionale di droga, le mafie si affidano a servizi che offrono comunicazioni anti-intercettazione. Un'azienda preoccupa le polizie - Rosita Rijtano su La via libera
REPORT
Alla ricerca dei cyber talenti
Il 59% dei business leader e il 64% dei cyber leader ha indicato la capacità di reclutare e mantenere talenti come una sfida fondamentale nella gestione di quella che viene chiamata cyber resilienza. Inoltre, meno della metà degli intervistati ha dichiarato di avere oggi le persone e le competenze necessarie per rispondere agli attacchi informatici. I settori che hanno segnalato una carenza di persone e competenze critiche sono stati principalmente quelli delle infrastrutture critiche - tra cui le aziende energetiche - e il settore pubblico. “L'entità della sfida nelle infrastrutture critiche, dove spesso sono necessarie competenze specialistiche, è preoccupante”, scrive il Global Cybersecurity Outlook 2023 del World Economic Forum (report).
Ci siamo occupati del tema anche su Guerre di Rete.
Leggi: Cybersicurezza in Italia: perché non si trovano candidati?
→ DIFFONDI LA NEWSLETTER
Ti è piaciuta la newsletter? Inoltrala a chi potrebbe essere interessato! Promuovila sui social. O diventa un suo sostenitore facendo una donazione. La newsletter (che è fatta nel mio tempo libero) resta gratuita, indipendente, senza sponsor, mandanti o agende altrui, e si diffonde col passaparola dei suoi stessi utenti.
Non sei ancora iscritto? Iscriviti qua, è gratuita.
—> SOCIAL E PODCAST DI GUERRE DI RETE
Guerre di Rete ora ha anche un sito di notizie, una pagina Facebook, un profilo Twitter, Linkedin e Instagram. Seguiteli! I podcast della newsletter li trovate sulle principali piattaforme ma attualmente sono in pausa (Apple Podcasts; Spotify; Google Podcast; Anchor.fm)
Analisi approfondita ed interessante (come sempre)!
Aggiungo un dato: c'è un tema di violazione del copyright anche in relazione alla capacità di GPT3 di scrivere codice, perchè sembra sia stato addestrato su repository di Github senza tener conto del regime di licenza scelto dai creatori del codice: https://www.theverge.com/2022/11/8/23446821/microsoft-openai-github-copilot-class-action-lawsuit-ai-copyright-violation-training-data