Guerre di Rete - AI Act, l'Europarlamento tiene
Cosa prevede l'attuale formulazione della legge. Poi sorveglianza, TikTok e altro.
Guerre di Rete - una newsletter di notizie cyber
a cura di Carola Frediani
N.163 - 17 giugno 2023
In questo numero:
- Ringraziamenti
- AI Act
- La maledizione dei modelli di AI
- Sorveglianza biometrica
- TikTok e l’Europa
- Altro
Ringraziamenti
Ancora un grazie a tutti quelli che hanno partecipato al nostro crowdfunding, gli oltre 600 Editori di Rete che ci hanno fatto ampiamente superare l’obiettivo (volevamo raccogliere 15mila euro siamo arrivati a quasi 22mila). E che ci hanno mandato proposte e richieste di temi da trattare. Per farvi un primo sunto, l’AI e la cybersicurezza, declinate in vario modo, sono i due argomenti dominanti.
Chi deve ricevere le agende sappia che sono state spedite, per cui dovreste riceverle a breve, se non le avete già ricevute. La prima monografia che dovrà arrivare in anteprima ai donatori è in produzione. La prima “assemblea” sarà’ in autunno. Tra qualche giorno metteremo sul sito la lista degli Editori di Rete.
Ma per ora intanto grazie!
https://www.guerredirete.it/ (Qui il nostro editoriale sul sito, scritto ad aprile dopo una settimana dal lancio, appena raggiunto l’obiettivo minimo).
INTELLIGENZA ARTIFICIALE
AI Act, l’Europarlamento tiene
Il 14 giugno il Parlamento Ue ha approvato le modifiche alla bozza del regolamento noto come Artificial Intelligence Act o AI Act. Con 499 voti a favore, 28 contro e 93 astensioni, e una coalizione composta da Socialisti e Democratici, Democratici Cristiani del PPE, liberali di Renew e Verdi, l’approvazione del regolamento entra dunque nella sua fase finale, cioè nei successivi triloghi tra Parlamento, Consiglio e Commissione, per arrivare a un’approvazione definitiva prima delle elezioni europee del giugno 2024 (e un’entrata in vigore effettiva prevista attualmente per il 2026) (qui gli emendamenti approvati, qui la proposta di regolamento).
Ma il dato fondamentale è quale testo abbia ricevuto l’imprimatur degli europarlamentari. Che malgrado diverse pressioni (incluse quelle da Oltreoceano), le richieste in senso più sicuritario della Commissione e l’intervento negli ultimi giorni di membri del centrodestra del partito popolare europeo (PPE) che volevano fare concessioni sul riconoscimento facciale, ha tenuto il punto su una serie di questioni fondamentali.
No al riconoscimento facciale in tempo reale
Perché nella formulazione attuale restano vietati:
- i sistemi di identificazione biometrica remota "in tempo reale" in spazi accessibili al pubblico;
-i sistemi di identificazione biometrica a distanza "a posteriori", con l'unica eccezione delle forze dell'ordine per il perseguimento di reati gravi e solo previa autorizzazione giudiziaria;
- i sistemi di categorizzazione biometrica che utilizzano caratteristiche sensibili (ad esempio, sesso, razza, etnia, cittadinanza, religione, orientamento politico);
- i sistemi di polizia predittiva (basati su profili, ubicazione o comportamenti criminali passati);
- i sistemi di riconoscimento delle emozioni nelle forze dell'ordine, nella gestione delle frontiere, nei luoghi di lavoro e nelle istituzioni scolastiche;
- lo scraping non mirato di immagini facciali da Internet o da filmati di telecamere a circuito chiuso per creare database di riconoscimento facciale (in violazione dei diritti umani e del diritto alla privacy).
The Italian job
Non è invece passato il tentativo di alcuni europarlamentari del gruppo politico del PPE che volevano togliere il ban sul riconoscimento facciale per casi di lotta al crimine, al terrorismo e per ricerca di bambini scomparsi e, secondo il Guardian, la “ribellione” contro i precedenti accordi non avrebbe preso piede anche considerato che un certo numero di europarlamentari erano in Italia al funerale di Silvio Berlusconi.
Sta di fatto che la Commissione e diversi leader europei tenteranno di ridurre il divieto totale e l’esito di questi giorni non può darsi per scontato. Ma oggi chi ha voluto questa legge - a partire dai due correlatori, di cui uno, Brando Benifei, italiano - può cantare vittoria - anche se lo stesso Benifei, in un’intervista per un articolo sull’AI Act pubblicato su Guerre di Rete (vedi più sotto), riconosce che ci sarà battaglia. “Sarà un negoziato probabilmente difficile”, precisa. “Il Parlamento Europeo [sulle tematiche legate alla sicurezza] ha una visione diversa rispetto a quella che probabilmente avranno molti Governi”.
“Il tentativo del PPE di rompere l'accordo sul divieto di riconoscimento facciale è fallito - ha poi dichiarato Benifei nella conferenza stampa del 14 giugno, che ho seguito - I risultati di oggi danno una posizione forte al parlamento che non vuole recedere sul divieto di sorveglianza di massa”.
ChatGPT e l’AI generativa
Altra questione centrale, l’AI generativa (la carica di ChatGPT e gli altri). La posizione adottata è la seguente: i fornitori di modelli di base (foundation models, come GPT3 o GPT4, che stanno alla base di servizi come ChatGPT, ndr) devono valutare e mitigare i possibili rischi (per la salute, la sicurezza, i diritti fondamentali, l'ambiente, la democrazia e lo stato di diritto) e registrare i loro modelli nella banca dati dell'UE prima della loro immissione sul mercato. Inoltre devono rispettare i requisiti di trasparenza (rivelando che il contenuto è stato generato da una AI, e aiutando a distinguere contenuti deepfake da quelli reali) e dare garanzie contro la generazione di contenuti illegali. Dovranno infine essere disponibili al pubblico dei riepiloghi dettagliati dei dati protetti da copyright utilizzati per l'addestramento del modello.
“Prendiamo molto sul serio l'AI generativa e riteniamo che vi siano dei rischi intrinseci, e non solo nel modo in cui viene utilizzata, a partire dai dati usati per l'addestramento”, ha dichiarato sempre in conferenza stampa l’altro correlatore, il rumeno Dragos Tudorache.
Cosa significa in concreto per ChatGPT?
“ChatGPT, se la legislazione entrasse in vigore domani, dovrebbe essere trasparente sui dataset che ha utilizzato per l'addestramento e sui parametri”, ha continuato Tudorache. “Dovrebbe dimostrare che nello sviluppo ha considerato la liceità dei contenuti che produce, e dovrebbe rivelare il materiale protetto da copyright utilizzato, e documentarlo, essere trasparente su questo”.
Non solo: secondo Benifei, bisognerebbe considerare una implementazione dell’AI Act più veloce rispetto a quella attualmente preventivata, specie riguardo i sistemi di AI generativa.
In quanto alla capacità di applicare il regolamento da parte dell’Ue, Benifei cita la possibilità di richiedere informazioni alle aziende e, se insoddisfatti, di imporre il ritiro di una determinata applicazione dal mercato, o di arrivare a comminare multe fino al 7 per cento del fatturato.
Rimasti fuori i diritti dei migranti e la gestione frontiere
Quello che invece non è passato è il divieto di queste tecnologie per il controllo delle frontiere e dei migranti. Lo spiega bene Irene Doda in un articolo su Guerre di Rete (La legge sull’intelligenza artificiale in Europa è a una svolta) uscito il giorno prima dell’approvazione dell’AI Act. Su questo le Ong per i diritti digitali registrano una delusione. Dal pezzo di Irene:
““Il Parlamento europeo non è riuscito a proteggere i diritti dei migranti dalla sorveglianza discriminatoria. Gli eurodeputati non hanno incluso nell’elenco delle pratiche vietate l’uso dell’intelligenza artificiale per facilitare i respingimenti illegali o per profilare gli individui in modo discriminatorio. Senza questi divieti, il Parlamento europeo sta aprendo la strada all’utilizzo di un panopticon alle frontiere dell’UE”, si legge ancora nella dichiarazione di EDRi.
Il tema sarà anche probabilmente molto dibattuto in fase di negoziazioni interistituzionali, con l’organo co-legislativo (il Consiglio, composto dai ministri competenti degli Stati Membri) che premerà per introdurre delle eccezioni per quanto riguarda le forze di polizia e l’applicazione delle politiche migratorie”.
La tentazione sorveglianza resta nel mondo
L’AI Act arriva dunque a un primo importante giro di boa proprio mentre in Europa e altrove la tentazione e la volontà di usare AI e altre tecnologie per il controllo non sembra avere freni. Lo racconta bene Eleonora Zocca in un altro articolo recente di Guerre di Rete (intitolato Tentazione sorveglianza biometrica):
“Negli stessi giorni in cui l’AI Act veniva approvato dalle Commissioni europee, la Francia autorizzava l’uso di droni per la “cattura, registrazione e trasmissione di immagini” al fine di contrastare i passaggi irregolari al confine con l’Italia. Secondo la prefettura, quella dei droni è “la migliore soluzione” nonché il dispositivo “meno intrusivo”.
A utilizzarli nel Mediterraneo c’è anche Frontex, l’agenzia europea della guardia di frontiera e costiera, secondo cui la sorveglianza aerea è utile per salvare le persone in mezzo al mare e catturare i trafficanti. Un’indagine di Human Rights Watch e Border Forensics ha però dimostrato come Frontex abbia utilizzato i droni per individuare le barche dei migranti e segnalarle alla Guardia costiera libica.
Nel Regno Unito, invece, l’organizzazione Privacy International ha denunciato l’utilizzo di braccialetti elettronici con rilevatore GPS che i migranti devono indossare 24 ore su 24, 7 giorni su 7. La rilevazione costante della localizzazione diventa per le autorità competenti uno strumento per decidere, ad esempio, se concedere o meno il diritto di asilo o un permesso di soggiorno”
Vestager sull’AI Act: più urgente il rischio di discriminazione di quello esistenziale
A tutto ciò va aggiunta la dichiarazione della commissaria europea per la concorrenza, Margrethe Vestager. In un'intervista alla BBC, Vestager ha detto di ritenere che il potenziale dell'AI di amplificare i pregiudizi o le discriminazioni, che possono essere contenuti nelle vaste quantità di dati provenienti da Internet e utilizzati per addestrare modelli e strumenti, sia una preoccupazione più pressante di possibili “rischi esistenziali”. E per andare nel concreto ha aggiunto: “Se si tratta di una banca che la usa per decidere se si possa ottenere un mutuo o meno, o se si tratta dei servizi sociali del vostro comune, allora volete essere sicuri che non sarete discriminati a causa del vostro sesso, del vostro colore o del vostro codice postale".
Se non sapete cosa è il dibattito sui rischi esistenziali trovate tutto nelle ultime 3,4 o 5 newsletter.
GOOGLE E EU
Sospeso il lancio di Bard in Europa
Martedì scorso l'Autorità irlandese per la protezione dei dati ha dichiarato di aver sospeso il previsto lancio nell'UE del chatbot AI Bard da parte di Google (che a Dublino ha la sua sede centrale europea). Ha dichiarato di essere stata informata dal colosso americano che il suo chatbot sarebbe stato introdotto nell'UE questa settimana, ma di non aver ancora ricevuto dettagli o informazioni che dimostrino come l'azienda abbia identificato e minimizzato i rischi per la protezione dei dati per i potenziali utenti. E di aver avanzato ulteriori richieste di informazioni sulla protezione dei dati, scrive Politico.
UK
Apriteci l’AI, siamo inglesi
Google DeepMind, OpenAI e Anthropic hanno accettato di aprire i loro modelli di AI al governo del Regno Unito per scopi di ricerca e sicurezza, ha annunciato lunedì il primo ministro Rishi Sunak alla London Tech Week. L'accesso prioritario sarà concesso per "contribuire a sviluppare delle valutazioni migliori e aiutarci a comprendere meglio le opportunità e i rischi di questi sistemi", ha dichiarato Sunak. Una Foundation Model Taskforce sarà inoltre promotrice della ricerca sulla sicurezza nell'AI, sostenuta da un finanziamento di 100 milioni di sterline, riferisce Politico.
AI E RICERCA
Model collapse, o la vendetta dell’umano
A distanza di alcuni mesi dall’esplosione dell’AI generativa, anche a livello di pubblico, è sempre più frequente la domanda: cosa succede quando i contenuti generati dalle AI proliferano su Internet e i modelli iniziano ad addestrarsi su questi dati, invece che su contenuti generati principalmente da umani?
Prova a rispondere un paper pubblicato nell’archivio open access ArXiv, che ha tra gli autori il professore di security engineering all'università di Cambridge e l'università di Edimburgo Ross Anderson (per chi non lo conoscesse, un nome della sicurezza informatica, autore di un testo fondamentale come Security Engineering). E la risposta che ne esce, in sintesi e poco tecnica, è un po’ distopica. Ma preferisco lasciare le parole al professor Anderson che spiega efficacemente il senso del paper nel suo blog:
“Fino ad oggi, la maggior parte del testo online è stato scritto da esseri umani. Ma questo testo è stato usato per addestrare GPT3(.5) e GPT4, che sono sbucati come assistenti di scrittura nei nostri strumenti di editing. Quindi sempre più testo sarà scritto da modelli linguistici di grandi dimensioni (LLM). Dove porta tutto questo? Cosa succederà a GPT-{n} quando gli LLM contribuiranno alla maggior parte del linguaggio trovato online?
E non si tratta solo di testo. Se si addestra un modello musicale su Mozart, ci si può aspettare un risultato che assomiglia un po' a Mozart ma senza la sua scintilla - chiamiamolo "Salieri". E se Salieri addestra la generazione successiva, e così via, come suonerà la quinta o la sesta generazione?”.
In pratica, dice Anderson, l’utilizzo di contenuti generati da altri modelli di AI per addestrare nuovi modelli di AI provoca difetti irreversibili che si accumulano, e “nel giro di poche generazioni, il testo diventa spazzatura”.
Tutto questo viene chiamato dagli autori del paper model collapse. Più tecnicamente, dice il paper, “un processo degenerativo in base al quale, con il tempo, i modelli dimenticano la vera distribuzione dei dati sottostanti... questo processo è inevitabile, anche nei casi in cui esistono condizioni quasi ideali per l'apprendimento a lungo termine".
Lo spiega anche un altro autore, Ilia Shumailov, a VentureBeat. “In sostanza, il collasso del modello si verifica quando i dati generati dai modelli AI finiscono per contaminare il set di addestramento dei modelli successivi. I dati originali generati dagli esseri umani rappresentano il mondo in modo più equo, cioè contengono anche dati improbabili. I modelli generativi, invece, tendono a riprodurre eccessivamente (overfit, il termine tecnico, ndr) i dati più popolari e spesso fraintendono (misrepresent) i dati meno popolari".
Gli autori non forniscono soluzioni nette a questo problema, salvo sottolineare che renderà ancora più di valore i contenuti generati da umani.
SOCIAL MEDIA E POLITICA
TikTok audit e data center per l’Ue
Dopo che l’UE ha vietato TikTok sui dispositivi dei suoi dipendenti, e gli USA sono sempre più diffidenti (col Montana che arriva a “bannare” TikTok anche per gli utenti), il social cerca di convincere l’Europa a suon di audit e data center.
“Infatti a partire da quest’anno – e fino a tutto il 2024 – i dati di oltre 150 milioni di utenti europei e britannici saranno trasferiti in tre data center che saranno costruiti nel Vecchio Continente e gestiti da service provider di terze parti: due a Dublino e uno nella regione di Hamar in Norvegia, che sarà alimentato da energia rinnovabile al 100%, prodotta da impianti idroelettrici locali. Al termine della loro costruzione, i data center saranno così in grado di conservare i dati degli oltre 150 milioni di utenti europei e britannici – che per quel momento saranno cresciuti ulteriormente – con un investimento annuale di 1,2 miliardi di euro. Uno sforzo rilevante nella gestione dei dati da parte di TikTok, anche se lo stesso Bertram ha affermato che "nella pratica è estremamente difficile" conservare i dati degli utenti europei interamente nel continente”.
Ne scrive Chiara Crescenzi in Come TikTok prova a convincere l’Europa su Guerre di Rete.
CYBER
La Nato inizia la sua caccia alle startup più innovative
Al via il primo bando di Diana, l'acceleratore di imprese innovative dell'Alleanza atlantica. Si cercano progetti in campo energetico, di sicurezza informatica e sorveglianza. Ai vincitori un primo ticket da 100mila euro, scrive Wired Italia
5G
L'Europa si è accorta che il blocco della Cina nel 5G è tanto fumo e niente arrosto
La Commissione sbatte fuori Huawei e Zte dalle sue forniture. E invita gli Stati dell'Unione a fare lo stesso, sulla base di una manovra di sicurezza avviata tre anni fa. E rimasta in gran parte lettera morta. Luca Zorloni su Wired Italia
ITALIA
È stata presentata una interrogazione parlamentare su Giove, il sistema predittivo della polizia
Sarebbe in grado di prevedere crimini futuri, ma alcuni parlamentari chiedono al ministero dell'Interno più informazioni su privacy e algoritmo utilizzati, scrive Laura Carrer su Wired Italia.
EU
Spezzare Google, a cosa porterà l’ultima battaglia dell’antitrust
La Commissione UE ha comunicato come al gigante tecnologico potrebbe essere ingiunto di cedere parte della suo ramo destinato al digital advertising per affrontare i problemi di concorrenza. Oltre ovviamente al rischio di sanzioni fino al 10% del fatturato annuo dell’azienda, scrive Agenda Digitale
APPROFONDIMENTI
REDDIT
Cosa sta succedendo a Reddit (The Verge, inglese)
GIORNALISMO E SOCIAL
Il Digital News Report 2023 sullo stato del giornalismo digitale - Reuters Institute
→ DIFFONDI LA NEWSLETTER
Ti è piaciuta la newsletter? Inoltrala a chi potrebbe essere interessato! Promuovila sui social. La newsletter (che è fatta nel mio tempo libero) resta gratuita, indipendente, senza sponsor, mandanti o agende altrui, e si diffonde col passaparola dei suoi stessi utenti.
Non sei ancora iscritto? Iscriviti qua, è gratuita.
—> INFO SU GUERRE DI RETE
Guerre di Rete è un progetto di informazione sul punto di convergenza e di scontro tra cybersicurezza, sorveglianza, privacy, censura online, intelligenza artificiale, diritti umani, politica e lavoro. Nato nel 2018 come newsletter settimanale, oggi conta oltre 12.000 iscritti e da marzo 2022 ha aggiunto il sito GuerreDiRete.it.
Nell’editoriale di lancio del sito avevamo scritto dell’urgenza di fare informazione su questi temi. E di farla in una maniera specifica: approfondita e di qualità, precisa tecnicamente ma comprensibile a tutti, svincolata dal ciclo delle notizie a tamburo battente, capace di connettere i puntini, di muoversi su tempi, temi, formati non scontati.
Il progetto è del tutto no profit, completamente avulso da logiche commerciali e di profitto, e costruito sul volontariato del gruppo organizzatore (qui chi siamo). Non ha sponsor né pubblicità, né aziende o lobbies alle spalle.
Ha anche una pagina Facebook, un profilo Twitter, Linkedin e Instagram. Seguiteli! I podcast della newsletter li trovate sulle principali piattaforme ma attualmente sono in pausa (Apple Podcasts; Spotify; Google Podcast; Anchor.fm)
La questione sollevata nell'analisi di Anderson è abbastanza palese e risulta quasi incredibile che non si sia intercettata questa tematica da tempo. In realtà, in ambito scientifico ed accademico sul ML questi sono problemi ben noti, nonché una forma differente degli effetti (imprescindibili) della Teoria dell'informazione (fra cui, la perdita intrinseca della quantità e qualità del segnale oggetto di "trasmissione" o nel caso del ML ed AI generativa, di elaborazione di variazioni sulla base dei dataset disponibili) che rimanda a leggi fondamentali della termodinamica, come la teoria dell'entropia, dei cicli chiusi senza scambio energetico etc. Teorie che oltretutto trovano palese riscontro ed evidenza anche in biologia, nel contesto del patrimonio genetico e suo scambio, arricchimento ed impoverimento. Difatti è noto che un ecosistema biologico eccessivamente chiuso, in cui pochi individui scambino patrimonio genetico, porta dopo poche generazioni (epoch in ML) ad un impoverimento irreversible con l'insorgere in biologia di gravi alterazioni e malattie (es. tipico nel passato nell'aristocrazia, dove i matrimoni combinati avvenivano anche fra semplici cugini), mentre sistemi chiusi ma non eccessivamente, portano alla creazione di tratti genetici e razziali specifici, che sono una forma di overfitting nel ML (basti vedere le caratteristiche medie es. di altezza o i tratti somatici delle diverse popolazioni che per secoli di evoluzioni sono state chiuse o scarsamente interessate da scambi genetici radicali, contro invece popolazioni che sono nate dalla mescolanza iniziale di più caratteristiche razziali come es. gli USA in cui i tratti somatici continentali sono fortemente mescolati). Quanto quindi sta venendo qui "scoperto" e qualcosa di cui una formazione multidisciplinare ed una buona conoscenza delle leggi fondentali dell'informazione, termodinamica e biologia rendono abbastanza palese. L'importante comunque è che se ne parli non solo in circoli chiusi troppo accademici e che si comprenda i rischi e le limitazioni nel caso in cui, internet (un sistema chiuso, per quanto enorme) divenga un coacervo di AI che producono contenuti basati sui precedenti.. l'insorgere di "malattie genetiche" in forma di contenuti malgenerati, come una forma artificiale di Emofilia (cit. https://it.m.wikipedia.org/wiki/Emofilia_nelle_famiglie_reali_europee)
L'analisi di Anderson è molto interessante (e in un certo senso fa il paio con la richiesta di AI Act di indicare il dataset di addestramento per gli LLM). Mi chiedo solo due cose, però: se l'overfitting non porterà semplicemente l'equivalente di un copincolla continuo (cosa non molto diversa nella pratica da quello che succede ora) e come si riuscirà effettivamente a distinguere i testi prodotti da esseri umani.