La questione sollevata nell'analisi di Anderson è abbastanza palese e risulta quasi incredibile che non si sia intercettata questa tematica da tempo. In realtà, in ambito scientifico ed accademico sul ML questi sono problemi ben noti, nonché una forma differente degli effetti (imprescindibili) della Teoria dell'informazione (fra cui, la perdita intrinseca della quantità e qualità del segnale oggetto di "trasmissione" o nel caso del ML ed AI generativa, di elaborazione di variazioni sulla base dei dataset disponibili) che rimanda a leggi fondamentali della termodinamica, come la teoria dell'entropia, dei cicli chiusi senza scambio energetico etc. Teorie che oltretutto trovano palese riscontro ed evidenza anche in biologia, nel contesto del patrimonio genetico e suo scambio, arricchimento ed impoverimento. Difatti è noto che un ecosistema biologico eccessivamente chiuso, in cui pochi individui scambino patrimonio genetico, porta dopo poche generazioni (epoch in ML) ad un impoverimento irreversible con l'insorgere in biologia di gravi alterazioni e malattie (es. tipico nel passato nell'aristocrazia, dove i matrimoni combinati avvenivano anche fra semplici cugini), mentre sistemi chiusi ma non eccessivamente, portano alla creazione di tratti genetici e razziali specifici, che sono una forma di overfitting nel ML (basti vedere le caratteristiche medie es. di altezza o i tratti somatici delle diverse popolazioni che per secoli di evoluzioni sono state chiuse o scarsamente interessate da scambi genetici radicali, contro invece popolazioni che sono nate dalla mescolanza iniziale di più caratteristiche razziali come es. gli USA in cui i tratti somatici continentali sono fortemente mescolati). Quanto quindi sta venendo qui "scoperto" e qualcosa di cui una formazione multidisciplinare ed una buona conoscenza delle leggi fondentali dell'informazione, termodinamica e biologia rendono abbastanza palese. L'importante comunque è che se ne parli non solo in circoli chiusi troppo accademici e che si comprenda i rischi e le limitazioni nel caso in cui, internet (un sistema chiuso, per quanto enorme) divenga un coacervo di AI che producono contenuti basati sui precedenti.. l'insorgere di "malattie genetiche" in forma di contenuti malgenerati, come una forma artificiale di Emofilia (cit. https://it.m.wikipedia.org/wiki/Emofilia_nelle_famiglie_reali_europee)
L'analisi di Anderson è molto interessante (e in un certo senso fa il paio con la richiesta di AI Act di indicare il dataset di addestramento per gli LLM). Mi chiedo solo due cose, però: se l'overfitting non porterà semplicemente l'equivalente di un copincolla continuo (cosa non molto diversa nella pratica da quello che succede ora) e come si riuscirà effettivamente a distinguere i testi prodotti da esseri umani.
La questione sollevata nell'analisi di Anderson è abbastanza palese e risulta quasi incredibile che non si sia intercettata questa tematica da tempo. In realtà, in ambito scientifico ed accademico sul ML questi sono problemi ben noti, nonché una forma differente degli effetti (imprescindibili) della Teoria dell'informazione (fra cui, la perdita intrinseca della quantità e qualità del segnale oggetto di "trasmissione" o nel caso del ML ed AI generativa, di elaborazione di variazioni sulla base dei dataset disponibili) che rimanda a leggi fondamentali della termodinamica, come la teoria dell'entropia, dei cicli chiusi senza scambio energetico etc. Teorie che oltretutto trovano palese riscontro ed evidenza anche in biologia, nel contesto del patrimonio genetico e suo scambio, arricchimento ed impoverimento. Difatti è noto che un ecosistema biologico eccessivamente chiuso, in cui pochi individui scambino patrimonio genetico, porta dopo poche generazioni (epoch in ML) ad un impoverimento irreversible con l'insorgere in biologia di gravi alterazioni e malattie (es. tipico nel passato nell'aristocrazia, dove i matrimoni combinati avvenivano anche fra semplici cugini), mentre sistemi chiusi ma non eccessivamente, portano alla creazione di tratti genetici e razziali specifici, che sono una forma di overfitting nel ML (basti vedere le caratteristiche medie es. di altezza o i tratti somatici delle diverse popolazioni che per secoli di evoluzioni sono state chiuse o scarsamente interessate da scambi genetici radicali, contro invece popolazioni che sono nate dalla mescolanza iniziale di più caratteristiche razziali come es. gli USA in cui i tratti somatici continentali sono fortemente mescolati). Quanto quindi sta venendo qui "scoperto" e qualcosa di cui una formazione multidisciplinare ed una buona conoscenza delle leggi fondentali dell'informazione, termodinamica e biologia rendono abbastanza palese. L'importante comunque è che se ne parli non solo in circoli chiusi troppo accademici e che si comprenda i rischi e le limitazioni nel caso in cui, internet (un sistema chiuso, per quanto enorme) divenga un coacervo di AI che producono contenuti basati sui precedenti.. l'insorgere di "malattie genetiche" in forma di contenuti malgenerati, come una forma artificiale di Emofilia (cit. https://it.m.wikipedia.org/wiki/Emofilia_nelle_famiglie_reali_europee)
Anche io mi sarei aspettata di trovare più spesso riferimenti a questo problema. Grazie del contributo
Grazie a te per l'intetessantissimo, fra gli altri, articolo proposto. Newsletter molto interessante, grazie 🙏
L'analisi di Anderson è molto interessante (e in un certo senso fa il paio con la richiesta di AI Act di indicare il dataset di addestramento per gli LLM). Mi chiedo solo due cose, però: se l'overfitting non porterà semplicemente l'equivalente di un copincolla continuo (cosa non molto diversa nella pratica da quello che succede ora) e come si riuscirà effettivamente a distinguere i testi prodotti da esseri umani.
Già tanto più che la questione di identificare testi generati da AI è proprio nell'AI Act