logo btfp Bollettino telematico di filosofia politica

Online Journal of Political Philosophy

Appendice A. Stringhe statisticamente probabili: che cosa fanno davvero i Large Language Model e perché importa saperlo

Indice

Mistificazione

Molti parlano di Large Language Model 85 come se fossero "intelligenze" artificiali che conversano e danno risposte in grado di descrivere il mondo. Questa narrazione concorda con l'interesse dei monopoli tecnologici 86 che hanno i soldi, la capacità e i dati necessari a produrre tali sistemi, nonché la forza di guidarne lo sviluppo, l'uso, la propaganda e perfino la rappresentazione accademica. 87 In questo modo si creano ulteriori concentrazioni di potere e si amplificano gli effetti tossici dei media sociali proprietari, quali dipendenza, disinformazione, censura, sfruttamento di lavoratori e clienti, insicurezza e degrado della qualità dei servizi e delle capacità cognitive umane.

Si dirà: molte discipline scientifiche e tecniche risultano opache ai profani, senza per questo venir criticate per non essere trasparenti ai più. A nessuno - però - viene fatto credere che una lavatrice, che è una macchina per lavare i panni il cui funzionamento è comprensibile appieno solo da ingegneri e tecnici, sia intelligente come una lavandaia e possa chiamarsi "lavandaia artificiale". 88 Allo stesso modo, un output testuale simile a uno scritto umano non prova affatto l'intelligenza del programma di computer che l'ha emesso, e non solo perché si tratta di una elaborazione statistica basata su dati di produzione umana. Per concludere che il prodotto qualifichi il processo di cui è esito bisogna credere che fra prodotto e processo ci sia un nesso biunivoco. Meno astrattamente, qualora ragionassimo così dovremmo concludere che se la roccia dell'elefante è esito dell'erosione naturale, allora l'erosione è un'artista al pari di Michelangelo.

Una simile fallacia affligge anche la fede nella valutazione bibliometrica della ricerca: se ci sono stati processi che hanno condotto alcuni articoli che ai più sembrano scientificamente validi a essere molto citati, allora l'essere molto citati individua la validità scientifica, così come l'avere una forma che noi pare di elefante individua l'arte, o output composti da stringhe di testo statisticamente probabili che noi interpretiamo come verosimili individuano l'intelligenza. Perfino alcuni professori universitari credono, o trovano comodo credere, a queste fallacie, che deteriorano la scienza e mantengono i più in condizioni di minorità: fare uso pubblico della ragione su questi argomenti è dunque doveroso, ancorché poco remunerativo. 89

Astrazione

Alla mistificazione propagandistica si aggiunge un aspetto strutturale del modo in cui il software è progettato: l'astrazione, definita come "un meccanismo che nasconde i dettagli di qualcosa dietro una rappresentazione più semplice. Per esempio [...] le funzioni nei programmi per computer sono astrazioni di ciò che calcolano."

1. Per gli studiosi di filosofia, in generale, astrarre significa enucleare un concetto, separandolo dalla molteplicità di ciò con cui è in rapporto. Lo scopo delle astrazioni filosofiche è cognitivo: Kant, per esempio, isola la pubblicità come forma del diritto pubblico per comprendere se un progetto politico è compatibile con una situazione in cui tutti sono partecipi del proprio diritto 90 . Ma astrarre - strappar via - la materia, cioè le molteplici norme come studiate dai giuristi, non ha lo scopo di tenerla nascosta, bensì quello di mettere in luce la struttura del diritto pubblico. L'utente di questa struttura è un soggetto morale, e quindi capace di autonomia, che valuta un suo progetto politico. Per esempio: materialmente, un politico può trovare comodo il progetto di entrare in guerra sulla base di un patto segreto sottratto alle critiche dei cittadini. Ma se fa astrazione dall'occasione specifica, si renderà conto che un progetto del genere è strutturalmente incompatibile con il diritto pubblico, proprio perché, essendo segreto, nega la partecipazione dei cittadini su una questione che li riguarda.

L'astrazione filosofica, inoltre, può essere in ogni momento contestata. Basta leggere un qualsiasi dialogo platonico per rendersene conto: un interlocutore tenta di produrre una definizione di un termine e l'altro contesta l'astrazione proposta, mostrando che è o troppo ampia, o riduttiva, o incoerente.

Le astrazioni dell'informatica invece, cristallizzando i procedimenti (e le statistiche) in automazione, possono essere impiegate per far fare senza sapere e senza far sapere. Chi usa, per esempio, uno smartphone non ha bisogno di conoscere il codice del programma che ha selezionato, né il codice e il funzionamento del sistema operativo, né l'elettronica e la fisica della macchina che ha fra le mani: l'interfaccia grafica con le sue icone e i suoi pulsanti astrae - e nasconde - questa complessità. L'utente può così essere governato da un sistema cibernetico senza rendersi conto che i comandi apparentemente sotto il suo controllo sono input in sistemi opachi al servizio di interessi altrui.

Sotto il velo: che cosa fa davvero ChatGPT

Jon Stokes ha composto un breve testo 91 per illustrare come funziona un chatbot molto noto che viene spacciato, anche a scuola, come un aiuto a "ottenere risposte, trovare ispirazione ed essere più produttivi". Il suo contributo, studiato per essere comprensibile a lettori non specialisti, può aiutare a ricondurre l'astrazione da informatica a filosofica.

Definizione

Il cuore di ChatGPT è un modello linguistico di grandi dimensioni (Large Language Model o LLM) che appartiene alla famiglia dei modelli di apprendimento automatico generativo.

Un modello generativo è una funzione che può prendere come valore d'ingresso (input) una collezione strutturata di simboli e produrre come valore d'uscita (output) una collezione strutturata di simboli correlata.

Ecco qualche esempio di collezioni strutturate di simboli:

  • le lettere in una parola

  • le parole in una frase

  • i pixel in un'immagine

  • i fotogrammi in un video

Queste collezioni sono strutturate in quanto hanno un'organizzazione che le distingue l'una dall'altra. "Cane" non è "acne" perché le medesime lettere sono poste in ordine diverso: la differenza è la struttura.

Non è sempre indispensabile un calcolatore per trasformare una collezione strutturata di simboli in un'altra correlata: lo sanno fare anche i bambini. Lo faceva anche ELIZA, un programma per computer del secolo scorso in grado di simulare una conversazione con uno psicoterapeuta rogersiano tramite regole e tabelle di ricerca.

Relazioni

Nozioni preliminari: deterministico e stocastico

  1. Un processo è deterministico quando, dato un valore in entrata, produrrà sempre il medesimo valore in uscita.

  2. Un processo è stocastico quando, dato un valore in entrata, produrrà valori in uscita diversi, dei quali alcuni più probabili e altri meno.

Per esempio: un distributore automatico di gomme da masticare funziona in modo deterministico in quanto, dopo l'inserimento di una moneta, fa uscire una gomma; e funziona in modo stocastico perché il colore della gomma è casuale ma con gradi diversi di probabilità a seconda della proporzione di gomme di un colore o dell'altro in esso contenute.

Relazioni semplici e complesse

Le collezioni di simboli possono essere correlate in modi diversi:

  1. La relazione fra {gatto} e {gafattofo} (cioè "gatto" in farfallino) si descrive con pochissime regole

  2. {gatto} e {ratto} hanno molte relazioni possibili, a seconda del livello di astrazione, cioè degli aspetti selezionati per stabilire il rapporto: come collezioni ordinate o sequenze di simboli, sono formate da 4 simboli; come sequenze di quattro simboli, sono entrambi parole; come parole, si riferiscono a organismi biologici; come organismi, sono mammiferi - e così via.

  3. se metto in relazione {il gatto è vivo} con {il gatto è morto}, entrano in gioco i concetti legati alla vita e alla morte, il gatto di Schrödinger e certe canzoni e espressioni idiomatiche italiane.

  4. E che dire della relazione {il gatto è immaturo} rispetto a  {il gatto è maturo}? Se parliamo di gatti, la maturità indica l'età, mentre se parlassimo di umani potrebbe più probabilmente essere una qualità del carattere.

La progressione di questi esempi mostra che:

  1. quando le relazioni, come nel caso della traduzione in farfallino, sono semplici e seguono regole deterministiche, non abbiamo bisogno di grandi quantità di memoria e potenza di calcolo per trasformare una collezione strutturata di simboli in un'altra correlata;

  2. quando le relazioni tra collezioni di simboli sono complesse e stocastiche la quantità di memoria e potenza di calcolo per trasformare una collezione strutturata di simboli in un'altra aumenta considerevolmente.

Distribuzioni di probabilità

Il comportamento degli elettroni che ruotano attorno a un nucleo atomico non è interamente spiegabile se li rappresentiamo in orbite determinate, come pianetini o corpuscoli: dobbiamo anche trattarli come onde che si distribuiscono nello spazio intorno al nucleo secondo una funzione matematica detta funzione d'onda. La funzione d'onda produce densità di probabilità che rispondono alla domanda: quando è probabile trovare l'elettrone in una certa porzione dello spazio orbitale?

L'illustrazione a fianco rappresenta la funzione d'onda dell'idrogeno a diversi stati di energia: la distribuzione di probabilità viene resa graficamente in modo che più il colore della regioni dell'orbitale è brillante, più è probabile trovarvi l'elettrone dell'atomo in oggetto. 92

Analogamente, in un modello come ChatGPT ogni possibile testo che esso può generare è rappresentabile come un punto in una distribuzione di probabilità.

La generazione di testi probabili

Quando un utente offre a ChatGPT come input una collezione di parole come {Dimmi chi ha scritto la Divina Commedia} riceve come output un singolo punto di una distribuzione di probabilità. L'output più probabile, data la distribuzione statistica dei termini nel corpo pubblico dei testi italiani sarà {Dante Alighieri ha scritto la Divina Commedia}. Ma nello spazio latente della probabilità ci sarà anche {Topolino ha scritto la Divina Commedia} o addirittura {ph'nglui mglw'nafh Cthulhu R'lyeh wgah'nagl fhtagn}.

Il programma per computer che genera stringhe probabili non "sa" né "comunica" nulla: semplicemente, nello spazio di tutte le possibili collezioni di simboli ci sono regioni, nelle distribuzioni di probabilità del modello, che contengono collezioni di simboli interpretate dagli esseri umani ricevendo il significato di "Dante ha scritto la Divina Commedia" o "Topolino ha scritto la Divina Commedia". In altri termini: il programma per computer smerciato come ChatGPT non "chiacchiera" affatto: è solo un simulatore di linguaggio umano su base statistica, il quale, sulla base del nostro input, offre come output un singolo punto di una distribuzione di probabilità la cui forma è dovuta a un costoso processo di "addestramento" o di elaborazione, dai simboli dati, di distribuzioni di probabilità statistica. 93

"Allucinazioni"

Quando un modello linguistico di grandi dimensioni o LLM secerne una combinazione di simboli che, nell'interpretazione dell'osservatore, non formano affermazioni veridiche pur suonando plausibili, si dice che ha una "allucinazione".

Il termine "allucinazione" è allucinante, perché presuppone che un programma per computer sia una mente affetta da una patologia, quando invece abbiamo a che fare con un programma per computer a cui viene fatta compiere una selezione da una distribuzione di probabilità. Questa distribuzione riceve forma da:

  1. "addestramento" (training) tramite dati di "alta qualità" sulla base dei quali costruire la distribuzione di probabilità del modello. I "dati" sono "di alta qualità" quando sono collezioni di simboli che noi, come osservatori, interpretiamo come dotati di significato e connettiamo a stati di fatto veri.

  2. "messa a punto" (fine-tuning): se l'esame del modello mostra spazi di output possibili che "noi" preferiremmo non ricevere, lo si mette a punto con dati di addestramento più mirati e accuratamente trattati.

  3. apprendimento rinforzato con feedback umano (RLHF): esseri umani che assegnano "ricompense" o pesi per plasmare lo spazio di probabilità in modo che gli output risultino, a loro parere, verosimili-

"Noi", o le intelligenze occulte

Riferirsi con espressioni impersonali, o con un "noi" indeterminato, a decisioni prese da qualcuno, è un espediente 94 efficace per celare responsabilità e poteri in effetti personali. Qualcuno seleziona e prepara i dati, li mette a punto e rafforza l'"addestramento" con feedback, di solito per ordine e nell'interesse di chi smercia il prodotto finale. ChatGPT, però, è presentato come "un'intelligenza" quasi che vivesse di vita propria. L'utente, così, è indotto a trattare gli output del programma come risposte intelligenti riferite al mondo e non punti entro uno spazio di probabilità, e a credere che verità e significato stiano nell'output stesso invece che nella sua propria interpretazione e comprensione.

Il doppio occultamento dell'intelligenza, sia dalla parte del fornitore e a suo vantaggio, sia dalla parte dell'utente e a suo svantaggio, è frutto della mitologia della proprietà "intellettuale", che ha abituato a dare per scontato che l'intelligenza possa risiedere nella lettera morta - affermazione, questa, falsa perfino quando la lettera morta è stata composta da un essere umano assente e non estrapolata da un programma per computer.

Un'illusione di dialogo

Finestra di contesto (fonte)

I "simboli" di cui fa uso il modello sono pezzetti di testo detti token, che possono essere parole complete, pezzi di parole, punteggiatura o altro.

Quando l'utente crede di avviare una conversazione con un LLM inserendo un testo di input (prompt) ha l'impressione di dialogare con un'intelligenza che "ricorda" tutto quanto è stato detto in precedenza. Il modello, però, può avere come input solo un numero finito di token, che dimensiona la sua finestra di contesto. La finestra di contesto ospita un unico input che via via viene accresciuto con gli output di ogni nuovo interscambio. E proprio il suo accrescimento consente al modello di selezionare risposte sempre più probabili.

Una volta raggiunto il limite della capienza della finestra di contesto, però, essa "scivolerà" in avanti, tagliando i token immessi per primi per accoglierne di nuovi. 95 Ne seguirà che gli scambi meno recenti, scivolando via, non faranno più parte dell'input: chi è indotto a personificare il chatbot avrà l'impressione di non parlare con un allucinato bensì con un demente che dimentica costantemente quanto detto all'inizio del dialogo. E però, sebbene la demenza sia, come l'allucinazione, un fenomeno patologico della mente, ai venditori di "intelligenza" artificiale non è parso opportuno impiegarla come metafora.

Programmi di plagio?

Nei regimi di valutazione amministrativa della ricerca basati sulla quantità, per i quali importa che si scriva e non che cosa si scriva, i generatori di stringhe probabili hanno molto successo. Che la scienza sia stata "inquinata" dai grandi modelli linguistici (LLM) sia negli oggetti di studio, sia nei testi che li descrivono è una narrazione consolatoria. Infatti, l'uso di quantificatori vicari (proxy) per valutare la ricerca senza conoscerla ha reso attraenti i simulacri di scienza: i simulacri di discorso ne sono solo il degno coronamento .

Le riviste che desiderano presentarsi come meritevoli di lettura danno indicazioni per discriminare gli usi accettabili e inaccettabili dei grandi modelli linguistici (LLM). Ammesso e non concesso che le riviste siano sedi di marchiatura scientifica, la cultura della proprietà intellettuale rende difficile produrre linee guida coerenti.

Ethics, per esempio, dopo aver riconosciuto che i programmi per computer non possono essere autori o coautori di articoli e che chi ne incolla gli output deve assumersi la responsabilità di quanto ha copiato, avendogli attribuito un senso, aggiunge che:

Authors must never take credit for work that’s not their own. [a] Taking sentences of text from a generative AI tool and presenting them as your own words is plagiarism — at least, insofar as we take plagiarism to be a form of intellectual dishonesty in which one takes credit for work that’s not one’s own. Using generative AI to come up with a list of objections to a thesis or argument and presenting them as your own is also plagiarism. Consequently, authors who use text, images, or other content generated by an AI in their submission must be transparent about this, disclosing which tools were used and how. [b] In cases where an original human source cannot be identified, authors should, then, include something like the following note: “I first became aware of this objection through the use of ChatGPT, OpenAI, April 16, 2025, https://chat.openai.com/chat.

It’s important not only that authors avoid taking credit for work that is not their own but also that they give credit where credit is due. [c]The problem with merely citing an AI tool — say, as the source of an example or objection — is that the AI tool may not be the original source. The original source may instead be an author whose work was used to train that AI tool. Thus, [d] attributing some example or objection to ChatGPT could be just as problematic as attributing an objection to your colleague when all they did was tell you about some objection that Rawls raised. Thus, authors may need to track down the original source of an example or objection generated by an AI tool and cite it. [lettere e corsivi aggiunti]

Gli output dei grandi modelli linguistici non sono stati detti né dimostrati da nessuno: citarli significa citare tesi non referenziate [c] - cosa che non si dovrebbe fare in un articolo scientifico. Un generatore di testi probabili, non sapendo rispondere a nulla, non è neppure in grado di rispondere alle domande "chi l'ha detto?" e "come l'ha dimostrato".

E però si aggiunge che chi incolla un output di ChatGPT commette un plagio [a], si chiede di indicarlo come fonte [b] e addirittura lo si paragona al collega che suggerisce una citazione pertinente [d]. La redazione di Ethics, dopo aver negato che ChatGPT sia un autore, lo personifica e lo rappresenta come una potenziale vittima di plagio. Questa incoerenza può essere interpretata come un effetto del pregiudizio della proprietà intellettuale: l'atto creativo personale è assunto a sua giustificazione, e perciò si nega a un programma per computer la qualità di autore, e però la separazione dal parlante della lettera morta, così da trasformarla in una merce alienabile, induce ad attribuirle un'aura intellettuale. Si sa bene che solo le persone possono fare discorsi, ma chi gestisce riviste che vendono la loro lettera se ne scorda facilmente.

Formazione e produzione

Una felicissima similitudine paragona gli studiosi di professione che non scrivono da sé i loro testi, preferendo infliggere tritissimi pastoni, a persone che vanno in palestra col cric per non affaticarsi a sollevar pesi.

A nessuno viene in mente di annunciare il cric come soluzione rivoluzionaria che esonera dal sollevamento dei pesi perché, almeno in palestra, rimane chiaro che non ci si allena per sollevare pesi bensì per formarsi, nel senso della Body-Bildung: soltanto se mi affatico con i manubri diventerò più sano, più forte o più bello. Ricorro invece al cric quando mi interessa solo il risultato. Nell'allenamento - avrebbe detto Wilhelm con Humboldt - ci misuriamo con la Bildung, la formazione che ha per oggetto il suo proprio soggetto; l'addestramento all'uso del cric - sempre che non venga interamente automatizzato, così da rendere l'impiegato superfluo - è invece Ausbildung.

Perché alcuni professori non si rendono conto che comporre i propri testi da sé è un esercizio per chiarirsi le idee e per imparare a chiarirle? La risposta è soltanto una: perché la valutazione amministrativa, basata necessariamente sulla quantità, li ha addestrati a sfornare prodotti della ricerca invece che a fare ricerca. Per questo, ridotti tecnicamente a lavoratori del cavolo, servono banalità 96 e non ne provano vergogna.



[ 85 ] Alla cui famiglia appartengono programmi come CharGPT.

[ 86 ] Open Markets Institute and the Center for Journalism and Liberty, AI in the Public Interest: Confronting the Monopoly Threat, 2023.

[ 87 ] Se la maggior parte di chi conosce questi sistemi è un dipendente o un ricercatore finanziato dalle aziende che li vendono, saranno ben pochi gli studiosi con il coraggio e le conoscenze per criticarli (Elizabeth Weil, «ChatGPT is nothing like a human, says linguist Emily Bender»,Intelligencer, 2023). Google, per esempio (Laurie Clarke et al., «How Google Quietly Funds Europe’s Leading Tech Policy Institutes», The New Statesman, 2021) finanzia studiosi le cui critiche giudica innocue, fino a elevarli, in un'università sempre più povera di spirito e di denaro, a stelle accademiche in virtù del potere che conferisce loro.

[ 89 ] Solo una lettura poco attenta del saggio di Umberto Eco, Apocalittici e integrati (Milano: Bompiani, 1964) può ridurre questa critica ad "apocalittica".

[ 90 ] Sia perché, negativamente, il progetto sotto esame non si basa sull'inganno, sia perché, positivamente, può attuarsi solo con la partecipazione convinta degli interessati.

[ 91 ] Jon Stokes, «ChatGPT explained: a normie’s guide to how it works», 2023. Grazie a Daniela Tafani per la segnalazione.

[ 92 ] Una volta che l'osservazione, interferendo con la funzione, l'abbia fatta "collassare".

[ 93 ] Da Walter Quattrociocchi, LLM (Large Language Models): ChatGpt, Gemini ecc. Come funzionano davvero, parte 2, 2025: "I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini; se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una mappa statistica, non un dizionario di significati. Nessun concetto, solo distanze in uno spazio di numeri."

[ 94 ] Espediente usato, per esempio, per nascondere che nella valutazione amministrativa della ricerca non è più il ricercatore che valuta, bensì l'amministratore (M.C. Pievatolo, La bilancia e la spada. Scienza di stato e valutazione della ricerca, 2017, §2). C'è chi è riuscito ad "allocare" la responsabilità morale in modo tale scaricare parte della colpa su programmi per computer mal funzionanti, attenuando quella di chi li ha smerciati come intelligenti.

[ 95 ] Per essere meno monotoni, i grandi modelli linguistici possono essere regolati con un parametro detto "temperatura" che determina quanto spesso termini meno probabili possono essere usati: anche qui non si tratta di creatività, ma solo di programmazione.

[ 96 ] Claudio Nastruzzi descrive la "correzione" degli LLM sui testi che riportano discorsi umani come "ablazione semantica", vale a dire nell'asportazione di tutto lo statisticamente improbabile. Si eliminano le metafore inconsuete, si appiattisce il lessico tramite la sostituzione di termini tecnici e settoriali con parola più comuni e si normalizza il flusso argomentativo. Si ottengono così testi generici, noiosi e privi di sfumature - vale a dire degli ottimi "prodotti della ricerca". Ma la ricerca è - o era - un'altra cosa, e potrebbe perfino essere scritta così.

Creative Commons License

Improprietà intellettuale by Maria Chiara Pievatolo is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Based on a work at https://btfp.sp.unipi.it/dida/cristallo