DOI 10.35948/2532-9006/2026.43713
Licenza CC BY-NC-ND
Copyright: © 2026 Accademia della Crusca
Le discussioni che dal Cinquecento hanno accompagnato la messa a punto del modello di lingua comune da adottare sono state caratterizzate da una notevole varietà di posizioni teoriche e, conseguentemente, di proposte. L’aggettivo stesso da attribuire alla lingua comune non è stato il punto di partenza ma il risultato di un lungo processo, che ha visto accogliere univocamente italiana solo nel XVIII secolo, come ha ricordato Paolo D’Achille nel precedente tema del mese.
In tanta varietà di posizioni si individua tuttavia una costante: i poli di riferimento entro cui declinare le singole proposte sono stati la norma e l’uso. In altre parole, e semplificando molto: da un lato l’invito a adeguarsi a un modello esterno, che prescrive una lingua come ci piacerebbe che fosse; dall’altro l’invito ad affidarsi, con le necessarie operazioni di aggiustamento, alla lingua come effettivamente è, nella pratica comunicativa dell’intera comunità o di una sua parte ritenuta più qualificata. Il più autorevole sostenitore del primato dell’uso (anzi, dell’Uso, come amava scrivere la parola per distinguerla dalle altre accezioni) è stato Alessandro Manzoni:
Per ciò che riguarda i vocaboli, in virtù di che una lingua qualunque ha que’ tali e tanti che ha? O, in altri termini, qual è la causa efficiente, per cui tali e tanti suoni orali siano vocaboli della tale o della tal altra lingua? “Dico una cosa che nessuno ignora, e che, all’occorrenza, nessuno sa”: questa causa efficiente è l’Uso: quell’Uso che da tanto tempo è chiamato il maestro, il giudice supremo, il legislatore, l’arbitro, il signore, fino il tiranno delle lingue. (Alessandro Manzoni, Della lingua italiana, in Id., Tutte le opere, vol. 5.1, a cura di L. Poma e A. Stella, Milano, Mondadori, 1974, p. 634)
Naturalmente anche i più decisi sostenitori del primato dell’uso, di fronte alla sua inevitabile fluidità, ritenevano necessario affidarsi a fonti normative (grammatiche e dizionari) per perimetrare meglio lo spazio di accettabilità di parole, forme e costruzioni della lingua.
Questa cornice concettuale si è parzialmente modificata negli ultimi anni. Prima a causa della rivoluzione digitale e delle nuove forme di scrittura sviluppatesi in seguito alla diffusione del Web 2.0; poi, più recentemente, della seconda e più dirompente rivoluzione determinata dalla diffusione delle scritture generate dai modelli linguistici di grandi dimensioni, o Large Language Models (LLM). Si tratta di novità che non abbiamo ancora avuto modo di metabolizzare pienamente perché si sono susseguite vorticosamente in un brevissimo arco temporale: poco più di trent’anni ci separano dalla diffusione di Internet nelle case, poco più di tre anni dal lancio di ChatGPT 3.5, la più diffusa interfaccia web per l’utilizzo degli LLM a fini di generazione di testi (mentre scrivo queste pagine è giunta alla versione 5.4). Non mi soffermerò sull’appropriatezza dell’espressione intelligenza artificiale (IA, ma anche, secondo l’ordine inglese delle parole, AI), di fatto ormai entrata nell’uso. Per chi fosse interessato il tema è stato già affrontato qui da Lorenzo Tomasin. Mi limito a osservare che insieme a intelligenza, molte altre parole ed espressioni usate per spiegare il funzionamento degli LLM (semantica, allucinazione, attenzione, rete neurale) sono neologismi semantici. In genere si tratta di metafore, che si riferiscono non certo a un’identità di funzionamento con l’organo umano ma a un’analogia, più o meno calzante, con i suoi prodotti. Tali prodotti – pur essendo ottenuti seguendo altre strade – simulano capacità finora considerate esclusive dell’essere umano. Nella storia della scienza nei momenti di passaggio di paradigma (per dirla con Thomas Kuhn) spesso si è fatto ricorso a metafore per definire l’ignoto a partire dal noto.
Non è stato semplice familiarizzare con le novità delle scritture ipertestuali. Si tratta di scritture ibride, frammentarie, non lineari, dipendenti da un contesto non contiguo esploso nella dimensione pluricentrica e ubiqua dell’infosfera, che infrangevano la linearità del testo. Produzioni, insomma, così diverse nelle caratteristiche costitutive dal testo lineare e continuo lasciatoci in eredità dalla civiltà tipografica da indurre alcuni a considerarle dei testi mal formati o addirittura dei non testi.
Al confronto coi testi digitali “umani” i testi generati dagli LLM ci appaiono decisamente più rassicuranti: mostrano un buon controllo della forma e della grammatica e sono molto simili, nell’architettura, a un testo lineare continuo. O almeno, camaleonticamente, possono assumere anche la forma del testo continuo (oltre a quella di un ipertesto, di una tabella, di un elenco per punti, di un’infografica ecc.). Questa somiglianza è solo apparente: i testi creati dall’IA ci appaiono così se guardiamo al prodotto, non al processo, che ha il linguaggio naturale come momento iniziale (il prompt) e finale (il testo generato), ma viene nel mezzo elaborato dalla macchina secondo la sua logica e la sua semantica.
Ma, come i replicanti di Blade Runner, questi testi possono rivelare la loro vera natura da minimi particolari. Diciamo subito, per sgomberare il campo, che occorre diffidare di chi sostiene che i testi generati si riconoscono a prima vista: non è così. Certo, la reazione consolatoria di fronte a errori più o meno evidenti ancora presenti nei testi artificiali è una comprensibile risposta che esorcizza la paura del nuovo. Ma non è la strada più utile da seguire. Occorrerà sempre più affrontare, a partire dalla scuola, il problema pedagogico dell’alfabetizzazione critica sia nei confronti dei diversi tipi di testi digitali umani sia, a maggior ragione, di quelli prodotti dall’IA. Per esempio la nascente bibliografia dimostra che si possono individuare nei testi artificiali alcune attitudini tipiche nel modo di costruire la frase e il testo, per esempio il generoso ricorso a connettivi di raccordo tra le frasi (Antonelli 2026, p. 149). Oppure questi prodotti rivelano palesemente la loro natura quando incorrono nelle cosiddette allucinazioni o nelle non rare carenze di coerenza derivanti da un problema di fondo degli LLM: la non conoscenza diretta ed esperienziale del mondo. Le allucinazioni, oltre che come errori contenutistici (dati sbagliati, citazioni inventate e simili), possono presentarsi in forme più sottili e difficili da individuare: vediamo un esempio. In una riscrittura del testo manzoniano compiuto per una tesi di laurea magistrale così ChatGPT descrive la camera nuziale di Renzo e Lucia:
La camera nuziale era semplice, linda, ma in quel momento pareva mutata: l’ombra del lume, proiettata sulla parete, sembrava allungarsi e ritrarsi con lentezza, come un animale trattenuto. (Vigni 2026)
Tutto sembra filare liscio in relazione alle particolari (in verità molto particolari) richieste fatte alla macchina: generare una storia che fondesse insieme, modificando le rispettive trame e ibridando stili e atmosfere, I Promessi Sposi e un classico dell’horror novecentesco come Rosemary’s Baby. Il piccolo particolare che consente di individuare il replicante è in questo caso un’incoerenza logica: un lume non può proiettare la propria ombra su una parete, al massimo può proiettare quella di oggetti che si frappongono nel suo cono di luce.
Entriamo ora nel dettaglio di come l’ingresso in scena delle scritture artificiali possa ridefinire il rapporto tra norma e uso della lingua. L’approccio statistico che è alle fondamenta dei testi generati dall’IA sembra assegnare un primato definitivo all’uso: non più un uso ben temperato e selezionato ma tendenzialmente la somma di tutti gli usi umani. Ciò vale se in fase di interrogazione non si specifica nulla su lingua, varietà e registro; altrimenti si può chiedere, per fare un esempio, di spiegare la teoria della relatività in portoghese, in napoletano o secondo le caratteristiche del linguaggio giovanile.
Si potrebbe dunque pensare che la lingua artificiale rappresenti l’uso “in purezza”, e che tale risultato sia garantito dalle grandi quantità di dati su cui sono addestrate le macchine. Gli LLM produrrebbero dunque una varietà di lingua che potremmo definire standard secondo l’accezione sociolinguistica: cioè la varietà più diffusa, in un dato momento storico, presso una comunità di parlanti (Berruto 2012). Ma l’approccio statistico sulla base del quale funzionano gli LLM si differenzia dal linguaggio umano per la mancanza di due caratteristiche fondamentali: la socialità e l’ancoraggio a un codice linguistico specifico.
La socialità, cioè il radicamento in una comunità di parlanti e in una tradizione culturale, è per Saussure e per molta parte del pensiero linguistico successivo un requisito fondamentale, che garantisce l’acquisizione di valore agli atti di parole in un sistema linguistico. A un secondo livello (ben messo inevidenza dagli studi di Coseriu e della sua scuola), la socialità è necessaria per l’elaborazione di una qualsiasi norma, sia essa intesa in senso grammaticale-prescrittivo o statistico-sociolinguistico.
Quanto all’unicità del codice, nella massa di dati degli LLM convivono lingue diverse. Beninteso, anche le lingue naturali si sono da sempre arricchite grazie al contatto con altri idiomi, ma in questo caso l’analogia non tiene: con i testi artificiali c’è una differenza di quantità e di grado. I pesi specifici delle lingue variano a seconda della provenienza del programma, ma nella maggior parte dei casi gli LLM usati in Occidente sono a base inglese. Non abbiamo modo di entrare di più nello specifico nella questione, ma l’emergere di un criptoinglese, o, se si preferisce, di "impronte algoritmiche dell’inglese" (De Cesare 2026, pp. 89-118) cioè di calchi o interferenze dalla lingua maggioritaria del Web, costituisce un altro dettaglio che talvolta consente di individuare le scritture artificiali.
Come è noto, la norma può propagarsi per via esplicita, grazie alle fonti normative e all’insegnamento scolastico, ma anche per via implicita, grazie all’adesione più o meno consapevole a modelli di riferimento. Nella storia dell’italiano entrambe le dimensioni hanno avuto un ruolo importante: degli effetti della norma implicita si sono occupati in particolare Serianni (2007), che ha parlato di "norma sommersa" e Patota (2017) che ha usato l’etichetta "norma silenziosa". A tale proposito occorre tener presente il rapporto ancipite con la norma che hanno gli LLM: essi agiscono a livello esplicito come fonte normativa ulteriore rispetto a quelle tradizionali (grammatiche, dizionari, strumenti di consulenza linguistica). Posso infatti chiedere a ChatGPT o ad altri sistemi analoghi di dirmi se una certa struttura è corretta o accettabile e ottenere la risposta corretta. Ma gli LLM operano anche a livello implicito: i testi artificiali, in virtù del peso sempre maggiore che avranno nella nostra pratica comunicativa, assumeranno un crescente potere modellizzante.
Poniamoci allora un’altra domanda: qual è il peso dei testi prodotti dall’IA nella comunicazione scritta attuale? Fatta salva l’avvertenza a prendere con le molle qualsiasi dato numerico in una realtà così fluida, possiamo dire che già ora un gran numero di testi circolanti in rete, quelli che finiscono per alimentare le basi di dati degli LLM, è a sua volta costituito da testi generati artificialmente. Una stima dell’agenzia internazionale We Are Social riferita al 2023 (citata in Gualdo 2025, p. 8) riporta che il 49,6%, dei nuovi testi presenti in rete sarebbe stato prodotto da robot, includendo quindi anche forme di automazione della scrittura antesignane di quella statistico-probabilistica degli LLM. A questo va aggiunto un ampio “sommerso”: cioè testi ibridi che almeno in una fase iniziale sono stati prodotti artificialmente e poi sono stati sottoposti a revisione umana. Ho provato a porre la questione a ChatGPT (interrogazione dell’aprile 2026) e questa è stata la risposta:
La risposta onesta è: non lo sappiamo con precisione, e probabilmente non lo sapremo mai davvero. Ma possiamo dare ordini di grandezza abbastanza credibili, distinguendo bene tra tutto il web e i contenuti nuovi.
Stime attuali (2025–2026)
≈ 30–40% del web “attivo” conterrebbe testo generato da AI secondo alcune analisi accademiche
≈ 50–57% del testo online sarebbe generato o almeno trasformato da AI (inclusa traduzione, riscrittura, editing)
≈ 50%+ dei nuovi articoli pubblicati oggi sono AI-generated
≈ 70%+ delle nuove pagine web contiene qualche contributo AI.
Questo stato di cose può innestare un circolo vizioso: l’uso umano modella a monte le scelte degli LLM, ma queste scelte finiscono per essere influenzate, a loro volta, dai testi generati. La lingua artificiale non si limita a riflettere, come uno specchio, la media degli usi reali, ma finisce per riflettere, narcisisticamente, anche sé stessa. Illustriamo quanto detto finora con due esempi di altrettante casistiche: la discrepanza tra norma esplicita e uso da parte della macchina e il rinforzo che possono dare i testi generati dall’IA a tendenze già in atto nell’italiano d’oggi.
Come sappiamo l’omissione dell’articolo in frasi come ci vediamo settimana prossima è caratteristico dell’uso regionale milanese, o più genericamente settentrionale, e potrebbe essersi sviluppato anche per influsso dell’inglese See you next week. Lo stesso correttore automatico del programma con cui sto scrivendo queste pagine mi segnala la frase come errata. Abbiamo chiesto lumi a ChatGPT:
D: è più corretto dire ci vediamo settimana prossima o ci vediamo la settimana prossima?
R: 1. “Ci vediamo la settimana prossima” → forma neutra e standard. È la forma più piena, tradizionalmente considerata più corretta nello standard.
L’articolo la:
- nominalizza pienamente settimana
- àncora l’espressione nel tempo come unità definita
È la scelta preferibile:
- nello scritto
- in contesti formali
- quando si vuole evitare ogni ambiguità.
Esempio
Ci vediamo la settimana prossima, martedì.
2. “Ci vediamo settimana prossima” → ellissi dell’articolo, uso colloquiale
Qui l’articolo è sottinteso.
È una costruzione:
- molto frequente nel parlato
- tipica di registri informali
- pienamente accettata nell’italiano contemporaneo.
Questa la norma esplicita. Tuttavia, rispondendo ad altro (per la precisione a una domanda sulle differenze linguistiche tra culture ad alto e basso contesto) ChatGPT suggerisce come esempio di "comunicazione professionale (email)", dunque come esempio di stile formale, la formula Ci aggiorniamo settimana prossima.
Questa soluzione scelta dalla macchina è interessante perché potrebbe avere alla base la distorsione del campione: le e-mail professionali contenute nella base dati di ChatGPT saranno probabilmente in prevalenza di provenienza settentrionale. Costruzioni del genere possono influenzare a livello di norma implicita le produzioni di altri scriventi e dunque per questo canale diffondersi ancor più nelle scritture umane.
Il secondo esempio (tatto da Palermo 2026) riguarda la diffusione delle subordinate costruite col gerundio irrelato rispetto al soggetto della principale. Le subordinate gerundive godono di grande fortuna nell’italiano scritto perché possono ricoprire molte funzioni: temporale, modale, causale, ipotetica, concessiva ecc. Inoltre presentano maggiore semplicità di gestione sintattica (per es. non costringono a coniugare forme difficili del congiuntivo e del condizionale né a mettere in pratica la consecutio). L’uso è però sconfinato nell’abuso: cioè nella proliferazione di una gamma di impieghi non canonici nei quali la subordinata è per diversi motivi slegata sintatticamente rispetto al soggetto del verbo della reggente o caratterizzata da rapporti semantici e sintattici molto laschi con il cotesto precedente. Quest’uso irrelato del gerundio si ritrova frequentemente nelle scritture scolastiche e negli scriventi inesperti. Si tratta di uno degli esempi dell’emergere di un italiano sintatticamente sconnesso, da tempo all’attenzione degli studiosi: se n’è occupato tra gli altri Paolo D’Achille in un precedente tema del mese. Il dato interessante ai nostri fini è che si registra una buona diffusione di questa costruzione anche nelle scritture artificiali. Ecco un esempio creato da Gemini, il sistema IA di Google (gennaio 2026, corsivi miei):
D. Chi erano gli Shardana?
R. Gli Shardana (o Sherdana) erano un antico popolo marittimo, parte dei misteriosi “Popoli del Mare” che navigavano nel Mediterraneo orientale durante l’Età del Bronzo, noti per essere guerrieri abili e navigatori, spesso identificati con gli antichi Sardi, sebbene la questione sia ancora dibattuta dagli studiosi, lasciando un’eredità di mistero e connessioni con la civiltà nuragica della Sardegna, come suggerito da ritrovamenti archeologici e fonti egizie. […] Erano temuti per le loro abilità militari e la maestria nella navigazione, combattendo come mercenari e saccheggiatori in tutto il Mediterraneo (testo).
Si tratta di una costruzione prediletta anche da altri sistemi di IA e si può osservare che la fonte “umana” esplicitamente citata nella risposta di Gemini, cioè la relativa voce di Wikipedia, non presenta questa costruzione.
Per valutare la consapevolezza metalinguistica (anche questa è una metafora!) ho sottoposto la questione a ChatGPT (interrogazione del gennaio 2026):
D: Perché ChatGPT usa frequentemente le subordinate col verbo al gerundio?
R: L’uso frequente delle subordinate implicite con il verbo al gerundio nei testi prodotti da ChatGPT non è casuale e dipende da una combinazione di fattori linguistici, stilistici e statistici legati al modo in cui il modello genera il testo.
Anzitutto c’è una ragione di economia sintattica. Il gerundio consente di condensare informazioni che altrimenti richiederebbero una subordinata esplicita (“mentre”, “quando”, “poiché”, “così che”). Forme come “consentendo di…”, “evitando che…”, “creando un effetto…” permettono di mantenere il periodo relativamente compatto, senza moltiplicare le congiunzioni e i verbi finiti. Nei testi informativi o argomentativi questo produce una sensazione di fluidità e di progressione continua del discorso.
C’è poi una motivazione statistica e addestrativa. ChatGPT è addestrato su grandi quantità di testi scritti in italiano contemporaneo di registro medio-alto, in particolare divulgativi, saggistici e giornalistici. In questi generi il gerundio è molto frequente, soprattutto nelle funzioni causali, temporali e strumentali. Il modello apprende che sequenze come “permettendo di”, “rendendo possibile”, “contribuendo a” sono soluzioni altamente probabili e “sicure” per collegare frasi senza rompere la coesione testuale.
Un terzo fattore riguarda la gestione della coesione. Le subordinate al gerundio permettono di mantenere un soggetto implicito e stabile, riducendo ambiguità referenziali e cambi improvvisi di struttura. Dal punto di vista di un modello probabilistico, questa strategia abbassa il rischio di errori sintattici o di concordanza, perché evita l’introduzione di nuovi soggetti e nuove catene di accordo.
C’è anche una ragione stilistica implicita: il gerundio conferisce al testo un tono astratto, processuale, spesso valutato come “accademico” o “saggistico”. Espressioni gerundive favoriscono una visione dinamica e continua dei fenomeni (“mostrando come…”, “sottolineando il fatto che…”), che si adatta bene a spiegazioni generali e analisi concettuali, come quelle che ChatGPT produce frequentemente.
Infine, va detto che questo uso tende talvolta a diventare iper-frequente. In italiano normativo e soprattutto nello stile sorvegliato, un eccesso di gerundi può risultare monotono, ambiguo o persino scorretto quando il soggetto logico non coincide con quello della reggente. È un limite tipico dei testi “ben formati” ma non pienamente sorvegliati dal punto di vista stilistico: il modello privilegia la continuità e la probabilità, più che la variazione retorica fine.
Si potrebbe obiettare su alcune affermazioni presenti nella risposta, per es. che "Le subordinate al gerundio permettono di mantenere un soggetto implicito e stabile, riducendo ambiguità referenziali". In primo luogo perché le corrispondenti subordinate esplicite evidenziano in maniera ancora più chiara la continuità tematica, in secondo luogo perché ciò evidentemente non vale nei casi (diventati sempre più frequenti) in cui l’antecedente del gerundio è generico o da ricostruire a senso. Non si fa inoltre nessun riferimento al maggiore sforzo cognitivo richiesto al destinatario per la comprensione rispetto a una frase esplicita. Nel complesso, tuttavia, ChatGPT mostra una buona consapevolezza delle proprie scelte linguistiche, inclusi i rischi di un uso sovraesteso del gerundio, di cui però non coglie l’asintatticità, riconducendoli semplicemente a un registro meno sorvegliato e dunque a un fatto di stile.
Gli ultimi due esempi aiutano a comprendere meglio la funzione modellizzante che sarà svolta sempre più dalle scritture artificiali. Si presume che tale influsso potrà essere trascurabile al livello dello "zoccolo duro" della norma, vale a dire l’ortografia e la morfologia, più rilevante in quei settori che consentono all’utente una maggiore possibilità di scelta, cioè la fraseologia, la sintassi di frase e la testualità. Le conseguenze di questo nuovo stato di cose potranno alimentare – su nuove basi – il dibattito tra i sostenitori del primato della norma o di quello dell’uso.
Nota bibliografica: