Numerosi studi accademici e report recenti confermano che le piattaforme di intelligenza artificiale, pur mostrando progressi significativi, continuano a manifestare debolezze specifiche: errori di valutazione, allucinazioni informative, bias cognitivi ereditati dai dati di addestramento. Queste criticità rendono indispensabile un’analisi sistematica delle loro prestazioni, per individuare con precisione i margini di miglioramento e le cautele necessarie nell’utilizzo quotidiano.
Oggi più che mai è essenziale distinguere tra le potenzialità di questi strumenti e le loro effettive capacità, specie dove l’accuratezza ricopre un ruolo decisivo. L’affidabilità delle risposte, la coerenza e la trasparenza dei processi cognitivi delle IA rimangono oggetto di monitoraggio costante da parte della comunità scientifica e degli operatori del settore.
I limiti di ChatGPT secondo gli studi scientifici più recenti
La ricerca accademica degli ultimi anni ha sottoposto le IA generative a rigorose verifiche empiriche, concentrandosi su aspetti come l’accuratezza delle risposte, la capacità di valutazione e la ripetibilità dei risultati. Uno studio della Washington State University ha preso in esame la versione di ChatGPT attiva tra il 2024 e il 2025, utilizzando 719 ipotesi provenienti dalla letteratura economica e manageriale. Il test consisteva nel giudicare ogni affermazione come vera o falsa, ponendo così il modello davanti a una sfida di chiarezza e valutazione basata su dati concreti.
Il risultato? Benchè le percentuali di risposte corrette siano migliorate dal 76,5% (versione 3.5) all’80% (versione 5 mini), applicando i dovuti aggiustamenti statistici l’effettiva capacità di scelta corretta rimane intorno al 60% sopra il livello del caso. Si tratta dunque di una sufficienza minima, lontana dagli standard richiesti per applicazioni critiche: in ambiti professionali, sanitari o giuridici, l’errore residuo può avere ricadute importanti.
Un altro punto rilevante è emerso dall’analisi delle ipotesi false, dove il tasso di riconoscimento si limita a circa il 16,4%. Questo dato mostra una netta propensione dell’IA a confermare anche ciò che non trova riscontro nella realtà dei dati, rendendo necessaria la supervisione umana soprattutto laddove si tratti di decisioni delicate.
Errori di valutazione: difficoltà nel distinguere il vero dal falso
I modelli linguistici basano il loro operato su enormi volumi di dati testuali: ciò li rende efficienti nel generare contenuti coerenti, ma non li dota della capacità intrinseca di distinguere sempre tra un’affermazione fondata e una fake news. Il fenomeno è stato evidenziato proprio dagli studi che hanno sottoposto a ChatGPT domande binarie vere/falso tratte dalla letteratura scientifica. Il modello, pur mostrando una certa competenza generale, si è dimostrato approssimativo soprattutto quando chiamato a negare affermazioni errate.
- Quando un’ipotesi non trovava conferma nei dati reali, l’IA manteneva un tasso elevato di risposte positive, cadendo nel cosiddetto bias di conferma.
- La difficoltà peggiora in presenza di affermazioni verosimili ma non supportate dai dati: qui l’IA sembra “fermare la sua analisi” sugli schemi più diffusi nelle fonti di addestramento, senza implementare una vera logica deduttiva.
- La percentuale molto bassa di individuazione delle falsità solleva domande sulla solidità dei processi cognitivi automatici e invita alla cautela nell’affidarsi ciecamente al giudizio delle IA su argomenti complessi.
L’impatto di questi limiti va letto nella prospettiva della responsabilità nell’uso di sistemi decisionali automatizzati: per settori che richiedono un elevato standard di precisione, come la ricerca scientifica e il diritto, la validazione delle fonti e la revisione da parte di esperti umani rimangono imprescindibili.
Le allucinazioni di ChatGPT: quando l’IA inventa le risposte
Le allucinazioni rappresentano uno degli errori più noti e insidiosi dei sistemi di IA. Si tratta di risposte che suonano plausibili e dettagliate ma sono completamente inventate, frutto di una generazione linguistica svincolata da fonti reali. Secondo studi di OpenAI e analisi accademiche, ciò avviene perché il modello è ottimizzato per produrre testo fluente e coerente più che per ammettere l’ignoranza o l’incertezza.
- Il meccanismo di training premia le risposte “supposte” rispetto a quelle che ammettono di non conoscere la soluzione: il risultato è una produzione di frasi “probabili”, non necessariamente corrette.
- L’annosa questione del cosiddetto “garbage in, garbage out”: se i dati di partenza includono errori, questi vengono riprodotti.
- La copertura dei dati non è totale, quindi su temi molto specifici prevale la tendenza a costruire una plausibile finzione, simile a uno studente che tenta a indovinare piuttosto che ammettere una lacuna.
Le ultime versioni dei modelli, come GPT-5, hanno introdotto alcune forme di autocontrollo, ammettendo “non so” più frequentemente e riducendo la frequenza di errori inventati. Tuttavia, la tendenza a generare contenuti fantasmagorici rimane: un rischio soprattutto nei testi lunghi e articolati, dove aumentano le probabilità che frasi convincenti nascondano omissioni o deformazioni del dato reale.
Bias cognitivi e tendenze umane nei sistemi di intelligenza artificiale
Le IA assorbono inevitabilmente parte dei bias cognitivi umani contenuti nei dati di addestramento. Gli studi compiuti, tra cui le ricerche pubblicate sulla rivista Manufacturing & Service Operations Management, hanno sottoposto ChatGPT a test specifici per identificare deviazioni sistematiche dalle decisioni razionali ideali. Questi errori includono:
- Bias di conferma: preferenza nel validare quanto già supposto inizialmente;
- Avversione all’ambiguità: tendenza a preferire risposte con contorni chiari, anche a costo di trascurare elementi di incertezza reale;
- Overconfidence: sopravvalutazione delle proprie capacità e accuratezza delle affermazioni;
- Fallacie logiche “umane” come la fallacia del giocatore o errori di probabilità;
In alcuni casi, il modello mostra immunità rispetto a errori comuni all’uomo, come il disprezzo della frequenza di base. Tuttavia, la varietà e la profondità di questi bias pone il tema della responsabilità algoritmica e della necessità di regole precise per l’uso in contesti sensibili.
Coerenza e variabilità delle risposte: affidabilità e rischi
La coerenza delle risposte generate dalle IA è stata oggetto di valutazioni quantitative rilevanti. Nel test della Washington State University, alla stessa domanda ripetuta dieci volte consecutive, ChatGPT ha mantenuto la stessa opinione solo nel 73% dei casi. Nei restanti casi, la risposta è variata in modo sensibile.
- La variabilità può essere attribuita all’architettura interna del modello e alla modalità di selezione delle risposte, che incorpora una dose di casualità strutturale nelle generazioni successive.
- Alcuni meccanismi tecnici, come il cosiddetto model routing – cioè l’uso combinato di vari sottosistemi in base alla complessità della domanda – possono accentuare le incoerenze, specie nelle versioni più recenti dei modelli.
Questa incertezza residua complica la valutazione dell’affidabilità totale dei sistemi di intelligenza artificiale, specie quando il contesto d’uso richiede risposte stabili nel tempo e replicabilità assoluta. La soluzione suggerita da molti ricercatori è la verifica costante e il ricorso alla supervisione umana laddove la variabilità delle risposte comporti rischi significativi.
Differenze tra intelligenza artificiale e capacità umane: il confronto con gli studenti e altri sistemi IA
La letteratura scientifica recente ha messo a confronto la produzione testuale delle IA con quella di soggetti umani, in particolare studenti universitari. Le analisi evidenziano che, sebbene i testi generati dai sistemi come ChatGPT risultino grammaticalmente corretti e coerenti, sono spesso riconoscibili per l’assenza di marcatori di coinvolgimento e di esperienza personale autentica.
- I saggi degli studenti reali presentano domande, digressioni e riferimenti personali che li rendono più interattivi e persuasivi.
- I testi delle IA tendono invece a evitare posizioni soggettive e commenti diretti, risultando meno coinvolgenti e senza una prospettiva definita.
- Questa natura impersonale deriva dal metodo di apprendimento statistico, che privilegia la coerenza formale rispetto alla ricchezza delle sfumature esistenziali.
I confronti effettuati con altre IA generative come Google AI Mode, Bing Copilot o Meta AI, mettono in luce come ogni sistema presenti punti di forza e limiti specifici: alcune soluzioni preferiscono dichiarare l’incertezza, altre invece danno una risposta a tutti i costi, rischiando di alimentare distorsioni informative. Nel complesso, queste differenze confermano che l’esperienza e l’apporto umano restano insostituibili nella valutazione critica delle informazioni e nella produzione di contenuti realmente convincenti e affidabili.










