1. Introduzione: Il Paradosso dell’Abbondanza Spuria

Viviamo in un’epoca in cui l’Intelligenza Artificiale Generativa (GenAI) viene celebrata come la chiave per decodificare la complessità del sapere umano. Tuttavia, ci troviamo di fronte a un paradosso pericoloso: mentre i modelli di linguaggio di larga scala (LLM) diventano sempre più potenti nella forma della comunicazione, la sostanza dei dati su cui si basano per interagire con il mondo reale (c.d. “AI agentica”) rimane frammentata, non certificata e intrinsecamente fragile.

La tesi alla base di queste riflessioni è che l’attuale stato di immaturità degli Open Data pubblici, unito alla proliferazione incontrollata di servizi MCP (Model Context Protocol) che fungono da “ponti” verso questi dati non certificati, sta creando le condizioni perfette per un disastro epistemologico. Se non si istituisce con urgenza un regime di dati pubblici veramente certificati (quality-by-design e certified-by-design), l’AI non solo veicolerà fatti incoerenti, ma costruirà autonomamente “fatti derivati” errati, consolidando distorsioni informative su scala sistemica.

 

2. Lo Stato dell’Arte: L’Open Data Pubblico tra Maturità Mancata e Illusione di Affidabilità

Il movimento degli Open Data (dati aperti) è nato oltre un decennio fa con la nobile ambizione di trasparenza e innovazione. Tuttavia, a distanza di anni, il settore pubblico non ha ancora raggiunto un grado di maturità tale da garantire l’affidabilità necessaria per l’alimentazione autonoma dei sistemi AI.

Le 5 Piaghe degli Open Data Attuali

  1. Incoerenza Strutturale: I dataset pubblici sono spesso pubblicati in formati non strutturati (PDF, immagini scannerizzate) o in schemi proprietari che cambiano senza versioning, rendendo impossibile per un agente AI stabilire una continuità logica.

  2. Assenza di certificazione della provenienza: Raramente i dati pubblici attuali includono metadati crittografici che ne certifichino l’integrità e la provenienza. Un sistema AI non ha modo di distinguere tra un dato autentico e uno manomesso durante il transito, se non attraverso meccanismi probabilistici euristici.

  3. Dati Sporchi (Dirty Data): I dati sono spesso incompleti, duplicati o affetti da errori di immissione (errori umani di back-office). Sebbene un operatore umano possa contestualizzare un errore sporadico, un’AI che processa milioni di token li assimila come verità assoluta.

  4. Mancanza di Tempestività: La pubblicazione dei dati segue cicli amministrativi, non cicli di rilevanza informativa. Per un’AI che deve prendere decisioni in tempo reale (es. assistenza sanitaria o mobilità), un dato ufficiale ma obsoleto è più dannoso di un dato non ufficiale ma aggiornato.

  5. Licenze Incerte: Molti dataset pubblici vengono rilasciati con licenze restrittive o ambigue riguardo all’addestramento e all’inferenza AI, creando rischi legali che spingono i fornitori di servizi a utilizzare dati “non ufficiali” per sicurezza giuridica.

 

3. Il Vettore di Rischio: L’AI come Amplificatore di Incoerenze

Il problema non è semplicemente che l’AI legge dati sporchi. Il problema è che l’AI ha una capacità unica di amplificare l’incoerenza attraverso due meccanismi distinti:

L’Allucinazione Indotta (Induced Hallucination)

Quando un LLM riceve dati contrastanti da fonti non certificate, non è in grado di operare un discernimento critico umano. La sua funzione statistica lo porta a “mediare” tra le verità contrastanti, generando una sintesi plausibile ma falsa. In assenza di un dato certificato che funga da “ground truth” (verità di base) immutabile, l’AI non allucina per difetto tecnico, ma allucina indotta dalla sporcizia dei dati pubblici.

 

L’Effetto Garbage In, Garbage Out (GIGO) 2.0

Nell’informatica classica, l’effetto GIGO era circoscritto. Nell’AI agentica, il dato sporco non viene solo restituito all’utente, ma viene utilizzato come input per altre funzioni. Un dato errato sulla disponibilità di un servizio pubblico (es. “il ponte è aperto”) viene processato da un agente AI che riprogramma la logistica di una città. L’errore si propaga attraverso la catena di valore informativo, causando danni fisici ed economici prima ancora che venga rilevato.

4. Il Fenomeno MCP: La Proliferazione di Connettori su Dati Non Certificati

Il Model Context Protocol (MCP) rappresenta una svolta tecnologica cruciale: permette agli LLM di connettersi direttamente a fonti di dati esterne (banche dati, repository, API) senza passare per interfacce umane. Se da un lato questo risolve il problema dell’obsolescenza dei dati di addestramento (cut-off date), dall’altro introduce un rischio sistemico nuovo.

Stiamo assistendo alla proliferazione di soggetti (startup, sviluppatori indipendenti, enti pubblici non specializzati) che offrono servizi MCP per connettere dati pubblici “sporchi” o non completamente certificati.

 

L’Inganno della Provenienza Ufficiale

Molti di questi servizi MCP si basano sul presupposto che “se proviene da una banca dati ufficiale, allora è affidabile”. Questa è una fallacia logica pericolosa.

  • Caso esemplificativo: Un MCP si connette al database ufficiale delle gare d’appalto di una regione. Il database contiene dati agganciati a codici fiscali sbagliati o importi non allineati a causa di un errore di trascrizione amministrativa.

  • Effetto: L’agente AI, utilizzando quel MCP, certificherà all’utente che “il dato è stato verificato in tempo reale sul database ufficiale”, conferendo un’aura di autorevolezza a un dato oggettivamente errato.

 

L’Assenza di Certified Connectors

Attualmente, non esiste uno standard per i “Certified Connectors” o “Certified MCP Servers”. Qualsiasi sviluppatore può pubblicare un server MCP che dichiara di interfacciarsi con la Pubblica Amministrazione (PA), senza che vi sia un meccanismo di garanzia che:

  1. Il dato in uscita dalla PA non sia stato alterato durante il transito (integrità).

  2. Il dato rispetti i principi di FAIR (Findable, Accessible, Interoperable, Reusable) a livello semantico.

  3. Il dato sia effettivamente quello corrente e non una replica non autorizzata.

5. La Distorsione Informativa: Dai Dati Errati ai Fatti Derivati

Il rischio più alto è rappresentato dai fatti derivati. L’AI non si limita a riportare un dato; lo contestualizza, lo aggrega e lo interpreta. Quando un’AI opera su dati non certificati, i fatti derivati che produce hanno un impatto distorsivo esponenziale.

Consideriamo il settore dei servizi sociali o sanitari:

  • Input sporco: Un database pubblico mostra che un determinato beneficio è “teoricamente disponibile” (ma in realtà il fondo è esaurito e il dato non è stato aggiornato).

  • Processo AI: Un agente AI consulente legge il dato, lo interpreta e suggerisce a un cittadino di fare affidamento su quel beneficio per una spesa imminente.

  • Output distorsivo: Il cittadino subisce un danno economico perché l’AI ha veicolato un’informazione derivata (la consigliabilità di agire) basata su un dato pubblico non certificato e non in tempo reale.

In questo scenario, la responsabilità è nebulosa. L’ente pubblico dirà che il dato era “pubblicato ma non aggiornato”, il fornitore dell’MCP dirà di aver solo “connesso” il dato, e il fornitore dell’AI dirà di aver elaborato solo il dato ricevuto. Il cittadino rimane vittima di un sistema in cui la catena di custodia del dato è interrotta.

 

6. Proposta per un Nuovo Paradigma: Il Dato Pubblico come Infrastruttura Critica

Per evitare che l’AI diventi un veicolo di disinformazione involontaria, è necessario superare l’attuale paradigma dell’Open Data (dato aperto ma non garantito) per approdare al paradigma del Certified Public Data (CPD) .

Principi Fondativi del CPD

  1. Certificazione alla Fonte: Ogni dato pubblico destinato al consumo da parte di sistemi AI deve essere firmato crittograficamente (hash su blockchain o firma digitale qualificata) al momento dell’emissione. Questo permette all’agente AI di verificare l’autenticità e l’integrità prima di processarlo.

  2. Semantica Machine-First: I dataset non devono essere pensati per l’occhio umano, ma per la macchina. Devono aderire a ontologie formali (es. ISA², schema.gov.it, DCAT-AP, etc.) con schemi rigidi e versionati, eliminando l’ambiguità lessicale che oggi causa fraintendimenti interpretativi da parte degli LLM.

  3. MCP Certificati: Così come esistono le firme digitali per i siti web (HTTPS/TLS), devono esistere standard per i “Certified MCP Endpoints”. Un ente pubblico dovrebbe rilasciare non solo i dati, ma il connettore ufficiale (il server MCP) firmato digitalmente, garantendo che il layer di accesso non introduca errori.

  4. Data Provenance Obbligatoria: Ogni risposta fornita da un agente AI basata su dati pubblici deve includere un tracciato di provenienza (provenance) leggibile dall’utente, che mostri non solo la fonte, ma il timestamp della certificazione e il hash del dato originale.

 

Il Ruolo del Legislatore e del Regolatore

La proliferazione di MCP su dati sporchi non può essere fermata solo dall’innovazione tecnica; serve un intervento regolatorio che inquadri la responsabilità.

  • AI Act e Dati Pubblici: L’AI Act europeo classifica i sistemi ad alto rischio. È urgente estendere il concetto che l’uso di dati pubblici non certificati in sistemi AI ad alto rischio (es. infrastrutture critiche, law enforcement, sanità) costituisce una violazione degli obblighi di data governance.

  • Obbligo di Certificazione per le PA: Le Pubbliche Amministrazioni dovrebbero essere obbligate a rilasciare, per i dataset ad alto impatto sociale, non solo il dato “aperto”, ma l’endpoint MCP certificato e il software development kit (SDK) per l’AI, sostenendo il costo di questo livello di qualità come parte dell’infrastruttura digitale nazionale.

 

7. Conclusioni: La Scelta tra Ordine e Caos Informazionale

Siamo di fronte a un bivio. Da un lato, possiamo lasciare che il mercato proliferi di connettori improvvisati che attingono a dati pubblici immaturi, creando un ecosistema di AI agentiche che, seppur veloci, saranno intrinsecamente inaffidabili e potenzialmente dannose. Dall’altro, possiamo riconoscere che nell’era dell’AI, il dato pubblico non è più solo un bene informativo, ma è un’infrastruttura critica di precisione.

Così come non permetteremmo ad un ponte di essere costruito senza certificati di calcestruzzo e collaudi, non possiamo permettere che i “ponti informativi” (MCP) verso lo Stato e i servizi pubblici vengano costruiti su dati non certificati. L’urgenza è massima perché l’adozione di agenti AI sta procedendo a un ritmo esponenziale, mentre la maturità dei dati pubblici procede a un ritmo lineare.

Se non si interviene ora con un programma strutturale di certificazione dei dati pubblici e di regolamentazione dei servizi MCP, tra pochi anni ci troveremo in una situazione in cui il 90% delle interazioni automatizzate con il settore pubblico veicolerà fatti derivati distorti, erodendo la fiducia non solo nell’AI, ma nelle istituzioni stesse.

La qualità della prossima generazione di intelligenze artificiali sarà determinata esclusivamente dalla qualità dei dati pubblici certificati che saremo in grado di mettere loro a disposizione oggi.

 


 

Riferimenti e Spunti di Approfondimento

  • Regolamento (UE) 2024/1689 (AI Act) – in particolare gli articoli relativi ai sistemi ad alto rischio e alla governance dei dati.

  • FAIR Principles (Findable, Accessible, Interoperable, Reusable) – Wilkinson et al., 2016.

  • Model Context Protocol (MCP) – Specifiche tecniche Anthropic, 2024.

  • Armonizzazione e standardizzazione dei modelli di dati condivisi schema.gov.it 

  • DCAT-AP (Data Catalog Vocabulary Application Profile) – Standard europeo per l’interoperabilità dei dati pubblici.