Informazioni

opendatahub.it è una piattaforma di indicizzazione e ricerca dei dataset aperti (Open Data) disponibili in Italia.

L'indice e le informazioni relative ai dataset sono elaborate e mantenute aggiornate da un motore di ricerca e arricchimento dati proprietario SciamLab e denominato Amaca.

Amaca impiega Apache Hadoop per la distribuzione dell'elaborazione e per mantenere il ciclo di aggiornamento del catalogo entro i limiti delle poche ore. Nell'elaborazione, che avviene attraverso MapReduce, sono impiegati algoritmi di analisi dei testi in lingua italiana e tecniche di apprendimento per produrre ed arricchire in modo automatico i metadati che descrivono i dataset, rendendo più semplice ed efficace la loro ricerca e l'accesso da parte degli utenti.

Amaca provvede inoltre all'estrazione di parte dei metadati dalle fonti su web delle Pubbliche Amministrazioni e Organizzazioni/Aziende pubbliche e private che hanno pubblicizzato il rilascio di dati aperti dove possibile attraverso le API che sono state rese disponibili o quando non disponibili, attraverso l'estrazione delle informazioni direttamente dal codice HTML.

Nell’ambito del progetto OpenDataHub, oltre ad Amaca Platform core, sono stati utilizzati i moduli specializzati Amaca Open Data e Amaca Premium, che includono i connettori verso i seguenti realm/API:

RealmAPITipo Supporto
CKANCKAN API v1/v2Supporto completo
CKANCKAN API v3Supporto completo, incluso le API introdotte dalle estensioni principali di CKAN
SocrataSocrata Open Data API (SODA)Supporto completo
Open Data ProtocolOpen Data Protocol (OData)Supportato solo OData Atom v4.0.
GoogleGoogle APISupporto solo per le seguenti API:
RSSRSS 2.0 FeedSupporto completo

Il modello interno dei dati impiegato da Amaca è conforme al formato DCAT e supporta il DCAT-AP Application Profile per l'interoperabilità tra portali Europei nel quale si definiscono appunto i set minimi di informazioni che devono essere presenti nei metadati descrittivi dei dataset aperti.

Il modello interno del dataset e' quindi facilmente interoperabile con qualsiasi piattaforma e consente ad Amaca di riversare e pubblicare le informazioni nei principali cataloghi come CKAN, Socrata, DataPublic, etc.

L'architettura della piattaforma di Open Data Hub e' illustrato nella figura sottostante:

Oltre alle Pubbliche Amministrazioni sono state aggiunte ulteriori fonti inclusi i contenuti pubblicamente disponibili in rete anche se non necessariamente classificati come open data. Esempi di dati pubblicamente disponibili e aperti intenzionalmente da coloro che li hanno creati o pubblicati, sono le tabelle Web, Fusion Tables e simili.