Acerca de

opendatahub.it is an indexing platform for open datasets (Open Data) available in Italy.

El índice y la información sobre los dataset se compilan y se mantienen actualizados gracias a un motor de búsqueda y enriquecimiento de datos patentado por SciamLab y denominado Amaca.

Amaca utiliza Apache Hadoop para la distribución del procesamiento y para que el ciclo de actualización del catálogo sea de tan solo unas pocas horas. En la elaboración, que se realiza a través de MapReduce, los algoritmos de análisis de los textos en lengua italiana y las técnicas de aprendizaje se utilizan para producir y enriquecer de forma automática los metadatos que describen los datasets, haciendo su búsqueda y el acceso de los usuarios más simple y eficacaz.

Amaca también proporciona la extracción de los metadatos de parte de las fuentes de la Administración Pública y los Organismos/empresas públicas y privadas que han anunciado la publicación de datos abiertos, siempre que sea posible, a través de las API o cuando no estén disponibles a través de la extracción de la información directamente desde el código HTML.

Como parte del proyecto OpenDataHub, además de Amaca Platform core, se han utilizado los módulos especializados Amaca Open Data y Amaca Premium, incluyendo los conectores a los siguientes dominios/API:

RealmAPITipo De Soporte
CKANCKAN API v1/v2Apoyo total
CKANCKAN API v3Soporte completo, incluidas las API introducidas por extensiones importante CKAN
SocrataSocrata Open Data API (SODA)Apoyo total
Open Data ProtocolOpen Data Protocol (OData)Sólo está soportado OData Atom v4.0.
GoogleGoogle APISoporte para los siguientes API:
RSSRSS 2.0 FeedApoyo total

El modelo de datos interno empleado por Amaca cumple con el formato DCAT y apoya el Perfil de aplicación DCAT-AP para la interoperabilidad entre los portales europeos en los que definen con precisión el conjunto mínimo de información que debe estar presente en los metadatos descriptivos de dataset abiertos.

El modelo interno del dataset es fácilmente interoperable con cualquier plataforma y permite a Amaca verter y publicar la información en los principales catálogos como CKAN, Socrata, DataPublic, etc.

La arquitectura de la plataforma OpenDataHub se ilustra en la siguiente figura:

Además de las Administraciones Públicas, se han añadido fuentes adicionales incluyendo el contenido a disposición del público en la red, aunque no necesariamente clasificado como open data. Ejemplos de datos disponibles al público y abiertos deliberadamente por aquellos que los han creado o publicado, son las tablas Web, Fusion Tables y otras.