formatos de datos para el desarrollo Fuentes...

Preview:

Citation preview

Fuentes y formatos de datos para el desarrollo

Pablo Martín | PR3SSHCreative Commons (Attribution - Share Alike)

Índice

● Open Data● Portales de datos● Formatos principales de distribución de datos● Legislación y licenciamiento● Conceptos avanzados de Open Data● Principales fuentes de datos abiertos para el desarrollo

Open Data

La era del dato

Fuente desconocida

La era del dato

http://johnkapeleris.com/blog

La era del dato

La era del dato

Open Data

Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona.

Hay diversas variaciones de la definición en relación con el concepto de libertad, dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar los datos.

Open Data

https://www.ted.com/talks/tim_berners_lee_on_the_next_web

Open Data

http://5stardata.info

Open Gov Data

Las administraciones públicas disponen de gran cantidad de datos públicos con un valor incalculable.

Es por ello que para el beneficio de todas y todos (administraciones, ciudadanía, empresas, academia, movimientos sociales) éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica como reconocer quién es el dueño o con qué fondos se han producido.

Open Gov Data

http://index.okfn.org

Open Gov Data

Claves al abrir datos:

● Publicacion clara● Formatos accesibles● Periodicidad corta● Mecanismo de suscripción● Licenciamiento libre● Anonimato● Seguridad nacional

Open Gov Data

Beneficios de abrir datos:

● Implementación del Gobierno Abierto (transparencia y participación)

● Mayor eficiencia de las administraciones públicas● Investigación e innovación● Generación de una nueva economía● Nuevo conocimiento mezclando datos● y muchos otros que ni conocemos

Portales de datos

Definición

Un portal de datos abiertos es un espacio web donde una organización publicará todos sus datos para ser consultados y reutilizados por otros entes (ya sean personas o programas informáticos).

Los portales de datos, al contrario que otros portales web, están enfocados en el dato como unidad semántica básica y fundacional del mismo.

Independencia tecnológica

Los portales de datos pueden ser construidos de diversa forma y por ello son independientes de una herramienta concreta/

Diferentes son los estándares de datos que se usen para la publicación del contenido, los mecanismos de publicación y cierta homogeneización de buenas prácticas detectadas y ya asumidas por la comunidad.

Interacciones básicas

Buscar

El sistema de búsqueda debe ser potente y permitir opciones avanzadas de la misma así como mecanismos de búsqueda facetadas.

Publicar

La publicación debe ser simple, bien estructurada y que aporte toda la información necesaria.

Elementos fundamentales

● Catálogo de datos● Gestión de datos● Exploración de datos● Previsualización● Metadatos● Federación● Exposición de datos

Elementos generales

● Gestión de usuarios● Apariencia● Sindicación● Feedback● Analíticas● Seguridad● Alojamiento● Integración● etc

Herramientas más populares

● CKAN (ckan.org)● Socrata (socrata.com)

Buenos ejemplos de portales de datos

● Gobierno Reino Unido: data.gov.uk● Gobierno Estados Unidos: data.gov● Unión europea: data.europa.eu● Gobierno de Australia: data.gov.au● Gobierno de España: datos.gob.es● Banco Mundial: data.worldbank.org● FAO Stats: fao.org/faostat

Formatos principales de distribución de datos

Qué son los formatos de datos

● Los formatos de datos son un conjunto de reglas que definen la forma en la que se almacenan y definen los datos.

● Al hacer públicas dichas reglas se posibilita que todas las personas puedan conocerlas y con ello usarlas. Si se da un proceso global, puede que dicho formato de datos se estandarice al expandirse y afianzarse su uso.

● Los formatos de datos hacen referencia a los tipos de ficheros de datos en el que se almacenan. No se está haciendo referencia en ningún caso a las bases de datos.

● Son normalmente formatos de tipo texto, legibles por cualquier software de edición de texto pero a veces mejor procesado con software específico para facilitar su comprensión.

Formatos de datos más populares

● PDF● XLS● CSV● XML● JSON● GeoJSON● RDF● ...

Formatos de datos: PDF

Formatos de datos: XLS

● También conocido como XLSX en los últimos años● Desarrollado por Microsoft para su software de hojas de cálculo

Excel● Distribución en formato tabla bidimensional● Permite guardar código y estilos además de datos● La popularidad de las hojas de cálculo han hecho

tremendamente popular este formato● No es recomendable su uso por ser privativo

Formatos de datos: CSV

● Fichero de texto de valores separados por comas (o tabuladores en formato TSV)

● Distribución en formato tabla bidimensional● Alternativa abierta al formato XLS● Solo permite almacenar datos● Amplio uso en el almacenamiento de datos● Suele llevar una primera fila de definición de campos (cabecera)

Formatos de datos: CSV

Ej.:

nombre, color, talla

manzana, rojo, media

pera, verde, media

melón, verde, grande

ciruela, morado, pequeña

Formatos de datos: XML

● Extensive Markup Language● Formato de marcado ampliamente usado● Permite jerarquías o niveles de profundidad (estructura arbórea)● xHTML está basado en XML● Se considera tanto human-readable como machine-readable● Se basa en etiquetas (apertura y cierre) completamente

configurables● Puede contener o estar basado en una gramática en formato

DTD● Estándar abierto de la W3C (Consorcio de la World Wide Web)

Formatos de datos: XML

Ej.:

<frutas>

<fruta><nombre>manzana</nombre><color>rojo</color><talla>media</talla></fruta>

<fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></fruta>

<fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla></fruta>

<fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</talla></fruta>

</frutas>

Formatos de datos: JSON

● Javascript Object Notation● Javascript es el lenguaje de la web● El uso masivo de Javascript ha popularizado este formato● Se basa en {clave: valor}● Permite jerarquías o niveles de profundidad (estructura arbórea)● Bajo coste de almacenamiento (en comparación con XML)● Estándar abierto

Formatos de datos: JSON

Ej.:

{ “frutas”: [

{“nombre”: “manzana”, “color”: “rojo”. “Talla”, “media”},

{“nombre”: “pera”, “color”: “verde”. “Talla”, “media”},

{“nombre”: “melón”, “color”: “verde”. “Talla”, “grande”},

{“nombre”: “ciruela”, “color”: “morado”. “Talla”, “pequeña”}

] }

Formatos de datos: GeoJSON

● Geographic Javascript Object Notation● Basado en JSON● Permite definir una serie de características geográficas● Además permite almacenar elementos no geográficos como

puntos y polígonos● Estándar abierto

Formatos de datos: RDF

● Resource Description Framework● Es un modelo de intercambio de datos en la Web● Extiende el sistema relacional de la Web, usando URIs para

nombrar las relaciones entre elementos (y sus elementos en sí)● Modelo de tripletas● Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa● Estándar abierto

Legislación y licenciamiento

Legislación

● Directiva Europea de Reutilización de la Información del Sector Público (2003/98/EC).

● Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información Pública y Buen Gobierno. Gobierno de España.

● Leyes autonómicas de transparencia y reutilización de información.○ Andalucía (1/2014 de 24 de junio))

○ Comunitat Valenciana (2/2015 de 2 de abril)

○ y otras

● Ordenanzas municipales de transparencia.

Licenciamiento

● OGL - Open Government License● ODbL - Open Database License● Otras licencias específicas pero de la misma naturaleza

Conceptos avanzados de Open Data

Una breve aproximación

● REST API● Formato RDF● Formato RDFa● DCAT● Pinceladas de ontologías y web semántica

Qué es una API

● API = Application Programming Interface● Conjunto de funciones y definiciones sobre un protocolo● Permite de forma relativamente sencilla integrar datos de unas

aplicaciones en otras permitiendo así obtener unos niveles bastante altos de interoperabilidad entre sistemas

● Puede tener mecanismos de autenticación y versionado

REST API

● REST = Representational State Transfer● Las REST API son las más populares dentro de los diversos tipos

de API que existen, o al menos las más comunes en servicios digitales existentes por su facilidad de uso

● Se basan en el protocolo HTTP usado en la Web para ofrecer documentos con hipertexto (HTML)

● Consta de una serie de puntos de acceso para los diferentes métodos

● Ej.: curl https://api.github.com/search/repositories?q=ckan

Formato RDFa

● RDFa = RDF in attributes● Se refiere a la inclusión de etiquetas RDF en atributos de los

elementos HTML● Muy usado para introducir metadatos semánticos en la Web● Otra alternativa: Microdata

DCAT

● DCAT es un vocabulario RDF diseñado para facilitar la interoperabilidad entre catálogos de datos publicados en la Web

● Básicamente su misión es describir conjunto de datos● Esto promueve el descubrimiento y facilita que las aplicaciones

consuman metadatos de diversos catálogos de datos de forma automatizada

● Basado en XML● Respaldado por el W3C● Está ampliamente extendido en los portales de datos● Ejemplos de uso en

www.w3.org/TR/vocab-dcat/#basic-example

Linked Open Data Cloud Diagram

La Wikipedia semántica

http://wikidata.org

Principales fuentes de datos abiertos para el desarrollo

The World Bank

https://data.worldbank.org

FAO

http://www.fao.org/statistics/databases

Open Data for Development

http://od4d.net

Global Partnership for Sustainable Development Data

http://data4sdgs.org

Data for Development Festival

http://www.data4sdgs.org/index.php/news/data-development-festival

Resource Watch

http://resourcewatch.org

API Highways

http://apihighways.org

Recommended