16
Consommation, traitement, analyse et visualisation de la donnée publique Open Data Jean-Philippe GOUIGOUX

Open Data - Fnac

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Open Data - Fnac

45 €

isbn

: 978

-2-4

09-0

0220

-5

Ope

n D

ata

Open Data Consommation, traitement, analyse et visualisation de la donnée publiqueNé aux Etats-Unis, le mouvement Open Data consiste à ouvrir informatiquement au public les données issues de l’administration, dans le but de favoriser la transparence de l’action politique mais aussi de participer au développement économique par la création de nou-veaux usages. En France, de nombreux portails sont disponibles, du niveau communal au niveau national, depuis quelques années.Les données publiées sur les sites Open Data français sont très diverses. Elles sont parfois propres, parfois quasi-inutilisables. Elles peuvent être exposées par une API tellement bien faite que son usage est intuitif, ou à l’inverse fournies sous un format abscons et inutilisable sans une phase intense de nettoyage. Elles peuvent porter une richesse d’information énorme ou se révéler extrêmement décevantes à l’usage, de par leur manque de fraîcheur ou de précision.Face à cette variété folle, ce livre ne vous spécialisera dans aucune technologie ni aucune approche d’analyse ou de visualisation, mais vous mettra le pied à l’étrier sur de nom-breuses techniques très différentes de consommation, de façon que vous soyez prêts à tirer de l’information de n’importe quel type de données. D’Excel à QlikView en passant par Tableau ; de Power Query à Open Refine en passant par Wrangler ; de Power-Pivot à R Studio en passant par OpenStreetMap, vous naviguerez dans de nombreux usages de la donnée ouverte et saurez au final choisir l’outil qui vous est le mieux adapté pour nettoyer, analyser ou visualiser la donnée Open Data.En plus de cette approche très pratique de la consommation de données ouvertes, ce livre vous expliquera les fondamentaux de l’approche Open Data, vous informera sur la façon dont les collectivités locales produisent cette donnée, et vous aidera, que vous soyez consommateur ou même producteur, à éviter les pièges des formats. À l’issue de la lecture, votre meilleure connaissance du mouvement, des standards et des outils vous permettra d’aborder un futur où l’Open Data sera de plus en plus importante pour les citoyens.

Jean-Philippe GOUIGOUXIngénieur en Génie des Systèmes Mécaniques (Université de Techno-logie de Compiègne), diplômé de l’université de Cranfield en Angle-terre (Master of Science, spécialité Advanced Automation and Design), Jean-Philippe GOUIGOUX est aujourd’hui Directeur Technique et Architecte SOA chez un éditeur de logiciels. Expert .NET (certifié MCTS SQL Server et MCPD Enterprise Ar-chitect), il est spécialisé en urbanisa-tion des SI, sécurité logicielle et ges-tion de la performance. Jean-Philippe GOUIGOUX est reconnu Microsoft MVP (Most Valuable Professional) dans la spécialité Intégration puis .NET depuis 2011.

Téléchargementwww.editions-eni.fr.fr

sur www.editions-eni.fr : b fichiers de donnéesb webographie

Le mouvement Open Data • Consommer des flux Open Data • Créer des rapports • Ana-lyser de la donnée • Exposer de la donnée publique • Usages futurs

Les chapitres du livre

Consommation, traitement, analyse et visualisation de la donnée publique

Open Data

Pour plus d’informations :

Jean-Philippe GOUIGOUX

Page 2: Open Data - Fnac

1Table des matières

Chapitre 1Le mouvement Open Data

1. L'approche Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.1 Transparence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.2 Valorisation économique . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.3 Service rendu aux citoyens . . . . . . . . . . . . . . . . . . . . . . . . 131.2.4 Valorisation interne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.5 La face cachée de l'Open Data. . . . . . . . . . . . . . . . . . . . . . 13

2. Historique du mouvement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.1 Débuts internationaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.1 États-Unis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.2 Royaume-Uni. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Premiers essaimages en France. . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.1 Contexte législatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.2 Les villes pionnières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3 Mise en place au niveau national . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Massification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4.1 Diffusion des portails . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4.2 Aspect légal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4.3 Accompagnement associatif . . . . . . . . . . . . . . . . . . . . . . . 21

3. Premiers résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.2 Mobilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4 Usage interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Les exemples à télécharger sont disponibles à l'adresse suivante :http://www.editions-eni.fr

Saisissez la référence ENI de l'ouvrage DPOPE dans la zone de rechercheet validez. Cliquez sur le titre du livre puis sur le bouton de téléchargement.

Page 3: Open Data - Fnac

2Consommation, traitement de la donnée publique

Open Data

3.5 Premiers échecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.6 Premiers succès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4. Utilisations de la donnée publique . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1 Centralité de l'usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.2 Restriction des formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3 Caractéristiques désirables d'un portail Open Data . . . . . . . . . . 354.4 Questions supplémentaires sur la donnée ouverte. . . . . . . . . . . 36

Chapitre 2Consommer des flux Open Data

1. Trouver des flux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.1 Data.gouv.fr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.2 Marchés de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411.3 Sites des collectivités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421.4 Demander des flux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2. Principes de consommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.1 Les questions à se poser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.2 Le choix du bon outil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3. Filtrage de données avec Power Query . . . . . . . . . . . . . . . . . . . . . . . . 453.1 Installation de Power Query . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.1 Téléchargement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.1.2 Activation du module . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2 Téléchargement d'un jeu de données à filtrer . . . . . . . . . . . . . . . 533.3 Manipulation du jeu de données dans Power Query . . . . . . . . . 60

3.3.1 Chargement et filtre des données. . . . . . . . . . . . . . . . . . . 603.3.2 Gestion de l'erreur de format . . . . . . . . . . . . . . . . . . . . . . 663.3.3 Exploitation de la requête . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.4 Approche alternative par utilisation de l'URL . . . . . . . . . . . . . . 733.5 Affichage des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Page 4: Open Data - Fnac

3Table des matières

4. Affinage des données avec OpenRefine . . . . . . . . . . . . . . . . . . . . . . . 784.1 Installation d'OpenRefine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.2 Récupération du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . 834.3 Chargement du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . 844.4 Gestion de l'encodage HTML. . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.5 Recherche sur mot-clé avec raffinement des mots . . . . . . . . . . . 894.6 Filtrage sur les places de marché . . . . . . . . . . . . . . . . . . . . . . . . . 934.7 Modification de valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.8 Utilisation de l'histogramme de fréquence . . . . . . . . . . . . . . . . . 964.9 Retour sur la modification de valeurs . . . . . . . . . . . . . . . . . . . . . 984.10 Exporter les données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5. Manipulation de données structurées avec Wrangler . . . . . . . . . . . 1075.1 Utilisation de l'ancêtre Data Wrangler . . . . . . . . . . . . . . . . . . . 107

5.1.1 Récupération de données brutes. . . . . . . . . . . . . . . . . . . 1075.1.2 Lancement de Data Wrangler . . . . . . . . . . . . . . . . . . . . . 1095.1.3 Restructuration des lignes. . . . . . . . . . . . . . . . . . . . . . . . 1105.1.4 Extraction des données . . . . . . . . . . . . . . . . . . . . . . . . . . 1135.1.5 Export des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.2 Installation de Trifacta Wrangler . . . . . . . . . . . . . . . . . . . . . . . 1215.3 Retravailler des données avec Trifacta Wrangler . . . . . . . . . . . 123

5.3.1 Choix de la source de données . . . . . . . . . . . . . . . . . . . . 1235.3.2 Création d'une source de données . . . . . . . . . . . . . . . . . 1245.3.3 Analyse des histogrammes de colonnes . . . . . . . . . . . . . 1255.3.4 Gestion de la première ligne . . . . . . . . . . . . . . . . . . . . . . 1325.3.5 Suppression des lignes vides . . . . . . . . . . . . . . . . . . . . . . 1365.3.6 Extraction du nom de l'état . . . . . . . . . . . . . . . . . . . . . . 1395.3.7 Recopie du nom de l'état . . . . . . . . . . . . . . . . . . . . . . . . . 1425.3.8 Suppression des titres . . . . . . . . . . . . . . . . . . . . . . . . . . . 1585.3.9 Changement du nom des colonnes . . . . . . . . . . . . . . . . 1585.3.10 Pivot inversé sur les données. . . . . . . . . . . . . . . . . . . . . . 1605.3.11 Export des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1635.3.12 Export du script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Page 5: Open Data - Fnac

4Consommation, traitement de la donnée publique

Open Data

6. Recomposition de données déstructurées avec Power Query . . . . . 1696.1 Le bon outil n'est pas toujours celui qu'on croit. . . . . . . . . . . . 1696.2 Récupération du jeu de données déstructuré . . . . . . . . . . . . . . 1696.3 Envoi dans Power Query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1726.4 Découpage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.5 Typage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1756.6 Suppression des lignes vides. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1796.7 Extraction de la valeur de l'état . . . . . . . . . . . . . . . . . . . . . . . . . 1816.8 Duplication de la valeur de l'état . . . . . . . . . . . . . . . . . . . . . . . . 1836.9 Suppression des lignes de début de blocs . . . . . . . . . . . . . . . . . 1856.10 Opération de pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1876.11 Renommage des colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.12 Renommage des étapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1906.13 Exécution de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1926.14 Affichage d'un graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1946.15 Correction de l'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

7. Les limites de la restructuration de données. . . . . . . . . . . . . . . . . . . 207

8. Autres fonctionnalités des outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2138.1 Power Query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

8.1.1 Retour sur un classeur. . . . . . . . . . . . . . . . . . . . . . . . . . . 2138.1.2 Autres transformations . . . . . . . . . . . . . . . . . . . . . . . . . . 2158.1.3 Fusion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2168.1.4 Affichage du script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2188.1.5 Autres sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

8.2 Trifacta Wrangler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2198.2.1 Outils avancés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2208.2.2 Gestion des données multi-valuées . . . . . . . . . . . . . . . . 2218.2.3 Pour aller encore plus loin . . . . . . . . . . . . . . . . . . . . . . . . 222

8.3 OpenRefine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2238.3.1 Gestion avancée des facettes. . . . . . . . . . . . . . . . . . . . . . 2238.3.2 Manipulations de lignes . . . . . . . . . . . . . . . . . . . . . . . . . 2258.3.3 Manipulations de colonnes . . . . . . . . . . . . . . . . . . . . . . . 2268.3.4 Mécanisme de réconciliation . . . . . . . . . . . . . . . . . . . . . 228

Page 6: Open Data - Fnac

5Table des matières

Chapitre 3Créer des rapports

1. Visualiser rapidement de la donnée. . . . . . . . . . . . . . . . . . . . . . . . . . 2291.1 Installer Qlik Sense. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2301.2 Récupérer des données de population . . . . . . . . . . . . . . . . . . . . 2321.3 Démarrer Qlik Sense. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2361.4 Ajouter des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2381.5 Créer une feuille d'analyse de l'évolution démographique . . . . 2431.6 Ajouter une feuille d'analyse sur la répartition par sexe . . . . . 2511.7 Manipulation des feuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2551.8 Plus loin avec Qlik Sense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

2. Croiser des données pour plus de puissance . . . . . . . . . . . . . . . . . . . 2622.1 Installation de QlikView . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2622.2 Préparation des données pour l'analyse. . . . . . . . . . . . . . . . . . . 2642.3 Intégration des données dans QlikView . . . . . . . . . . . . . . . . . . 2662.4 Mise en place du lien entre les sources . . . . . . . . . . . . . . . . . . . 2742.5 Affichage et manipulation des données . . . . . . . . . . . . . . . . . . 2782.6 Ajout de statistiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2832.7 Mise en place d'un histogramme . . . . . . . . . . . . . . . . . . . . . . . . 2942.8 Création d'un tableau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

3. Aborder la dataviz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3073.1 Concepts de dataviz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3073.2 Exemple de règle de représentation conforme . . . . . . . . . . . . . 3083.3 Installation de Tableau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3103.4 Description de l'exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

3.4.1 Présentation des sources . . . . . . . . . . . . . . . . . . . . . . . . . 3123.4.2 Préparation des données . . . . . . . . . . . . . . . . . . . . . . . . . 315

3.5 Création d'un classeur Tableau . . . . . . . . . . . . . . . . . . . . . . . . . 3203.6 Liaison des sources de données . . . . . . . . . . . . . . . . . . . . . . . . . 3223.7 Suppression des informations inutiles . . . . . . . . . . . . . . . . . . . 328

Page 7: Open Data - Fnac

6Consommation, traitement de la donnée publique

Open Data

3.8 Feuille d'analyse des répartitions de votes . . . . . . . . . . . . . . . . 3313.8.1 Création de la feuille . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3313.8.2 Description du cas d'usage . . . . . . . . . . . . . . . . . . . . . . . 3323.8.3 Conception de la feuille. . . . . . . . . . . . . . . . . . . . . . . . . . 333

3.9 Feuille d'affichage des écarts . . . . . . . . . . . . . . . . . . . . . . . . . . . 3473.10 Feuille d'analyse de l'abstention. . . . . . . . . . . . . . . . . . . . . . . . . 3593.11 Feuille d'analyse de la régionalisation du vote . . . . . . . . . . . . . 3643.12 Regroupement dans un tableau de bord . . . . . . . . . . . . . . . . . . 369

4. Une autre approche de la dataviz . . . . . . . . . . . . . . . . . . . . . . . . . . . 3724.1 Installation de Power BI Desktop . . . . . . . . . . . . . . . . . . . . . . . 3724.2 Recherche des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3734.3 Intégration des données depuis l'API. . . . . . . . . . . . . . . . . . . . . 3784.4 Affichage du budget primitif . . . . . . . . . . . . . . . . . . . . . . . . . . . 3874.5 Manipuler les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3904.6 Publication de l'analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

5. Cartographier la donnée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3955.1 Sélection des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3965.2 Nettoyage des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3985.3 Création de la couche dans Google Maps . . . . . . . . . . . . . . . . . 4005.4 Ajout d'un second calque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4115.5 Plus loin avec les cartes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422

6. Traiter des réseaux de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4276.1 Spécificité des réseaux de données . . . . . . . . . . . . . . . . . . . . . . 4276.2 Récupération de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4286.3 Installation de Gephi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4336.4 Création d'un diagramme de réseau . . . . . . . . . . . . . . . . . . . . . 4346.5 Export du diagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

Page 8: Open Data - Fnac

7Table des matières

Chapitre 4Analyser de la donnée

1. Analyse simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4491.1 Récupération des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4501.2 Manipulations préliminaires de l'API . . . . . . . . . . . . . . . . . . . . 4531.3 Insertion dans Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4591.4 Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464

2. Gérer des données volumineuses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4722.1 Définition du volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4722.2 Un mot sur OLAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4732.3 Présentation de Power Pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . 4772.4 Import de la donnée dans Power Pivot . . . . . . . . . . . . . . . . . . . 4782.5 Analyse des données du cube. . . . . . . . . . . . . . . . . . . . . . . . . . . 483

3. Rapports sur de la donnée issue de cubes . . . . . . . . . . . . . . . . . . . . . 4903.1 Présentation de l'exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4903.2 Intégration des données géographiques . . . . . . . . . . . . . . . . . . 4903.3 Génération du rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505

4. Analyse statistique de la donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5134.1 Une approche plus mathématique . . . . . . . . . . . . . . . . . . . . . . 5134.2 Choix de la source de données . . . . . . . . . . . . . . . . . . . . . . . . . . 5134.3 Utilisation de R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5154.4 Premières manipulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5214.5 Application à l'analyse des émissions . . . . . . . . . . . . . . . . . . . . 5244.6 Avertissement sur la corrélation . . . . . . . . . . . . . . . . . . . . . . . . 531

5. Aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5315.1 Outils de BI lourde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5325.2 Approches Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532

Page 9: Open Data - Fnac

8Consommation, traitement de la donnée publique

Open Data

Chapitre 5Exposer de la donnée publique

1. Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535

2. Préparer un projet Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5362.1 Détermination de l’objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5362.2 Motivations constatées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5372.3 Législation et confidentialité des données . . . . . . . . . . . . . . . . 5382.4 Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539

2.4.1 Communication institutionnelle . . . . . . . . . . . . . . . . . . 5392.4.2 Partenariats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5402.4.3 Approche par hackathon. . . . . . . . . . . . . . . . . . . . . . . . . 5402.4.4 Redistribution de notoriété. . . . . . . . . . . . . . . . . . . . . . . 542

3. Exécution du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5423.1 Gestion de la donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542

3.1.1 Choix des sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5423.1.2 Nettoyage de la donnée. . . . . . . . . . . . . . . . . . . . . . . . . . 5453.1.3 Méthode d'exposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 5463.1.4 Mise en place d’un catalogue . . . . . . . . . . . . . . . . . . . . . 5473.1.5 Gestion du moissonnage . . . . . . . . . . . . . . . . . . . . . . . . . 548

3.2 Construction du site. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5493.2.1 Déterminer les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . 5493.2.2 Approche normée de la séparation

des responsabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5493.3 Faire vivre le portail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550

3.3.1 Référencement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5503.3.2 Dans la durée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551

4. Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5524.1 Frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552

4.1.1 CKAN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5534.1.2 OGDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553

4.2 Outils non spécialisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5544.3 Offre dédiée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556

Page 10: Open Data - Fnac

9Table des matières

Chapitre 6Usages futurs

1. Plus d’ambition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5571.1 Données stratégiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5571.2 Mise à jour en continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5581.3 Diffusion électronique de catalogue . . . . . . . . . . . . . . . . . . . . . 5591.4 Utilisation de normes ou de formats pivots . . . . . . . . . . . . . . . 5601.5 Croisement des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5611.6 Donnée en 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562

2. Le futur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5672.1 Plus loin par du développement. . . . . . . . . . . . . . . . . . . . . . . . . 5672.2 Flux continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5672.3 Contribution citoyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5682.4 Internet des objets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5682.5 Big Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5692.6 Smart City. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5702.7 Urbanisation du système d'information . . . . . . . . . . . . . . . . . . 5712.8 Transparence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575

Page 11: Open Data - Fnac

39

Chapitre 2

Consommer des flux Open Data

Consommer des flux Open Data

1. Trouver des flux

1.1 Data.gouv.fr

En France, la destination numéro un pour trouver de la donnée publique est leportail Open Data de l’État, fourni par ETALAB. ETALAB fait partie du Secré-tariat Général à la Modernisation de l'Action Publique, et est donc directe-ment rattaché au cabinet du Premier ministre, ce qui souligne l’importance desa mission. Le site data.gouv.fr non seulement propose de la donnée, mais éga-lement agrège et centralise des données de nombreux autres fournisseurs auniveau national, comme l’INSEE, l’IGN, etc.

La page d'accueil du site propose un système de recherche par mot-clé ou parcatégorie, puis affiche une sélection des jeux de données souvent ou dernière-ment utilisés, ainsi que des mises en forme particulières. Le site supporte eneffet le dépôt par tout un chacun d'une carte, d'un graphique ou d'un siteapportant de la richesse à un jeu de données publié.

Page 12: Open Data - Fnac

© E

dit

ions

EN

I -

All r

ights

rese

rved

40Consommation, traitement de la donnée publique

Open Data

Lors d'une recherche, les résultats sont fournis sous forme de vignettes avecquelques métadonnées de base. Une bande de recherche sur la droite fournitdes facettes qui permettent de filtrer les résultats plus avant. Ces facettes per-mettent de restreindre la donnée par la granularité territoriale, les formats defichiers disponibles, le nombre de réutilisations publiées, etc.

Page 13: Open Data - Fnac

41Consommer des flux Open DataChapitre 2

1.2 Marchés de données

Il existe des sites spécialisés dans le recensement des sources de données enprovenance d'origines multiples, et appelés marchés de données. L'un des plusconnus est Azure Data Market, qui recense de nombreux jeux de données in-ternationaux.

Même si cela paraît contre-intuitif, les portails internationaux peuvent se ré-véler d'excellentes sources pour de la donnée nationale. Le fait de disposer dedonnées d'autres pays en plus de celui ciblé permet d'avoir un regard plus cri-tique sur les valeurs de ce dernier, en les comparant, mais aussi en utilisant descritères qui ne sont pas nécessairement familiers alors qu'ils sont souvent uti-lisés ailleurs.

Page 14: Open Data - Fnac

© E

dit

ions

EN

I -

All r

ights

rese

rved

42Consommation, traitement de la donnée publique

Open Data

Pour ne donner qu'un exemple, les données sur la population issues des Na-tions Unies sont de très grande qualité. Elles compensent une granularitémoins fine que celles de l'INSEE par la fourniture de nombreux indices per-mettant des comparaisons riches d'enseignements avec les autres pays dans lemonde.

Les marchés de données recensent toutes les données, qu'elles soient ouvertesou pas, gratuites ou pas, etc. Il convient donc de faire particulièrement atten-tion aux licences.

1.3 Sites des collectivités

Comme expliqué dans le premier chapitre, les collectivités sont de plus en plusnombreuses à produire de la donnée sous forme publique. En réalisant une re-cherche sur le nom de la grande ville la plus proche, ou bien sûr celui du dépar-tement ou de la région de rattachement, suivi des mots-clés "Open Data", il estcourant de trouver un site dédié sur lequel une recherche pourra ensuite êtreréalisée plus en détail.

Ces sites dédiés sont aujourd'hui une cinquantaine en France, ce qui permetd'obtenir de la donnée assez finement localisée. Leur proximité par rapport auconsommateur permet de garantir une grande pertinence en général, car lesévènements et critères considérés comme les plus importants par les usagersprincipaux sont mis en avant.

1.4 Demander des flux

De par leur taille réduite par rapport à de grands ensembles institutionnels, lescollectivités locales sont assez accessibles aux usagers. Comme la responsabi-lité des portails Open Data est en général concentrée sur quelques personnesseulement, il est relativement facile de demander des données supplémen-taires, de proposer des améliorations, sachant que les équipes en charge sontsouvent justement à la recherche de telles demandes. Leur provenance endirect des utilisateurs leur permet d’être plus sûres de leur alignement sur lesbesoins réels.

Page 15: Open Data - Fnac

43Consommer des flux Open DataChapitre 2

Si une recherche sur Internet ou sur les portails Open Data locaux ou natio-naux ne donne pas satisfaction, il ne faut donc pas hésiter à solliciter les per-sonnes compétentes. Tous les sites disposent d'une rubrique "contact" à ceteffet.

2. Principes de consommation

2.1 Les questions à se poser

La question de la recherche de données a été traitée ci-dessus assez rapidementcar les exemples dans les trois chapitres qui suivent vont donner de nom-breuses pistes complémentaires. De la même manière, les façons de consom-mer ces données, de les nettoyer ou les analyser, vont être traitées enprofondeur par la suite, donc cette section a seulement pour objectif de don-ner les grands principes de consommation de la donnée.

Le lien étant fort entre Open Data et open source, l'auteur a cherché dans cetouvrage à équilibrer au maximum les usages d'outils propriétaires avec ceuxd'outils libres, ou à défaut disposant d'une version communautaire gratuite.Tous les outils sont accessibles financièrement, y compris à des particuliers, etdonc également à des PME ou des administrations consommatrices de tailleréduite.

Outre les outils, quelques questions sont à se poser avant de consommer ladonnée. Elles peuvent paraître des évidences une fois énoncées, mais il n'em-pêche qu'elles constituent une première étape de sélection permettant detransformer une demande fonctionnelle (le souhait du consommateur d'obte-nir de l'information) en un ensemble d'exigences techniques (toutes les ques-tions détaillées auxquelles il faudra répondre pour, partant de rien, dénicher labonne donnée et la transformer en information).

Page 16: Open Data - Fnac

© E

dit

ions

EN

I -

All r

ights

rese

rved

44Consommation, traitement de la donnée publique

Open Data

Ces questions sont nombreuses mais les principaux critères sont les suivants :

– Consommation d'un fichier ou d'une API ? Si le format n'importe guère carl'analyse sera faite une seule fois, l'approche n'aura rien à voir avec une ana-lyse présentée comme la plus automatique possible car elle devra être sou-vent mise à jour, et si possible sans aucune intervention humaine. Dans cesecond cas, la disponibilité d'une API pour consommer la donnée sera essen-tielle.

– Données propres ou à nettoyer soi-même ? Pour une même donnée, il existeparfois des dizaines de sources différentes. Certaines contiennent des infor-mations pour toutes les périodes dans le temps, mais pas de valeur pour tousles attributs. D'autres présentent les propriétés inverses. D'autres encoreposséderont toutes les colonnes souhaitées sur une chronologie large, maiscontiendront des blancs ou des erreurs. Il est important de réfléchir à ce quiest le plus important pour ne pas se retrouver à passer énormément detemps à créer la source ultime de grande qualité si le résultat n'en vaut pasle temps passé.

– La donnée est-elle statique ou dynamique ? Parfois, seules les périodes cor-respondant au passé sont statiques, et il convient de récupérer régulière-ment la donnée pour l'année en cours de façon à être en mesure d'analyserune évolution fine. Dans ces cas, les méthodes de consommation (et d'agré-gation du passé et du présent) ne seront pas les mêmes.

2.2 Le choix du bon outil

Après toutes ces questions sur la façon de trouver le bon jeu de données et dele consommer correctement vient la question de l'outil d'analyse lui-même. Ilest essentiel de bien connaître la palette de logiciels disponibles (et c'est un desobjectifs de ce livre), de façon à choisir le bon outil pour la bonne manipula-tion. Tous possèdent à peu de choses près les mêmes fonctionnalités de base,mais certains se distinguent par leur approche ergonomique, d'autres par leursfonctionnalités avancées.