Education.gouv.frcache.media.education.gouv.fr/file/Education_aux_med… · Web viewAnnexe 9a « Data Scientist: le job le plus sexy du 21ème siècle ? LE CERCLE. Analyse critique

Auteur :

Cendrine Burgalat, Lycée St John Perse - Pau

Académie : Bordeaux

Mots-clés :

Bien public, outils d’aide à la décisionOpen Data, Big DataRelecture :

Académie :

Date de publication:

Discipline : Analyse économique, managériale et juridique des services informatiques

Intitulé de la séquence : De l’Open Data au Big Data

Problématiques abordées : Enjeux économiques et décisionnels de l’Open Data et du Big Data

Public 2ème année de BTS SIO

Place dans le programme

Économie – management :

Thème EM 1 - Analyse structurelle du secteur informatique 1.6 Le rôle de l’État, de l’Europe et des collectivités locales

Thème EM4 – Le système d’information et les processus d’organisation 4.3 Les modèles de décision

Durée de la séquence

Economie Management 3 h

Notions principales Biens publics : Les choix de l’État peuvent créer des opportunités pour les acteurs du

secteur.

Modèles et outils d’aide à la décision : Les décisions sont programmables ou non programmables. Le processus de prise décision peut être accompagné par des outils

d’aide à la décisionPré-requis

Objectifs pédagogiques

Économie – management : Découvrir de nouveaux concepts et étudier les incidences économiques et managériales qu’ils pourraient avoir sur les organisations.

Supports exploités Site de la communauté d’agglomération de Pau

Organisation de la classe

Classe entière et/ou TD

Cendrine Burgalat 1

De l’Open Data au Big DataContexteCommunauté d’agglomération de Pau

La Communauté d'Agglomération Pau-Pyrénées regroupe 14 communes. Avec ses 150 000 habitants, elle est l'une des principales agglomérations du Sud-Ouest.

Entre ville et département, la Communauté d’Agglomération est un échelon intermédiaire qui permet à ses communes-membres d'exercer ensemble leurs compétences sur un territoire pertinent, mieux adapté aux enjeux dans des secteurs tels que l'économie, l'environnement, l'habitat, les transports et la culture. Son action ne tient pas compte des limites communales mais des modes de vie des habitants : une même personne travaille, habite et profite de ses loisirs dans des communes différentes.

La Communauté d’Agglomération Pau-Pyrénées exerce une vingtaine de compétences dont certaines sont obligatoires (c'est à dire que leur transfert est automatiquement prévu par la loi), d'autres sont optionnelles et d'autres encore sont librement choisies. On peut citer principalement : les transports, l'équilibre social de l'habitat, le développement économique, la gestion des déchets, la restauration scolaire, le réseau des médiathèques, le très haut débit, le tourisme, le soutien au sport de haut-niveau, etc.

Le projet Open Data de la Communauté d’agglomération de PauQu'est-ce que l'ouverture des données publiques de la Communauté d'Agglomération Pau-Pyrénées ?

L'ouverture des données publiques ou "OpenData" est un mouvement important qui anime depuis 2010 les collectivités territoriales et les administrations centrales, consistant pour les entités publiques à mettre tout ou partie de leurs données, non protégées par ailleurs, à la disposition de tous les publics.

En pratique, l'OpenData (ou libération des données publiques), c'est la mise à disposition de données publiques sur un portail internet, sous la forme de fichiers informatiques interprétables par des programmes ou des applications (données brutes non mises en forme).

L'OpenData répond a plusieurs obligations légales des collectivités concernant la mise à disposition des données publiques (Lois de juillet 1978 et décembre 2005, Directive Européenne de 2007 sur la mise à disposition des données publiques et l'échange de données au sein de l'Union Européenne).

Depuis février, les données publiques de la Communauté d'Agglomération sont disponibles sur le site opendata.agglo-pau.fr . A la clé, plus de transparence dans l'action publique et une incitation aux entreprises à créer des services à partir de ces informations. L'un des principaux objectifs de l'opendata est de stimuler la recherche scientifique et la création de services interactifs. Les données vont permettre à des entreprises d'imaginer des services et des applications mobiles pour les téléphones de dernière génération ou les tablettes.

Un premier exemple d'application dérivée de l'Open Data est déjà visible sur le portail dédié de l'agglo. L'association Paulla, partenaire du projet, a utilisé certaines des données libres pour établir une carte de Pau où l'on peut situer les bancs publics, les voies cyclables, les horodateurs ou encore les collecteurs de déchets.

La licence

La licence est le document encadrant la réutilisation des données proposées par la CAPPAfin de déterminer les droits et les devoirs des réutilisateurs, la Communauté d'Agglomération Pau-Pyrénées a adopté une licence type, que vous validez en téléchargeant les données mises à disposition sur ce site.

Cette licence a été adaptée de la licence ODbL (Open Database Licence) de l' Open Knowledge Foundation, avec l'aide de la communauté de l'Open Data (remerciements à l'association Veni, Vidi, Libri, au collectif Regards Citoyens et au Chapitre France de Creative Commons).

Attention : la présentation proposée ci-après ne représente qu'un résumé et n'est pas un contrat de licence en soit mais uniquement un élément informatif, seul le texte complet du contrat de licence fait foi.

Cendrine Burgalat 2

http://opendata.paris.fr/opendata/document?id=78&id_attribute=48

http://fr.creativecommons.org/

http://www.regardscitoyens.org/

http://www.vvlibri.org/

http://okfn.org/

http://opendatacommons.org/licenses/odbl/1.0/

http://www.paulla.asso.fr/

http://www.opendata.agglo-pau.fr/

http://www.opendata.agglo-pau.fr/

En stage à la Communauté d’Agglomération de Pau, vous allez devoir ajouter des fonctionnalités au site web dédié à l’Open Data. Pour se faire, on vous demande dans un premier temps, de vous familiariser avec le concept et d’étudier le potentiel économique de l’Open Data.

Partie 1 : découverte de la notion d’« Open Data » et étude des enjeux économiques pour la région paloiseContexte, annexes 1,2,31. Caractérisez la notion de « données ouvertes ».

2. La communauté d’agglomération de Pau a récemment rendu accessibles ses données publiques. Proposez des raisons qui ont pu motiver ce choix ?

3. Citez des exemples d’informations aujourd’hui disponibles sur le site de la communauté d’agglo de Pau. http://opendata.agglo-pau.com/catal.html

4. Comment les données créent-t-elles de la valeur ? Quels sont les enjeux et retombées économiques envisagées, notamment par la ville de Pau ?

5. Recherchez sur le web, des exemples d’applications informatiques notamment mobiles réalisées à partir de données ouvertes.

Partie 2 : « Open Data » et bien public Contexte, annexes 3,4 et 6

1. Qu’est ce que la mission Etalab ? (Compléter en consultant le site …)

2. Pourquoi parle-t-on de bien public ?

3. Peut-on dire que l’Open Data ne concerne que les entreprises publiques ?

« Au-delà de l’open data, nous nous préparons au big data, c’est-à-dire l’analyse de données détenues à la fois par le secteur public et ses partenaires privés », confie Laurent-Pierre Gilliard, directeur général adjoint d’Aquitaine Europe Communication, l’agence numérique de la région. Les données relatives à l’énergie, l’eau ou la collecte des ordures ménagères seront croisées avec celles des collectivités pour produire des cartographies quartier par quartier, type d’habitat par type d’habitat. Avec des données proches de son quotidien, le citoyen disposera des indicateurs pour juger de la pertinence des politiques engagées par les élus et, à l’heure des réseaux sociaux, du moyen de partager ses sources. Tout comme il a disposé quasiment en temps réel des vérifications des chiffres énoncés par les candidats à la présidentielle lors du débat télévisé qui les a opposés le 2 mai. L’open data local est encore loin du compte.

http://www.lagazettedescommunes.com/

Puisque la Communauté d’Agglomération de Pau va devoir s’intéresser de plus près à ce nouveau concept qu’est le « Big Data », on vous demande de commencer à étudier ce sujet.

Partie 3 : L’informatique décisionnelle Annexes 7, 8, 9a, 9b

1. Différencier « Open Data » et « Big data »

2. Définir la notion d’outils d’aide à la décision.

3. En quoi le datamining se différencie-t-il des méthodes classiques d’analyse statistique ?

4. Rapprocher « Big Data » et « Datamining » et relever les similitudes et différences entre ces deux méthodes.

5. Rapprocher les profils des « Quants » et des « scientists » afin de montrer l’importance de l’information et des enjeux du SI.

Cendrine Burgalat 3

http://www.lagazettedescommunes.com/

http://opendata.agglo-pau.com/catal.html

Annexe 1 – Page d’accueil du site web « Open data » de la communauté d’agglomération de Pau

http://www.agglo-pau.fr/d%C3%A9couvrir-l-agglo/une-agglo,-14-communes.htmlhttp://www.larepubliquedespyrenees.fr/2013/02/26/l-agglomeration-de-pau-lance-son-portail-de-donnees-ouvertes-open-data,1119709.phphttp://opendata.agglo-pau.com/

Annexe 2 - Caractéristiques essentielles des données ouvertes

Selon l’Open Government Data Group, les données ouvertes doivent être :1. Complètes : chaque jeu de données doit comporter toutes les données disponibles à l’exception des données sujettes à des limitations concernant la vie privée, la sécurité ou des privilèges d’accès.

Primaires : les données ouvertes sont des données brutes, prises directement à la source, aussi détaillées que possible et sans traitement ni modification.

Opportunes : les données doivent être rendues disponibles aussi vite que possible pour être le plus à jour possible.

Accessibles : les données doivent être disponibles pour le plus grand nombre. Exploitables : c’est à dire prêtes à être traitées par des outils informatiques. Non discriminatoires : accessibles sans inscription. Non propriétaires : disponibles dans des formats ouverts. Libres de droits

Ces qualités sont en harmonie avec les recommandations publiées en 2009 par le W3C (World Wide Web Consortium) au sujet de l’ouverture des données : transparence, participation, collaboration, inclusion, interopérabilité, innovations, efficience, économies. Les données ouvertes qui respectent ces caractéristiques forment ainsi un matériau brut librement accessible et prêt à être traité pour créer de nouveaux usages.

http://www.bva.fr/data/actualite/actualite_fiche/329/fichier_download22386.pdf

Cendrine Burgalat 4


http://opendata.agglo-pau.com/

http://www.larepubliquedespyrenees.fr/2013/02/26/l-agglomeration-de-pau-lance-son-portail-de-donnees-ouvertes-open-data,1119709.php

http://www.larepubliquedespyrenees.fr/2013/02/26/l-agglomeration-de-pau-lance-son-portail-de-donnees-ouvertes-open-data,1119709.php

http://www.agglo-pau.fr/d%C3%A9couvrir-l-agglo/une-agglo,-14-communes.html

Annexe 3 « Les principaux bénéfices attendus»

Le mouvement d’ouverture des données est engagé. S’il est pour l’instant essentiellement concentré sur les secteurs publics, les entreprises privées suivent de près ces développements.

L’étude bluenove - BVA a dépeint des entreprises « activement attentives » qui réfléchissent et observent avant de lancer un éventuel programme Open Data intégré au cœur d’une stratégie offensive et de nouveaux produits et services à concevoir et à lancer sur des marchés encore inconnus.http://www.bva.fr/data/actualite/actualite_fiche/329/fichier_download22386.pdf

Cendrine Burgalat 5


Annexe 4 – « La France dans les starting blocks »

En France, la loi du 17 juillet 1978 (Loi 78-753 portant mesures d’amélioration des relations entre l’administration et le public) définit un cadre légal propre à l’exploitation des données publiques et reconnaît à toute personne un droit d’accès et de réutilisation des informations publiques. Cette loi autorise toute forme de réutilisation qu’elle encadre en définissant des principes notamment sur le respect des données à caractère personnel. Elle permet de subordonner la réutilisation au paiement d’une redevance et limite la possibilité de consentir des droits exclusifs de réutilisation. La CADA (Commission d’Accès aux Documents Administratifs) est chargée de veiller au respect de la loi. Le plan « France numérique 2012 » et le volet numérique du « Plan de relance » prévoient des mesures pour accompagner l’ouverture des données publiques.

Enfin, le projet Etalab a été initié sous l’autorité du Premier Ministre : « Etalab coordonne l’action des administrations de l’État et apporte son appui à ses établissements publics administratifs pour faciliter la réutilisation la plus large possible de leurs informations publiques. Placé sous l’autorité du Premier ministre et rattaché au Secrétaire général du Gouvernement, Etalab est dirigé par Séverin Naudet.

Etalab est chargé de la création d’un portail unique interministériel « data.gouv.fr » destiné à rassembler et à mettre à disposition librement l’ensemble des informations publiques de l’État, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public.Etalab mettra à disposition librement des données brutes dans des formats exploitables. La réutilisation de ces informations offre de larges opportunités à la communauté des développeurs et des entrepreneurs qui pourra les réutiliser afin de proposer des services applicatifs innovants. Par ailleurs, « data.gouv.fr » proposera aux citoyens des services en ligne, conçus à partir de certaines données publiques, qui participeront à renforcer la transparence de l’action de l’État. » Plusieurs collectivités locales (Rennes, Paris…) participent au mouvement et ont déjà inauguré leurs propres sites de données ouvertes. L’ensemble de ces projets publics partage les mêmes objectifs de transparence démocratique, de participation et d’implication des citoyens et de développement économique. http://www.bva.fr/data/actualite/actualite_fiche/329/fichier_download22386.pdf

Annexe 5 « Créer un bien public » Mensuel de la ligue de l’enseignement

Document en pièce jointe « Créer un bien public »

Annexe 6 « De ‘Big Data’ à ‘Open Data’ »

Deux tendances semblent s’imposer aujourd’hui: ‘Big Data’ et ‘Open Data’.La notion de ‘Big Data’ est facile à expliquer. Durant ces dernières décennies nous avons entrepris de numériser la majeure partie de notremonde analogique. Et en conséquence, nous avons commencé à produire une quantité sans précédent d’informations qui peut être désormais facilement recherchée et traitée. Quelques chiffres peuvent aider à mettre ce phénomène en perspective. Sa vitesse est impressionnante: on peut considérer 2002 comme le commencement de l’ère numérique, la première année pendant laquelle la capacité de stockage ‘Digital’ a dépassé la capacité totale analogique; et dès 2007, près de 94% de notre mémoire est devenue numérique. Les estimations de la masse totale d’informations au niveau mondial varient, mais on l’a évaluée à 295 exabytes (oui, c’est bien un nombre qui comprend 20 zéros!), avec un taux de croissance de plus de 50% par an. Notre capacité à stocker des données a augmenté de manière similaire – avec le coût d’un disque dur pour stocker toute la musique du monde de simplement 600$.

Si la ‘Big Data’ a fait apparaître des craintes associées à ‘Big Brother’ (il semble que nous soyons les témoins d’un changement fondamental dans notre rapport au passé, comme le suggère Viktor Mayer-Schönberger dans Delete: The Virtue of Forgetting in the Digital Age), elle ouvre aussi de formidables opportunités. L’une d’entre elles pourrait être nommée ‘Big Research’, tandis que ce récent développement de notre capacité à collecter et analyser des quantités massives de données transforme sans la moindre ambigüité nos pratiques scientifiques de la biologie à la physique, l’économie, la sociologie, les sciences politiques, l’étude des villes et les sciences environnementales.

Une autre pourrait s’appeler ‘Big Business’, alors que les sociétés et les gouvernements puisent dans des gisements sans précédent d’informations pour optimiser leurs activités opérationnelles et développer de nouveaux modèles économiques

Cendrine Burgalat 6


Contrairement à Big Data, l’Open Data est un phénomène plus récent et en cours d’évolution. […] Il a commencé dans le monde Anglo-Saxon, avec des initiatives comme data.gov aux Etats-Unis et data.gov.uk en Grande Bretagne, avec l’enjeu de rendre les grandes quantités de données gouvernementales aux citoyens. Depuis le phénomène s’est étendu vers d’autres pays (Singapour, parmi d’autres, est un des plus récents à avoir annoncé des investissements importants dans le éveloppement d’applications issues de l’Open Data) et aussi, au delà des gouvernements, vers le monde de l’entreprise.http://www.bva.fr/data/actualite/actualite_fiche/329/fichier_download22386.pdf

Annexe 7 « Le rôle de l’informatique dans l’aide à la décision»

L’aide à la décision est l’ensemble des techniques permettant, pour une personne donnée, d’opter pour la meilleure prise de décision possible. L’aide à la décision est principalement utilisée dans des domaines importants tels que la finance et la banque, l’informatique ou même lapolitique.

Le rôle de l’informatique dans l’aide à la décisionLes progrès de l'informatique ont intégré l'aide à la décision, domaine visant à concevoir des outils informatiques (dont les logiciels experts) pour aider un décideur à analyser un problème ou une situation, et à lui fournir des solutions, éventuellement hiérarchisées sur la base des critères logiques qu'il aura sélectionné.La décision en entreprise résulte d’un processus toujours plus complexe : les données à prendre en compte sont toujours plus volumineuses et les enjeux si importants (humains, financiers) que l’outil informatique est devenu stratégique. Les systèmes décisionnels de traitement et de valorisation des données sont aujourd’hui bien implantés dans les entreprises. Ils s’enrichissent notamment à présent de puissantes méthodes analytiques, de prospection et d’optimisation.

Ainsi l'informatique décisionnelle, qui fait partie de ce que les anglophones appellent « business intelligence », désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise ou d'une collectivité d’avoir une vue d’ensemble de l’activité traitée.

Nous allons ainsi décrire les différentes applications de l’informatique classées dans leur ordre chronologique d’apparition et « d’âge d’or ».

La première application de l’informatique apparaît avec les systèmes SIAD. Il s’agit de systèmes informatiques intégrés, conçus spécialement pour la prise de décisions, et qui sont destinés plus particulièrement aux dirigeants d'entreprises. Ainsi, un système SIAD est habituellement constitué de programmes, d'une ou de plusieurs bases de données, internes ou externes, et d'une base de connaissances. Il fonctionne avec un langage et un programme de modélisation qui permettent aux dirigeants d'étudier différentes hypothèses en matière de planification et d'en évaluer les conséquences. Cette méthode est généralement basée sur l’utilisation de la recherche opérationnelle.

Apparaît par la suite l’intelligence artificielle, basée sur des formes de programmation originales cherchant généralement à simuler des réalités de manières virtuelles pour prendre des décisions suivant les résultats obtenus grâce à ces simulations. Les méthodes d’aide à la décision utilisant l’intelligence artificielle sont généralement basées sur les systèmes experts, les réseaux de neurones et les systèmes multi-agents par exemple. Cette méthode est toujours utilisée de nos jours, dans certains domaines particuliers, où la résolution des problèmes est intégralement fondée sur les techniques de l’I.A. Ainsi, ces techniques ont un impact sur deux aspects de la conception des systèmes d’information qui sont l’automatisation du processus de conception et la réutilisation de connaissances liées au domaine et l’explication / tutorat.

Plus récemment et en réponse à la constante évolution du volume de données stockées et exploitables, l’apparition de la Business Intelligence (BI) est venue donner un souffle nouveau aux méthodes et outils d’aide à la décision. Celle-ci est principalement basée sur l’extraction au sein d’importantes et nombreuses bases de données (autrement appelées Entrepôts de données ou Data Warehouse) au moyen d’outils nommés ETL.

Cette fouille de données est également appelée DataMining.

Aujourd’hui, la méthode BIG DATA semble être la plus prometteuse. Il s’agit d’une manière similaire à la BI d’effectuer de la fouille de données, mais ici appliquée à de plus gros volumes.Des méthodes d’analyse des bases de données, telles que OLAP par exemple.

http://fr.wikipedia.org/wiki/Aide_%C3%A0_la_d%C3%A9cision

Cendrine Burgalat 7

http://fr.wikipedia.org/wiki/Aide_%C3%A0_la_d%C3%A9cision

http://fr.wikipedia.org/wiki/OLAP

http://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es

http://fr.wikipedia.org/wiki/Business_Intelligence

http://fr.wikipedia.org/wiki/Big_data

http://fr.wikipedia.org/wiki/Extract_Transform_Load

http://fr.wikipedia.org/wiki/Entrep%C3%B4ts_de_donn%C3%A9es

http://fr.wikipedia.org/wiki/Business_Intelligence

http://fr.wikipedia.org/wiki/Syst%C3%A8mes_multi-agents

http://fr.wikipedia.org/wiki/R%C3%A9seau_de_neurones_artificiels

http://fr.wikipedia.org/wiki/Syst%C3%A8me_expert

http://fr.wikipedia.org/wiki/Intelligence_artificielle

http://fr.wikipedia.org/wiki/Collectivit%C3%A9

http://fr.wikipedia.org/wiki/Strat%C3%A9gie_d'entreprise

http://fr.wikipedia.org/wiki/Informatique_d%C3%A9cisionnelle

http://fr.wikipedia.org/wiki/Informatique_d%C3%A9cisionnelle

http://fr.wikipedia.org/wiki/Crit%C3%A8re

http://fr.wikipedia.org/wiki/Hi%C3%A9rarchie

http://fr.wikipedia.org/wiki/Syst%C3%A8me_expert

http://fr.wikipedia.org/wiki/Informatique

http://fr.wikipedia.org/wiki/Politique

http://fr.wikipedia.org/wiki/Informatique

http://fr.wikipedia.org/wiki/Banque

http://fr.wikipedia.org/wiki/Finance


Annexe 8 Le Data Mining, qu'est-ce que c'est ?

C'est un outil d'exploration des données décisionnelles

Définition : Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart. Les techniques mises en action lors de l'utilisation de cet instrument d'analyse et de prospection sont particulièrement efficaces pour extraire des informations significatives depuis de grandes quantités de données.

A quoi ça sert ?

Principe : En peu de mots, l'outil de prospection Data Mining est à même de trouver des structures originales et des corrélations informelles entre les données. Il permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances encore peu discernables.

Comment on l'utilise ?

A contrario des méthodes classiques d'analyses statistiques, Cet instrument d'analyse est particulièrement adapté au traitement de grands volumes de données. Avec l'augmentation de la capacité de stockage des supports informatiques, un maximum de renseignements seront captés, ordonnés et rangés au sein du Data Warehouse. Comportement des acheteurs, caractéristiques des produits, historisation de la production, désormais plus rien n'échappe à la collecte.

Avec le Data Mining, ces "tera-nesque" bases de données sont exploitables.

Les techniques mises en oeuvre

Différentes techniques sont proposées. Elles sont à choisir en fonction de la nature des données et du type d'étude que l'on souhaite entreprendre

o Les méthodes utilisant les techniques de classification et de segmentationo Les méthodes utilisant des principes d'arbres de décision assez proches des techniques de classification.o Les méthodes fondées sur des principes et des règles d'associations ou d'analogieso Les méthodes exploitant les capacités d'apprentissage des réseaux de neuroneso Et pour les études d'évolution de populations, les algorithmes génétiqueso Algorithmes Naïve Bayes, séries chronologiques, régression linéaire...

Comment ça marche ?

Le principe : une démarche (simplifiée et didactique) en 5 temps majeurs

http://www.piloter.org/business-intelligence/datamining.htm

Cendrine Burgalat 8

http://www.piloter.org/business-intelligence/datamining.htm

http://www.piloter.org/business-intelligence/analyse-predictive.htm

http://www.piloter.org/business-intelligence/arbre-de-decision-business-intelligence.htm

http://www.piloter.org/business-intelligence/datawarehouse.htm

http://www.piloter.org/business-intelligence/datawarehouse.htm

http://www.piloter.org/business-intelligence/analyse-statistique-business-intelligence.htm

Annexe 9a « Data Scientist: le job le plus sexy du 21ème siècle ? »

LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)".

Tout d’abord, attardons-nous un peu sur le titre de l’article qui peut surprendre pour un article de la HBR et semble quelque peu exagéré voire galvaudé tant l’oxymoron formé par « scientist » et « sexiest » est perceptible, excessif voire « cousu de fil blanc ».

En effet, l’archétype du scientifique comme du geek et sa représentation ne correspond pas vraiment à une description glamour ou sexy, mais c’est plutôt aux antipodes que nous renvoie l’opinion publique à propos des geeks…

La fonction de « Data Scientist » est souvent assimilée à la fonction de Data Miner ou Data Cruncher, mais version 2.0, alors qu’elle est selon nous le produit de l’évolution de l’entreprise face aux défis de la digitalisation et où la ressource première est bien l’information ou en tout cas la transformation du bruit en information pertinente, en connaissance.

En effet, nous pensons qu’avec l’avènement du quaternaire (économie du numérique) et la virtualisation des biens, des services, de la communication : l’enjeu est bien de traiter, d’analyser, d’exploiter les données de plus en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions et à optimiser leur modèle d’organisation et de gouvernance.Thomas R. Davenport et D.J Patil nous rappellent en introduction de leur article que dans les années 1990 à Wall Street on s’arrachait à prix d’or les « Quants », ces analystes quantitatifs en salles de marchés, formés dans les meilleures universités américaines et qui constituaient les profils les plus prisés et les plus recherchés à l’époque à la bourse de New-York. Ce sont ces « Quants » qui prenaient en charge les considérations mathématiques qui intervenaient dans les choix des traders. La complexité des produits vendus engendrait déjà une difficulté croissante du métier de trader. De plus, le sujet était réellement difficile du point de vue mathématique et s'avèrait très dynamique. Les Quants devaient donc se tenir au courant des avancées les plus récentes dans le domaine des mathématiques financières, et rendre toujours plus sûre l'évaluation des différents produits comme suit :

•l'incorporation des nouveaux produits aux logiciels de pricing existants et la maintenance technique de ces logiciels,•l’étude et l’implémentation de nouveaux modèles de taux ou d'autres sous-jacents,•l’étude et l’implémentation de nouvelles techniques numériques,•la couverture des produits utilisés, à savoir les techniques permettant d’éliminer le risque associé à un produit donné.

Il semblerait qu’aujourd’hui à l’ère du digital et du déluge informationnel (Big Data), les entreprises soient désormais en recherche d’experts capables de traiter l’infobésité et d’en tirer toute la quintessence décisionnelle et managériale tant attendue : c’est ainsi que le besoin en Data Scientist est né !

http://lecercle.lesechos.fr/print/66793

Cendrine Burgalat 9


Annexe 9b « Data Scientist: le job le plus sexy du 21ème siècle ? »

LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)".

Commençons par redéfinir le rôle du Data Miner et ce qu’est le Data Mining. Le Data Miner gère et optimise l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple dans le secteur de la distribution, à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures sur l’analyse des transactions passées. Il permet d’augmenter ainsi la valeur des données contenues dans le DataWarehouse.

Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.

Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Le succès du concept de Data Warehouse et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.

Le Data Miner utilise donc des méthodes statistiques bien établies, mais aussi des développements récents issus de la modélisation informatique.

L’intérêt de recruter un Data Scientist pour lui confier le rôle et les missions d’un Data Miner n’a donc aucun sens. Le Data Scientist doit pouvoir travailler en toute autonomie et en exploitant pleinement ces compétences en modélisation statistique, en exploitation et analyse des bases de données, pour faire de la segmentation clients, produits à la demande. Il doit maitriser totalement le framework Map-Reduce, utiliser et comprendre les langages Perl ou Python ou Java voir Pig qui s’impose. Bien entendu, il va devoir travailler avec les BDD SQL ou NoSQL, et enfin il devra devenir le Michel-Ange de la Data Viz pour être tout à fait complet…On voit bien que le profil de Data Scientist est très pointu, et qu’à l’heure actuelle, très peu de candidats peuvent répondre à ces nombreuses exigences et compétences tout aussi récentes, nouvelles que rares… Et nous pensons que ce profil de Data Scientist conduira inévitablement à créer et recruter un poste clé pour l’Exécutif de demain au sein de grands groupes. […] Un profil que le cabinet de recrutement de cadres dirigeants Russell Reynolds Associates voit comme critique pour les grands groupes et dont les embauches vont commencer dès 2013. Et il ne s'agit pas d’un nouveau CIO ou CTO mais bien d'un nouveau poste à la jonction du marketing et l’IT. Leur hypothèse est qu'en 2015 la moitié des Fortune 100 auront recruté leur Chief Data Officer…


Cendrine Burgalat 10