Upload
sabine-bruaux
View
206
Download
2
Embed Size (px)
Citation preview
Big Analytics &VisualisationSAS- Excel
TEM– MarketingDigitalLundi9mai2016
SabineBruaux I@sbruaux
JeremercieHalim Msilti poursacontribution àcesupport
SAS– Outil(avancé)delaBusinessIntelligence
• SystèmeSAS• Al’origine,en1976,SAS estunlogicielconçucommeoutilspécialiséenanalysestatistique
• Aujourd’hui,SASestunnomdemarque, SAS Institute§ Sociétéaméricaineindépendante(noncotéeenbourse)§ 1er éditeurmondialdansledomainedel’informatiquedécisionnelle
SabineBruaux- PrésentationàTEM- 09/05/2016 2
Applications métiers : finance, marketing, relation client, approvisionnement, …
• Metadata Server• Application Server• Management console
• SAS information Delivery Portal(portail, diffusion de rapports)
SAS AppDevSAS WebReport StudioSAS Visual Data explorer
• SAS Enterprise Guide• SAS Enterprise Miner
SAS ServerEnterprise Business Intelligence Server(outils de requêtes et de reporting)
Analytical Server(outils d’analyse)
• SAS Olap Server • SAS SPDSl
Intelligence Storage(bases de données décisionnelles, entrepôts de données)
• SAS ETL Studio • SAS Data Quality
Enterprise ETL Server(extraction, transformation, alimentation et traitement de données)Sy
stèm
e SA
S
SabineBruaux- PrésentationàTEM- 09/05/2016 3
SAS– DifférencesparrapportauxoutilsdelaBureautique• SystèmebureautiqueVs.Systèmedécisionnel
Données- Traitement– Services
► Systèmebureautique• Micro-ordinateurs
+/- isolés• Petites applications
Conviviales - Simples - Statiques• Requêtes utilisateurs simples• Bases de Données utilisées
Locales - ChangeantesOrientées édition de donnéesDonnées de types standardStructures de données figéesAucun lien avec sauvegarde sur disque
• Organisation – Intégration au SI+/-
► Systèmedécisionnel• Serveurs centraux et/ou répartis
Postes de travail en réseau(x)• Grosses Applications
Clients/Serveurs – n-tiers – DynamiquesTemps réel
• Requêtes utilisateurs complexes• Bases de Données utilisées
Centrales - Historique évolutifOrientées traitement de donnéesDonnées scientifiques-techniquesStructures de données dynamiquesPersistance
• Organisation – Intégration au SIParallélisme – Concurrence (accès simul.)RobustesseAdministration complexe
ArtisanatPilotage par la technologieRoutineActivités au jour le jour
IndustrialisationPilotage par les métiers (BPM)Stratégie à long terme+ de CréativitéTravail collaboratif
SabineBruaux- PrésentationàTEM- 09/05/2016 4
SAS– DifférencesparrapportauxoutilsdelaBureautique• SystèmebureautiqueVs.Systèmedécisionnel
Données- Traitement– Services
► Excel/Access•Outils individuels
Pas de travail coopératif/collaboratif•Capacités limitées
Volume de donnéesCohérence des donnéesStockageSuivi de l’historiqueExploitation des Feuilles de calcul…
••Organisation – Intégration au SI
+/-
► SAS• Outil individuel et en groupe
Travail collaboratif/coopératif simultané• Fédération et Intégration
Données et Informations hétérogènes, dispersées dans les BdD de l’entreprise
• Restitution Information dans un format unifié
• Mécanisme de reporting centraliséOpérationnel et décisionnel
• Organisation – Intégration au SICouplage PGI-BI-BPMModélisation de la stratégie d’une entrepriseTableaux de bord prospectifsCommunication simplifiée
Moteur de calcul, requêtage, …Véhicule de tourismeLéger (V4, V6)
SAS = Excel + Access + …Véhicule industrielLourd (V8, V12, …)
5
Organisationdesdonnées
• Pointsd’entréedeSAS u Portail d’information SAS
• Page Web permettant l’accès aux différentes applications, à leurs résultats, pour une consultation ou une étude.
• Portail configurable, modulable, sécurisé.
• Permet de fédérer les informations de l’entreprise
SabineBruaux- PrésentationàTEM- 09/05/2016 6
Organisationdesdonnées
• SortiesdeSAS u L’ensemble des résultats produits par SAS. • Une ou plusieurs table(s) SAS
• Du texte, appelé listing (mise en forme minimale) ; mode d’affichage par défaut
• Un ou plusieurs graphique(s) qui font l’objet d’un affichage séparé
• Un ou plusieurs fichier(s) mis en forme : • Documents Word - Feuilles Excel – Documents PDF
• Page(s) Web
• Code SAS
• Code SQL
• …SabineBruaux- PrésentationàTEM- 09/05/2016 7
Dossier virtuel
Dept VentesBons de commande
FacturesStock
BdDLocale
SAVLivraisonsGaranties
Réclamations
BdDLocale
Dept Finance et Comptabilité
PaiementsCaisse
Comptabilité Gén.Comptabilité An.
BdDLocale
Dept Juridique
RecouvrementsRéclamations
Litiges
BdDLocale
ExtraireChargerTraiter
Technologie(s) avancée(s)Centralisation/RépartitionSynchronisationChaîne de traitementVue partielle/globaleTravail collaboratifBPM…
DossierClient
Ancien, actuel, nouveau
Solution : Classeur SAS
AnalyserPrévoirDécider
Organisation des données
SabineBruaux- PrésentationàTEM- 09/05/2016 8
TablesetvuesdeSAS
u Table : structure de données logiqueOrganisée en Lignes (Observations) et Colonnes (Variables)
Une table est une « photo » des données stockées sur un support physique (disque, bande magnétique, CD-ROM, …)
SabineBruaux- PrésentationàTEM- 09/05/2016 9
TablesetvuesdeSAS
u Vue : présentation tabulaire de donnéesRésultat d’une requête (instruction d’un langage de programmation)Une vue est un « lien » vers un ensemble de données
u Lignes et colonnes ne sont pas interchangeables, au contraire d’une feuille Excel
SabineBruaux- PrésentationàTEM- 09/05/2016 10
TablesetvuesdeSAS
Sémantique des données et relations entre les données
Base de donnéesphysique
Mode d’inscription des données sur le support physique : blocs d’octets
Base de données conceptuelle
Vue 1
Application 1
Vue 2
Application 2
Vue N
Application N
Tableaux dynamiquesGraphiques dynamiques
Modèles d’Interfaces utilisateurs
Niveau logique
SabineBruaux - PrésentationàTEM- 09/05/201611
Architecturetype
SabineBruaux- PrésentationàTEM- 09/05/2016 12
u Cubes SAS (MDDB – Multi-Dimensional DataBase)Structures de données complexes, pré-agrégées, sur lesquellesdes statistiques ont déjà été calculées, et des axes d’exploration (dimensions) déjà définis.
u Accès à l’aide de méthodes OLAP – OnLine Analytical Processvia les modules SAS/EIS, SAS/AF
u Création à partir des procédures du module SAS/MDDB
temps
Clients
Adresse
Bases de données multidimensionnelles
SabineBruaux- PrésentationàTEM- 09/05/2016 13
Lemultidimentionnel
Axe d'analyse: Le temps(Année, trimestre, mois, semaine)
Variables analysées:Nb unités, CA, marge...
Axe d'analyse: La géographie (Pays - région - ville)
Axe d'analyse: Les produits (classe, produit)
Axes d'analyse: dimensionsVariables analysées: indicateurs
SabineBruaux- PrésentationàTEM- 09/05/2016 14
Lagranularitédesdimensions
• Exemple:lemontantdesventesfonctionde(Mois,région,Produit)Produit
Mois
TypeRégionAnnée
CatégoriePaysTrimestre
ProduitVilleMoisSemaine
MagasinJour
Granularitédesdimensions:
SabineBruaux- PrésentationàTEM- 09/05/2016 15
LagranularitédesdimensionsExemple
NumFou
NumPro
Date
F1
F2
P1 P2 P3
2000
2001
2002
250
300
350
500
600
400
300
200
SabineBruaux- PrésentationàTEM- 09/05/2016 16
Lanavigationmultidimensionnelle
• Rollup:• Agrégerselonunedimension
• SemaineèMois
• Drilldown:• Détaillerselonunedimension
• Moisè Semaine
• SliceetDice:• Sélectionetprojectionselon1axe
• Mois=04-2003;Projeter(Région, Produit)
• Pivot:• Tournelecubepourvisualiseruneface
• (Région,Produit)è(Région, Mois)
CA
Projection en 2 dimensions
Produits
Région
Réduction selon 1 dimension
Produits
Temps en mois
CA
Coupe d ’un cube
CA
Produits
Temps en semaines
pour une région donnée
France
Sud
Marseille NiceLyon
Est Ouest
Zoom selon une dimension
SabineBruaux - PrésentationàTEM- 09/05/2016 17
Lesvuesd'uncubeExempleCUBE
• SELECTAnimal,Lieu,SUM(Quantite)asQuantiteFROMAnimauxGROUPBYAnimal,MagasinWITHCUBE
Animal Lieu QuantiteChien Paris 12Chat Paris 18Tortue Rome 4Chien Rome 14Chat Naples 9Chien Naples 5Tortue Naples 1
Animal Lieu QuantiteChat Paris 18Chat Naples 9Chat - 27Chien Paris 12Chien Naples 5Chien Rome 14Chien - 31Tortue Naples 1Tortue Rome 4Tortue - 5- - 63- Paris 30- Naples 15- Rome 18
SabineBruaux - PrésentationàTEM- 09/05/201618
Lesvuesd'uncubeExempleROLLUP
• SELECTAnimal,Lieu,SUM(Quantite)asQuantiteFROMAnimauxGROUPBYAnimal,MagasinWITHROLLUP
Animal Lieu QuantiteChien Paris 12Chat Paris 18Tortue Rome 4Chien Rome 14Chat Naples 9Chien Naples 5Tortue Naples 1
Animal Lieu QuantiteChat Paris 18Chat Naples 9Chat - 27Chien Paris 12Chien Naples 5Chien Rome 14Chien - 31Tortue Naples 1Tortue Rome 4Tortue - 5- - 63
SabineBruaux- PrésentationàTEM- 09/05/2016 19
Aidesàladécision
OLTPetOLAP
DWOLTP
ETL
Appli.
Reports&
Analysis
DM
OLAPAppli.Appli.
SabineBruaux- PrésentationàTEM- 09/05/2016 20
Datawarehouse :définition
• Entrepôtdedonnées• Ensemblededonnéeshistorisées variantdansletemps,organiséparsujets,consolidédansunebasededonnéesunique,gérédansunenvironnementdestockageparticulier,aidantàlaprisededécisiondansl’entreprise.
• Troisfonctionsessentielles:• collectededonnéesdebasesexistantesetchargement• gestiondesdonnéesdansl’entrepôt• analysededonnéespourlaprisededécision
SabineBruaux- PrésentationàTEM- 09/05/2016 21
ConcevoirleDW
• Exportdedonnéesdessources• Hétérogènesetvariées• Fichiers,BDpatrimoniales,Web,…• Définitiondesvuesexportées
• Définitiond'unschémaglobal• Intègrelesdonnéesutiles• S'appuiesurlemodèlerelationnel
• Nécessitéd'unegestiondeméta-données• Descriptiondessources• Descriptiondesvuesexportées• Descriptionduschémaglobal
SabineBruaux- PrésentationàTEM- 09/05/2016 22
ConcevoirleDWOrganisationparsujet• Lesdonnéessontorganiséesparsujetsmajeurs:
• Clients,produits,ventes,…
• Sujet=faits+dimensions• Collectelesdonnéesutilessurunsujet
• Exemple:ventes• Synthétiseunevuesimpledesévénementsàanalyser
• Exemple:Ventes(N°,produit,période,magasin,)• Détaillelavueselonlesdimensions
• Exemple:Produits(IDprod, description, couleur, taille,…)• Magasins(IDmag,nom,ville,dept,pays)• Periodes(IDper, année, trimestre,mois,jour)
SabineBruaux- PrésentationàTEM- 09/05/2016 23
ConcevoirleDWConceptionduschémaintégré• Isolerlesfaitsàétudier
• Schémadestablesdefaits
• Définirlesdimensions• Axesd'analyse
• Normaliserlesdimensions• Éclaterenplusieurstablesliésparcontraintesréférentielles
• Intégrerl'ensemble• Plusieurstablesdefaitspartagentquelquestablesdedimension(constellationd’étoiles)
SabineBruaux- PrésentationàTEM- 09/05/2016 24
ConcevoirleDWSchémasenétoile• UnetabledefaitsencadréesparNtablesdedimensions
IDperannéetrimestremoisjour
Periodes
IDmagnomvilledépartementpays
Magasins
Tabledefaits“ventes”
produitmagasin
unités_vendues
montant_ventes
taxes_ventes
IDproddescriptioncouleurtaillefournisseur
Produits
periode
SabineBruaux- PrésentationàTEM- 09/05/2016 25
ConcevoirleDWSchémasenflocons• Raffinementduschémaétoileavecdestablesnormaliséespardimensions
• Avantages• Évitelesredondances• Conduitauxconstellations(plusieurstablesdefaitsàdimensionspartagées)
IDproddescriptioncouleurtailleIDfour
Produits
IDfourdescriptiontypeAdresse
Fournisseurs
Ventes
SabineBruaux- PrésentationàTEM- 09/05/2016 26
AlimenterleDW
• ETL=Extracteur+Intégrateur• Extract +Transform +Load
• Extraction• Depuislesbasessourcesoulesjournaux• Différentestechniques
• Push=règles(triggers)• Pull=requêtes(queries)
• Périodiqueetrépétée• Dateroumarquerlesdonnéesenvoyées
• Difficulté• NepasperturberlesapplicationsOLTP
SabineBruaux- PrésentationàTEM- 09/05/2016 27
AlimenterleDWTransformation• Accèsunifiésauxdonnées
• Unificationdesmodèles• Traductiondefichiers,BDréseaux,annuairesentables• EvolutionversXML(modèled'échange)plusriche
• Unificationdesaccès• Rowset,SQLlimité,SQLcomplet,…
SabineBruaux- PrésentationàTEM- 09/05/2016 28
Lerecueildesdonnées
Type(format)defichier Volumedu fichierStructure Outil(s)
Fichierplat
Petit
Excel
E-views
Sphinx
Grand
Access
Excel2010+PowerPivot
SAS
Fichierdebasededonnées
PetitFaiblecomplexité Access
GrandComplexe
Excel2010+PowerPivot
SAS
- Les données requises se trouvent-elles dans un fichier plat ?- Les données requises se trouvent-elles dans un fichier de base dedonnées ?
- …
SabineBruaux - PrésentationàTEM- 09/05/201629
Sourcesdedonnées
Les sources de données sont nombreuses,et les conditions d’accès aux donnéessouvent restrictives
• Accès libre/gratuit• Téléchargement à partir d’une source publique ou
privée• Accès restreint/payant
• Partenariat école-entreprises• Par exemple : SAS Institute
• Alternance-Entreprise• Votre sujet est en rapport avec votre formation
N° Source(s)
1 Universités- Ecoles
2 Laboratoiresderecherche
3 Organismespublics etpara-publics
4 Observatoires- Associations
5 Entreprisespartenairesdel’école
6 Entreprises(alternance)
7 Institutsd’études
8 Laboratoiresd’idées (Think thank)
9 Cabinetsdeconseils
10 Basesdedonnéesprivées
11 Recherche directesurleWebdata+set+keyword
SabineBruaux- PrésentationàTEM- 09/05/2016 30
ExemplesdeBDprivéesenmarketing
Nom delabasededonnées Type d’informationdisponible
EuromonitorGMID(EuromonitorInternational)
Informationsqualitativesetstatistiquespour24marchésdeproduitsdeconsommation.Couvre205pays(dont80paysenprofondeur).Sontégalementdisponibles desprofilsd'entreprisesetdescalculsdepartsdemarchéainsiquedesrapports surlasantéfinancièredesentreprises.
Luxury Goods -EuromonitorGMID
(EuromonitorInternational)
Informationsqualitativesetstatistiquessurl'industrieduluxedanslemonde.Couvre26paysetanalyselesmarchésetleursperspectivesàtraversdesdonnés demarché,chiffresclés,profilsd'entreprises, etétudespays.
SabineBruaux- PrésentationàTEM- 09/05/2016 31
Sourceprivée:SASInstituteLancer le logiciel SAS EnterpriseGuide 4.3 (depuis le portail Citrix)
Nouveau projetAide en ligne
SAS On the WebSAS Statistics Resources
Sélectionnez le logiciel SAS Enterprise Guide 4.2 puis cliquez sur GOChoisir Dowload SAS DataChoisir sujet ; par exemple Statistics puis cliquez sur le bouton List Data Set (télécharger lesfichiers)
Autre choix : Solve exercicesVous pouvez commencer par choisir le format de fichiers à importer (Excel ou SAS).Ciquez sur GO. Tous les fichiers sont téléchargés.Autre possibilité : choisir un sujet, puis regardez dans les différents onglets (Data, Solution, …)
Accès direct par InternetSabineBruaux- PrésentationàTEM- 09/05/2016 32
AlimenterleDWTransformation• Mapping plusoumoinssophistiqué
• Unificationdesnoms• Appelerpareillesmêmeschosesetdifféremment leschosesdifférentes• Applicationdes"business rules"
• Eliminationdesdoubles• Jointure,projection,agrégation(SUM,AVG)
• Cleaning desdonnées• AucuneétudeouanalysesérieusenepeutêtremenéesansdesdonnéesqualifiéesSource,qualité,pertinence,volume,historique, format(s)desfichiers,etc.
SabineBruaux- PrésentationàTEM- 09/05/2016 33
AlimenterleDWChargement• Pasdemiseàjour
• Insertiondenouvellesdonnées• Archivagededonnéesanciennes
• Degrosvolumes• Périodicitéparfoislongue• Chargementenblocs(bulk load)• Miseàjourdesindexetrésumés
• Problèmes• Cohabitationavecl'OLAP?• Procéduresdereprises?
SabineBruaux- PrésentationàTEM- 09/05/2016 34
GérerleDW
• Baserelationnelle• Supportdelargesvolumes(qq 100gigasàqq téras)• Historisationdesdonnées(fenêtres)• Importancedesagrégatsetchargementsenblocs
• Basespécialisée• Basemultidimensionnelle• Combinaisondesdeux
• Machinesupportparallèle• Multiprocesseurs• Mémoirepartagée,cluster,buspartagé,etc.
SabineBruaux- PrésentationàTEM- 09/05/2016 35
Chaînedevaleur
DATA ETL INTELLIGENTSTORAGE
BUSINESSINTELLIGENCE
BUSINESSANALYTICS
DBMS
DataWarehouse(s)DataMarts(s)CubeOLAP
Rapportsd’informationGraphiques
Tableauxdebordopérationnels (Dashboards)
BSCRisk
Decision Aid
SabineBruaux- PrésentationàTEM- 09/05/2016 36
u Quoi ?» Intelligence fait référence à la notion de connaissance, au sens anglo- saxon du
terme» Business Intelligence : connaissance/maîtrise des affaires
Compréhension d’une situation et des principes de base de gestion de la situation
• Prise en compte de l’environnement : partenaires, relations d’affaires, etc. • Intégration du temps• Intégration du risque et de l’incertitude• Maîtrise des processus opérationnels
La bonne compréhension d’une situation (passé, présent), permet de prendre la bonne décision au bon moment (futur)
Socle de la Business IntelligenceInformatiquedécisionnelle
SabineBruaux- PrésentationàTEM- 09/05/2016 37
Business Intelligence & AnalyticsInformatiquedécisionnelle
q Butu Développement d’applications métiers
Analyse des ventes et prévision de la demande - Stocks – LogistiqueSegmentation et analyse du comportement de la clientèle
u Etudes décisionnelles et modélisation (différents départements)Indices de performance - Tableaux de bord
u Optimisation des processus pour l’aide à la décision (opérationnelle et stratégique) et valorisation de l’information
Production de statistiques : ventes par région (types de produits, période)Production de graphiques : projection temporelleProduction de cartes : Géolocalisation (2D ou 3D), SIGProduction de statistiques : ventes par région (types de produits, période)Ciblage d’une campagne marketing (octroi de crédit par exemple)Quels sont les clients à contacter ? Quel taux de retour attendre du modèle ? Quels sont les scores sur les clients ?
SabineBruaux- PrésentationàTEM- 09/05/2016 38
AlerteAnalyseexploratoireRapportàla
demande
Démarche&SolutionAnalytique
PrésentPassé Futur(s)
Degréd’intelligence
Information
BusinessIntelligence BusinessAnalytics
Rapportprédéfini
Analysedescriptive
Analyseprédictive
EvaluationetAnalysedurisque
AméliorationQualité
Décrireetcomprendrecequiestarrivé§ Quoi?Qu’est-il arrivé?Ques’est-ilpassé? Où?§ D’oùvientleproblème ?Quiestimpliqué ?§ Pourquoi est-cearrivé?§ …
Quepeut-ilarriver?§ Quesepassera-t-ilsi…?§ Faut-ilréagir?Quefaut-ilfaire?§ Quellesactionsfaut-il mener?§ Pourquelsrésultats ?§ …
Gestiondecrise Scénariid’évolution
(hypothèsesvraisemblables)Aideàladécision
Tableauxdebordopérationnels
Réagir- Interagir- Anticiper§ Quelsoutils(rapports, études, synthèse)?§ Quellesanalyses?Compréhension ?Restitution ?
Socleanalytique:Statistiquedescriptive, Calculdesprobabilités, Statistiqueinférentielle,DataMining,Optimisation, …
Commentintégrerlesnouveauxfacteurs?§ Mobilité- Internet§ Ubiquité - Réalitéaugmentée§ Processus– Organisation– Stratégie§ Relations(clients, collaborateurs, décideurs, …)§ …
Changement
SabineBruaux- PrésentationàTEM- 09/05/2016 39
Utilisateurs de la BI• Exemplededémarcheanalytique:scènedecrime
Descriptionde lascène
Collectededonnéesobjectives
Compréhensionduproblème
Profilage:victime(s),criminel(s)
Hypothèses
Instructiondel’affaire
Compréhension duproblème
Hypothèses
Miseenexamen,gardeàvue,arrestation
Conclusion:accusation,libération
Justice:procureur,juge(s)Police :servicesetacteursdivers
RelationPolice/Justice:problématiques, objectifs,confiance,moyens,…
Investigation :enquêtes, analyses,recherched’information,surveillance
SabineBruaux- PrésentationàTEM- 09/05/2016 40
Big Analytics &Big Data
SabineBruaux- PrésentationàTEM- 09/05/2016 41
Objectifcommun:Valued Data
• La donnée utile (un moyen et non une fin) pour créer un nouvel océan :• nouveaux champs des possibles : usages - pratiques - besoins• avantage compétitif :
• actions ciblées et optimisées : meilleure identification et (géo)localisation des contacts - meilleureexplication et prévision de leurs comportements – (inte)réaction instantanée et localisée - relierles contacts…
• technologies avancées : pouvoir examiner tout type de données liées sous toutes les coutures• nouvelles métriques (ROI)
SabineBruaux- PrésentationàTEM- 09/05/2016 42
LeparadigmeBig Data
“Big data is high-Volume, high-Velocity and high-Varietyinformation assets that demand cost-effective, innovativeforms of information processing for enhanced insight anddecision making.” Gartner 2008
SabineBruaux- PrésentationàTEM- 09/05/2016 43
LeparadigmeBig Data
SabineBruaux- PrésentationàTEM- 09/05/2016 44
Unebonnevidéoéducative
http://www.lachaineweb.com/quest-ce-que-big-data-video/
SabineBruaux- PrésentationàTEM- 09/05/2016 45
Big Data:lesVRAIESnouveautés
Les4Vsontprésents…maislaVARIETEestcertainementleplusnovateuraprèslavélocité(tempsréel)
SabineBruaux- PrésentationàTEM- 09/05/2016 46
Collecteretstockerlesdonnéesdesentreprises≠ nouveau
SabineBruaux- PrésentationàTEM- 09/05/2016 47
Analyserlesdonnéesdesentreprises≠ nouveau
SabineBruaux- PrésentationàTEM- 09/05/2016 48
Synthétiserlesdonnéesdesentreprises≠ nouveau
SabineBruaux- PrésentationàTEM- 09/05/2016 49
Utiliserlesdonnéesdesentreprises≠ nouveau
SabineBruaux- PrésentationàTEM- 09/05/2016 50
NouveautésentermesdeVolume
• Solutions de stockage massif distribué avec parallélisation de l’exécution desrequêtes et des traitements analytiques
• Appliances Teradata,Oracle Exadata, IBMNetezza• Nouvelles architectures issues du Web : Hadoop avec le paradigme de programmation «Map-Reduce »
• Arrivée de Spark commemoteur de traitement de données• application -> donnée
SabineBruaux- PrésentationàTEM- 09/05/2016 51
Solutionsd’appliance :étatdumarché
IBMNetezza
SolutionMPP
(traitementsmassivementparallèles)
InstallationApplianceseule
Offre initialedepuis2000;
versionactuelledepuis
2004
Teradata
SolutionMPP
(traitementsmassivementparallèles)
InstallationApplianceseule
Offre initialedepuis1983;
versionactuelledepuis
2009
EMCGreenplum
SolutionMPP
(traitementsmassivementparallèles)
ApplianceetSoftware,(stockagecolonneethybride)
Offre initialedepuis2005
HPVertica
SolutionMPP
(traitementsmassivementparallèles)
Base dedonnées en
modecolonne
Offre initialedepuis2005
OracleExadata
ApplianceData
WareHouse
Stockagemixte (flashetdisque),modecolonneetcompression
Version11gExadata
depuis2008
SAPHANA
SolutionMPP
(traitementsmassivementparallèles)
Configurationmixte
applianceetsoftware
Offre initialedepuis2011
SASHP
Analytics
SolutionMPP
Inmemory
SolutionMPP
Inmemory
Offre initialedepuis2011
SabineBruaux- PrésentationàTEM- 09/05/2016 52
ExpérimentonsMapReduce pourlefun!MapReduce est un framework de développement inventé parGoogle pour effectuer des calculs parallèles
MapReduce
1. L’étape File : on lit le fichier en entrée et on initialise les différents «Workers MapReduce»
2. Lʼétape Splitting : on distribue les données à traiter sur les différents noeuds du cluster de traitement
3. L’étapeMap : on effectue le compte de chacune des lettres et ceci en local sur chaque noeud du cluster de traitement
4. L’étape Suffling : on regroupe toutes les lettres ainsi que leur compte à partir de tous les noeuds de traitement
5. L’étape Reduce : on effectue le cumul de toutes les valeurs de chaque lettre
6. L’étape Result : on agrège tous les résultats des différentes étapes Reduce et on retourne le résultat final
SabineBruaux - PrésentationàTEM- 09/05/201653
NouveautésentermesdeVélocité
• Solutions pour le traitement des données arrivantsous la forme de flux continus dedonnées
• Décisionnel temps réel
• « Complex Event Processing»• Alarmes par filtrage• Agrégations sur fenêtre temporelle glissante• Scoring temps réel
• Fouille de flux de données• Modèles adaptatifs
SabineBruaux- PrésentationàTEM- 09/05/2016 54
NouveautésentermesdeVariété
• Variétédestypesdedonnées• Donnéestemporelles, spatiales• Texte,image,audio, vidéo,…• Donnéesstructuréessous formedegraphe
Ø bénéficiedelaflexibilitéetpassageàl’échelledesnouvellesarchitecturesissuesduWeb(ex.Hadoop)parrapportaustockagerelationnel
• Variétédessourcesdedonnées• Réseauxdecapteursdistribués géographiquement
Ø architecturesdédiéesou«Complex EventProcessing »distribué
• Variétédessourcesdedonnées• Partageetcroisementdedonnées• Donnéesouvertes(«opendata»)• Gestiondesdonnées personnelles
SabineBruaux- PrésentationàTEM- 09/05/2016 55
LestechnologiesduBig Data
SabineBruaux- PrésentationàTEM- 09/05/2016 56
LestechnologiesduBig Data
SabineBruaux- PrésentationàTEM- 09/05/2016 57
LeBig data transformetout…Transformationsinternes• Evolution significative (des modèles) de l’entreprise:
• Mode(s) de gestion : gouvernance des données (collecte, manipulation, extraction, stockage) –système d’analyse (business analytics, business intelligence) – CRM (datamining, personnalisation)
• Stratégie : obsolescence du principe de base de données centralisée traitant des donnéestransactionnelles structurées (MDM, SGBDR) - management de l’innovation (capacité à capter leprogrès, esprit de conquête, vision, capacité à porter le changement)
SabineBruaux- PrésentationàTEM- 09/05/2016 58
MenerunprojetBig Data
• Le Big Data représente un challenge technique pour lequel il n’existe aucune architecture uniquesupportant tous les problèmes de goulot d’étranglement :
• Stockage (accès aux données)• Traitement (nombre de CPU)• Transaction (requêtes concurrentes)• Streaming (temps de latence)
• Questions à se poser :• Traitement ponctuel ou permanent?• Cycle de vie des données : mortes ou vivantes ?• Compatibilité tps de traitement/volume• Hébergement : internalisation ou externalisation
SabineBruaux- PrésentationàTEM- 09/05/2016 59
MenerunprojetBig Data
• Défis• Trouver le modèle économiquedes traitementsBigData• Déterminer ce qui est possible en fonction des contraintes juridiques et éthiques (privacy)• Définir une organisation dans l’entreprise (ou avec des partenaires) permettant une mise enœuvre efficace des approchesBig Data, en particulier les compétences
• Connaître ses propres données et celles disponibles à l’externe
• Risques/opportunités• Perdre la rentabilité face à la concurrence / Optimiser son activité• Perdre de l’activité / Augmenter et développer son activité• Trouver de nouveaux produits et services• Levier de décloisonnement et demodernisationde l’entreprise
SabineBruaux- PrésentationàTEM- 09/05/2016 60
Mercidevotreattention,àvousde« jouer »maintenant!
• ExercicessousExcel• Réaliserunepyramidedesâges(indicateurdepilotagemétier)• Réaliserunquadrantmagique(indicateursdepilotagestratégique)
• ExercicessousVA-SAS• Priseenmaindel’outilVisualAnalytics SAS(étudedecasBioOrganics)http://www.teradatauniversitynetwork.com/
SabineBruaux- PrésentationàTEM- 09/05/2016 61