24
BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse Ludovic DENOYER - [email protected] UPMC 25 janvier 2016 Ludovic DENOYER - [email protected] (LIP6) BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse 25 janvier 2016 1/1

BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Embed Size (px)

Citation preview

Page 1: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

BI = Business IntelligenceMaster Data-Science

Cours 3 - Datawarehouse

Ludovic DENOYER - [email protected]

UPMC

25 janvier 2016

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 1 / 1

Page 2: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Plan

Vision generale

ETL

Datawarehouse

OLAP

Reporting

Data Mining

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 2 / 1

Page 3: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle, ou encoredata warehouse) designe une base de donnees utilisee pour collecter,ordonner, journaliser et stocker des informations provenant de base dedonnees operationnelles et fournir ainsi un socle a l’aide a la decision enentreprise.Source : Wikipedia

Collecter : Recuperer l’information produite par l’entreprise

Ordonner : Structurer l’information dans le but de la prise dedecision (structure differente des BDs operationnelles)

Journaliser : Stocker l’historique des donnees

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 3 / 1

Page 4: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Datawarehouse

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 4 / 1

Page 5: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Datawarehouse vs BD operationnelle

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 5 / 1

Page 6: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Donnees orientees sujets

En production : donnees organisees par processus fonctionnels

Datawarehouse : donnees organisees autour de sujets majeurs

Donnees structurees par theme, potentiellement transverses parrapport aux domains fonctionnels et organisationnelles

Examples (medecine) : Actes, Sejours vs Bases par services

Good DW architecture

”It’s not easy to describe a good design, but I’ll know it when I see it”

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 6 / 1

Page 7: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele relationnel

Normalisation (3NF)

Repond aux besoins transactionnels (OLTP)

Avantages :I Reduction de l’entree de donneesI Reduction du nombre d’indexI Ajouts/destructions/modifications plus rapides

Desavantages :I Peu efficace pour l’extraction de donnees analytiquesI Beaucoup de relationsI Trop complexe pour l’utilisateur BI

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 7 / 1

Page 8: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele relationnel

Le modele relationnel n’est pas (tres) approprie pour les DWs

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 8 / 1

Page 9: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Principes

On va partir du besoin ”client” (quel analyse ?). On va definir des faits etdes dimensions.

Faits : les faits representent un sujet d’analyse. Les faits sontcaracterisees par plusieurs informations

Dimensions : les dimensions sont les criteres selon lesquels onsouhaite faire de l’analyse.

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 9 / 1

Page 10: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 10 / 1

Page 11: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

On considere le probleme d’analyse suivant : notre societe vend desproduits dans des magasins. Les produits sont decrits par un nom, unemarque, un type, une couleur, une taille et un fabricant. Un client (nom,prenom, adresse) peut acheter pour un certain montant plusieurs unitesd’un meme produit (une vente = 1 ou plusieurs unites). Un magasinpossede un responsable et une region.le service marketing soubhaite etre en mesure d’obtenir les reponses auxquestions suivantes :

Je veux un diagramme des ventes globales de l’entreprise dans letemps

Je veux un diagramme des ventes par magasin

Je veux un diagramme des ventes par produit, et par magain

Question : Dessinez le schema du DW sous-jacent. Donnez un exemple de’valeurs’ pour chacune des tables creees.

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 11 / 1

Page 12: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en etoile

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 12 / 1

Page 13: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

On considere maintenant les requetes suivantes

Je veux un diagramme des ventes globales de l’entreprise par jour

Je veux un diagramme des ventes par mois

Je veux un diagramme des ventes par saison (ete, hiver, automne,printemps)

Je veux un diagramme des ventes par couleur de produit

Je veux un diagramme des ventes par type de produit

Je veux un diagramme des ventes par magasin

Je veux un diagramme des ventes par ville

Je veux un diagramme des ventes par region

Question : Dessinez le schema du DW sous-jacent. Donnez un exemple de’valeurs’ pour chacune des tables creees.

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 13 / 1

Page 14: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en flocon

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 14 / 1

Page 15: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Dimensions hierarchiques

Les dimensions peuvent avoir une organisation hierarchique :

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 15 / 1

Page 16: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Dimensions hierarchiques

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 16 / 1

Page 17: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

On considere maintenant que nos magasins vendent en plus desmedicaments. En addition des demandes precedentes, le service dumarketing souhaite aussi obtenir :

Les prescriptions par medicaments (les medicaments ne sont pas desproduits, il faut les considerer a part)

Les prescriptions par medicaments par mois prescriptions parmedicaments magasin

Question : Dessinez le schema du DW sous-jacent. Donnez un exemple de’valeurs’ pour chacune des tables creees.

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 17 / 1

Page 18: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en constellation

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 18 / 1

Page 19: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Modele dimensionnel

Enfin, on considere qu’un produit a changer de nom en 2014 (meme sicela reste en fait le meme produit). On veut continuer a etre en mesure decalculer les ventes de ce produit. Quel est le probleme ? Proposez unesolution. Donnez un exemple de ’valeurs’ pour chacune des tables creees.

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 19 / 1

Page 20: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Dimensions a evolution lente

Slowly Changing Dimensions (SCDs)

On parle d’une dimension a evolution lente (slowly changing dimension)lorsqu’une dimension peut subir des changements de description desmembres.

Un client peut changer d’adresse, se marier, ...

Un produit peut changer de nom, de formulation � Raider � en� Twix �,� Yaourt a la vanille � en � saveur Vanille �

Comment gerer cette situation dans un DW ?

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 20 / 1

Page 21: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

SCD : Type 0

Pas de prise en compte des SCDs

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 21 / 1

Page 22: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

SCD : Type 1

Supplier Key SupplierCode SupplierName Supplier State

123 ABC Acme Supply Co CA

Supplier Key SupplierCode SupplierName Supplier State

123 ABC Acme Supply Co IL

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 22 / 1

Page 23: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

SCD : Type 2

Supplier Key SupplierCode SupplierName Supplier State Version

123 ABC Acme Supply Co CA 0

124 ABC Acme Supply Co CA 1

Supplier Key SupplierCode SupplierName Supplier State Start DateEnd Date

123 ABC Acme Supply Co CA 01-Jan-200021-Dec-2004

124 ABC Acme Supply Co CA 22-Dec-2004NULL

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 23 / 1

Page 24: BI = Business Intelligence Master Data-Science Cours 3 ...dac.lip6.fr/master/wp-content/uploads/2016/01/bi_dataw.pdf · BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse

Conclusion

Ludovic DENOYER - [email protected] (LIP6)BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse25 janvier 2016 24 / 1