33
Introduction Architecture d’un datawarehouse BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse Ludovic DENOYER - [email protected] UPMC 8 f´ evrier 2015 Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-Science Cours 3

Embed Size (px)

Citation preview

Page 1: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

BI = Business IntelligenceMaster Data-Science

Cours 3 - Datawarehouse

Ludovic DENOYER - [email protected]

UPMC

8 fevrier 2015

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 2: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Rappel

L’Informatique Decisionnelle (ID), en anglais Business Intelligence(BI), est l’informatique a l’usage des decideurs et des dirigeantsdes entreprises. Les systemes de ID/BI sont utilises par lesdecideurs pour obtenir une connaissance approfondie de l’entrepriseet de definir et de soutenir leurs strategies d’affaires, par exemple :

d’acquerir un avantage concurrentiel,

d’ameliorer la performance de l’entreprise,

de repondre plus rapidement aux changements,

d’augmenter la rentabilite, et

d’une facon generale la creation de valeur ajoutee del’entreprise.

...et a creer de nouveaux services...

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 3: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Plan

Vision generale

ETL

Datawarehouse

OLAP

Reporting

Data Mining

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 4: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle,ou encore data warehouse) designe une base de donnees utiliseepour collecter, ordonner, journaliser et stocker des informationsprovenant de base de donnees operationnelles et fournir ainsi unsocle a l’aide a la decision en entreprise.Source : Wikipedia

Collecter : Recuperer l’information produite pr l’entreprise

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 5: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle,ou encore data warehouse) designe une base de donnees utiliseepour collecter, ordonner, journaliser et stocker des informationsprovenant de base de donnees operationnelles et fournir ainsi unsocle a l’aide a la decision en entreprise.Source : Wikipedia

Ordonner : Structurer l’information dans le but de la prise dedecision (structure differente des BDs operationnelles)

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 6: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle,ou encore data warehouse) designe une base de donnees utiliseepour collecter, ordonner, journaliser et stocker des informationsprovenant de base de donnees operationnelles et fournir ainsi unsocle a l’aide a la decision en entreprise.Source : Wikipedia

Journaliser : Stocker l’historique des donnees

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 7: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datawarehouse

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 8: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datawarehouse

Un entrepot de donnees conserve une copie des informations dessystemes de transaction operationnels. Il offre la possibilite de :

Rassembler des donnees provenant de sources multiples enune seule base de donnees afin qu’un moteur de requeteunique puisse etre utilise pour presenter des donnees.

Permettre l’execution de requete longues, bloquantes, sur desdonnees operationnelles

Maintenir l’historique des donnees, meme si les systemes detransaction source ne le font pas

Integrer des donnees provenant de multiples systemes sources,permettant une vue centrale dans l’entreprise. Cet avantageest particulierement valable lorsque l’organisation est issue defusions successives

Ameliorer la qualite des donnees

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 9: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datawarehouse

Un entrepot de donnees conserve une copie des informations dessystemes de transaction operationnels. Il offre la possibilite de :

Presenter l’information de l’organisation

Fournir un seul modele de donnees commun pour toutes lesdonnees d’interet, independamment de la source de donnees

Restructurer les donnees de sorte qu’elles prennent sens(decisionnel)

Ajouter de la valeur aux applications metiers operationnels,notamment la gestion de la relation client (CRM).

Faire des requetes d’aide a la decision plus faciles a ecrire.

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 10: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datawarehouse vs BD operationnelle

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 11: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datamart

Definition

Un DataMart (litteralement en anglais magasin de donnees) est unsous-ensemble d’un DataWarehouse destine a fournir des donneesaux utilisateurs, et souvent specialise vers un groupe ou un typed’affaire. Techniquement, c’est une base de donnees relationnelleutilisee en informatique decisionnelle et exploitee en entreprise pourrestituer des informations ciblees sur un metier specifique,constituant pour ce dernier un ensemble d’indicateurs utilises pourle pilotage de l’activite et l’aide a la decision.Source : wikipedia

Le datawarehouse est General, le datamart est specifique a unmetier.

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 12: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datamart vs datawarehouse

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 13: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Datamart vs datawarehouse

Deux conceptions existantes :

Definition d’Inmon : Le DataMart est issu d’un flux dedonnees provenant du DataWarehouse. Contrairement a cedernier qui presente le detail des donnees pour toutel’entreprise, il a vocation a presenter la donnee de manierespecialisee, agregee et regroupee fonctionnellement.

Definition de Kimball : Le DataMart est un sous-ensemble duDataWarehouse, constitue de tables au niveau detail et a desniveaux plus agreges, permettant de restituer tout le spectred’une activite metier. L’ensemble des DataMarts del’entreprise constitue le DataWarehouse.

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 14: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Differentes Architectures

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 15: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Differentes Architectures

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 16: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Differentes Architectures

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 17: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Differentes Architectures

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 18: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Donnees orientees sujets

En production : donnees organisees par processus fonctionnels

Datawarehouse : donnees organisees autour de sujets majeurs

Donnees structurees par theme, potentiellement transversespar rapport aux domains fonctionnels et organisationnelles

Examples (medecine) : Actes, Sejours vs Bases par services

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 19: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Architecture

Good DW architecture

”It’s not easy to describe a good design, but I’ll know it when I seeit”

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 20: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele relationnel

Normalisation (3NF)

Repond aux besoins transactionnels (OLTP)

Avantages :

Reduction de l’entree de donneesReduction du nombre d’indexAjouts/destructions/modifications plus rapides

Desavantages :

Peu efficace pour l’extraction de donnees analytiquesBeaucoup de relationsTrop complexe pour l’utilisateur BI

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 21: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele relationnel

Le modele relationnel n’est pas (tres) approprie pour les DWs

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 22: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele dimensionnel

Principes

On va partir du besoin ”client” (quel analyse ?). On va definir desfaits et des dimensions.

Faits : les faits representent un sujet d’analyse. Les faits sontcaracterisees par plusieurs informations

Dimensions : les dimensions sont les criteres selon lesquelson souhaite faire de l’analyse.

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 23: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele dimensionnel

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 24: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en etoile

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 25: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en flocon

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 26: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Modele dimensionnel

Aussi connu sous le nom de modele en constellation

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 27: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Dimensions a evolution lente

Slowly Changing Dimensions (SCDs)

On parle d’une dimension a evolution lente (slowly changingdimension) lorsqu’une dimension peut subir des changements dedescription des membres.

Un client peut changer dadresse, se marier, ...

Un produit peut changer de noms, de formulations � Raider� en � Twix �,� Yaourt a la vanille � en � saveur Vanille �

Comment gerer cette situation dans un DW ?

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 28: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

SCD : Type 0

Pas de prise en compte des SCDs

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 29: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

SCD : Type 1

Overwrite

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 30: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

SCD : Type 2

Utilisation de clefs ”surrogate”

(ou clefs de substitution)

=¿ et d’autres types (voir Kimball)

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 31: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Dimensions hierarchiques

Les dimensions peuvent avoir une organisation hierarchique :

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 32: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Dimensions hierarchiques

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse

Page 33: BI = Business Intelligence Master Data-Science Cours 3

Introduction Architecture d’un datawarehouse

Conclusion

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 3 - Datawarehouse