8/3/2019 fouille des donnes
1/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data Mining, fouille de donnes:Concepts et techniques
Data Mining, fouille de donnes:
Concepts et techniques
Marius Fieschi
Facult de Mdecine de Marseille
8/3/2019 fouille des donnes
2/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data Mining, fouille de donnes:
Concepts et techniques
Data Mining, fouille de donnes:
Concepts et techniques
Ce cours est trs proche du cours diffus sur le net par
Jiawei Han et Micheline KamberIntelligent Database Systems Research Lab School of Computing Science
Simon Fraser University, Canada
http://www.cs.sfu.ca
Quils en soient remercis
8/3/2019 fouille des donnes
3/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Introduction
Introduction
Motivation: Pourquoi le data mining (fouille de donnes)?
Quest-ce que le data mining?
Fouille de donnes: Sur quel type de donnes?
Fonctionnalits de la fouille de donnes
Classification des systmes de data mining
8/3/2019 fouille des donnes
4/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Pourquoi la fouille de donnes?Pourquoi la fouille de donnes?
Lexplosion des donnes
Les outils de collecte automatique des donnes et les bases de donnes
conduisent dnormes masses de donnes stockes dans des entrepts
Submergs par les donnes, manque de connaissance!
Solution: Entrepts de donnes et fouille de donnes
Entrepts de donnes et analyse on-line
Extraction de la connaissance intressante (rgles, rgularits, patterns,
contraintes) partir de grandes bases de donnes
8/3/2019 fouille des donnes
5/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Evolution de la technologie des bases de
donnes
Evolution de la technologie des bases de
donnes
1970: Bases de donnes relationnelles (RDBMS)
1980: RDBMS, modles de donnes avancs (extension du
relationnel, OO, ...) et DBMS orients application (spatial,
scientifique, )
1990 - 2000: Fouilles de donnes et entrepts de donnes, BDD
multimdia, bases de donnes Web
8/3/2019 fouille des donnes
6/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Quest-ce que la fouille de donnes?Quest-ce que la fouille de donnes?
Fouille de donnes (dcouverte de connaissance dans de grandesbases de donnes):
Extraction dinformation intressante (non triviale, implicite, non
connue prcdemment et potentiellement utile) ou de patterns Dcouverte de connaissance (mining) dans des Bdd, extraction de
connaissance, analyse de donnes/pattern.
Propose des rsums dinformation (rapports multidimensionnels,rsums statistiques)
8/3/2019 fouille des donnes
7/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data Mining: Un processus de dcouverte de connaissanceData Mining: Un processus de dcouverte de connaissance
Data
Cleaning
Bases dedonnes
Intgration de
donnes
Data
Warehouse
Donnes
pertinentes
Slection
Data
Mining
Evaluation
du modle
Connaissance
8/3/2019 fouille des donnes
8/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Etapes dun processus de dcouverte de connaissanceEtapes dun processus de dcouverte de connaissance
Connatre le domaine dapplicationConnaissance pertinente dj tablie et buts de lapplication
Slection des donnes cibles
Data cleaning, pr traitement
Rduction de donnes et transformation:
Choix des fonctions du data miningSynthse, rsum, classification, rgression, association, clustering.
Choix des algorithmes de fouille
Data mining:Recherche des modles intressants
Evaluation des pattern et prsentation de la connaissanceVisualisation, transformation, etc.
Utilisation de la connaissance
8/3/2019 fouille des donnes
9/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Architecture dun systme type de data miningArchitecture dun systme type de data mining
Data cleaning,
intgration
Filtrage
Serveur de base de donnes oudentrept de donnes
Moteur de Data mining
Evaluation du Pattern
Interface utilisateur
Base de
connaissance
Bases de donnes Data Warehouse
8/3/2019 fouille des donnes
10/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data mining: Sur quel type de donnes?Data mining: Sur quel type de donnes?
Bases de donnes relationnelles Data warehouses / entrepts de donnes
Rservoir de donnes
Orientes Objet
Bases de donnes spatiales
Donnes chronologiques et donnes temporelles
Bases textuelles et multimdia
WWW
8/3/2019 fouille des donnes
11/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Intrt des modles (patterns) dcouvertsIntrt des modles (patterns) dcouverts
Un systme de data mining gnre des milliers de patterns, tous
ne sont pas intressants.
Intrt
Un pattern est intressant si il est
facilement compris par les humains,
valide sur donnes nouvelles ou testes avec un certain degr de certitude,
potentiellement utile,
nouveau, ou validant certaines hypothses que lon cherche confirmer
Objectif vs. subjectif
Objectif: bas sur des statistiques et des structures de patterns
Subjectif: bas sur des croyances des utilisateurs
8/3/2019 fouille des donnes
12/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
La fouille de donnesLa fouille de donnes
Fouille de donnes
Technologie des
bases de donnesStatistiques
Autres
disciplines
Science de
linformation
ApprentissageMachine
Learning
Visualisation
8/3/2019 fouille des donnes
13/28Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
La fouille de donnesLa fouille de donnes
Bases de donnes fouillerRelationnelles, transactionnelles, orientes objet, spatiales, sries
chronologiques, textuelles, multi-media, WWW, etc.
Connaissance fouillerCaractrisation, discrimination, association, classification, dviation etanalyse des outliers
Techniques utilises
Bases de donnes, data warehouse (OLAP), machine learning,
statistiques, visualisation, rseaux de neurones.
8/3/2019 fouille des donnes
14/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Entrepts de donnes (data warehousing)
et technologies pour la fouille de donnes
(data mining)
Entrepts de donnes (data warehousing)
et technologies pour la fouille de donnes
(data mining)
8/3/2019 fouille des donnes
15/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data Warehouse: les applicationsData Warehouse: les applications
Trois types dapplications pour les data warehouse
Traitement de linformation
Pour requtes, analyse statistique de base, rapports, tableaux croiss,
diagrammes, graphiques
Traitement analytique ++
Analyse multidimensionnelle des donnes
Data miningDcouverte de connaissances et de modles
Pour raliser des classifications, des analyses de prdiction.
8/3/2019 fouille des donnes
16/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data Warehousing et technologies pour la fouille
de donnes
Data Warehousing et technologies pour la fouille
de donnes
Quest-ce quun data warehouse?
Un modle de donnes multi dimensionnelles
Architecture du data warehouse
Implmentation dun data warehouse
Du data warehousing la fouille de donnes
8/3/2019 fouille des donnes
17/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Quest-ce que le Data Warehouse?Quest-ce que le Data Warehouse?
Une base de donnes daide la dcision qui est entretenue de
manire spare de la base de donnes oprationnelle de
lorganisation
Aide au traitement de linformation en fournissant une
plateforme de donnes historiques consolides pour lanalyse.
Data warehousing: Le processus de construction et dutilisationdu data warehouse
8/3/2019 fouille des donnes
18/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Lapproche Subject-Oriented du data
warehouse
Lapproche Subject-Oriented du data
warehouse
Organis autour des sujets majeurs, tels que personne, client,
Sujet= Faits + dimensions
Centr sur la modlisation et lanalyse de donnes pour les
dcideurs, non pour des oprations quotidiennes
Fournit une vue simple, concise sur des sujets particuliers en
excluant des donnes inutiles dans le processus daide ladcision
Construit par intgration de sources de donnes multiples et
htrognes
8/3/2019 fouille des donnes
19/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Le schma en toileLe schma en toile
Une table de faits encadres par N tables de dimensions
Exemple
IDper
anne
trimestre
mois
jour
Priodes
IDmag
nom
ville
dpartement
pays
Magasins
Table de faits ventes
produit
magasin
units_vendues
montant_ventes
taxes_ventes
IDprod
description
couleur
taillefournisseur
Produits
priode
8/3/2019 fouille des donnes
20/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data WarehouseData Warehouse
La consolidation des donnesApplication de techniques de data cleaning et de data intgration
La cohrence des donnes doit tre assureNommer les rgles de codage, les mesures, les attributs, pour les
diffrentes sources de donnes
La conversion des donnes intgres au datawarehouse
Limportance du temps pour le
data warehouse
Toutes les structures cls dans le data warehouse contiennent un
lment de temps, explicitement ou implicitement
8/3/2019 fouille des donnes
21/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Data WarehouseData Warehouse
La mise jour de donnes oprationnelles nest pas ralise dans
le data warehouseNe demande pas de transactionnel et mcanismes de contrle daccs
concurrentiels
Demande uniquement deux oprations en accs aux donnes:
Chargement initial de donnes et accs aux donnes.
Intgration traditionnelle de bases de donnes (bdd) htrognes:
Construction de wrappers/mdiateurs au dessus des bdd htrognes
8/3/2019 fouille des donnes
22/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Deux types de traitements: OLAP / OLTPDeux types de traitements: OLAP / OLTP
OLTP (on-line transaction processing)
Tche majeure des Bdd relationnelles traditionnelles
Oprations quotidiennes enregistres.
OLAP (on-line analytical processing)
Tche majeure des systmes de data warehouse
Analyse de donnes et dcision
Le data warehouse: OLAP
8/3/2019 fouille des donnes
23/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
OLTP vs. OLAPOLTP vs. OLAP
OLTP OLAPUtilisateurs employ, professionnel Analyste connaissance
Fonction Oprations au jour le jour Aide la dcisionConception de la Bdd Oriente application Oriente sujet
Donne
courante,
dtaille, simple relationnel
historique, rsume,
multidimensionnelle,
intgre, consolide
Usage rptitif ad-hoc
Accsread/write
index/hash sur cl primairemultiples
Unit de travail court, transaction simple Requte complexe
Enregistrements accs. dizaines millions
Nb utilisateurs milliers centaines
Taille de la Bdd 100MB-GB 100GB-TB
Mtrique transaction requte
8/3/2019 fouille des donnes
24/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Pourquoi sparer leData Warehouse?Pourquoi sparer leData Warehouse?
Haute performance pour les deux systmes
DBMS: performance pour OLTP
mthodes daccs, index, accs concurrentiels, restauration
Warehouse: performance pour OLAPrequtes complexes, vue multidimensionnelle, consolidation
Diffrentes fonctions et diffrentes donnes
Donnes manquantes:Laide la dcision (AAD) demande des donnes historiques. Les Bddoprationnelles ne les grent pas toujours
Consolidation de donnes:
LAAD demande la consolidation (agrgation, rsum) de donnesissues de sources htrognes
Qualit des donnes:
Habituellement diffrentes sources utilisent des reprsentations dedonnes non cohrentes, des codes et des formats rconcilier
8/3/2019 fouille des donnes
25/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Les cubes de donnesLes cubes de donnes
Un data warehouse est bas sur un modle de donnes
multidimensionnel qui voit les donnes sous forme de
data cube
Un data cube , comme par exemple les ventes, permet de
modliser et de voir les donnes relatives aux ventes en de
multiples dimensions
8/3/2019 fouille des donnes
26/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Une hirarchie de concepts: Dimension (lieu)Une hirarchie de concepts: Dimension (lieu)
Tous
Timone Nord
obsttriquecardiologiecardiologieneurochirurgie
hospitalisation
...
......
... ...
Tous
hpital
service
H d JconsultationUF
8/3/2019 fouille des donnes
27/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Donnes multidimensionnellesDonnes multidimensionnelles
Volume des factures, une fonction de lactivit, mois, et de lhpital
Dimensions: Activit, Lieu, Temps
Synthses hirarchiques
MCO Hpital Anne
Chir. Service Trimestre
Actes UF Mois Semaine
JourActivit
H
pital
Mois
8/3/2019 fouille des donnes
28/28
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Un exemple de cube de donnesUn exemple de cube de donnes
Total annuel activit
de chir. TimoneDate
Activit
Etablissement
somme
sommeChir.
Obst.Md.
1trim 2trim 3trim 4trim
Timone
Conception
Nord
somme