65
BI = Business Intelligence Master Data-Science Cours 6 - Data Mining Ludovic DENOYER - [email protected] Laure SOULIER [email protected] D’apr` es Elisa Fromont UPMC 19 f´ evrier 2017 Ludovic DENOYER - [email protected] Laure SOULIER [email protected] D’apr` BI = Business Intelligence Master Data-ScienceCours 6 - Data

BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

  • Upload
    others

  • View
    10

  • Download
    1

Embed Size (px)

Citation preview

Page 1: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

BI = Business IntelligenceMaster Data-Science

Cours 6 - Data Mining

Ludovic DENOYER - [email protected] SOULIER [email protected]

D’apres Elisa Fromont

UPMC

19 fevrier 2017

Ludovic DENOYER - [email protected] Laure SOULIER [email protected] D’apres Elisa FromontBI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 2: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

De plus en plus de donnees

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 3: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Donnees - Information - Connaissance

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 4: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 5: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining - Exemples d’utilisation de donnees

Transports : gestion des flux des usagers, prevention desbouchons, ...

Marketing : analyse des preferences de consommation,recommandations de produits, ciblage des consommateurs

Grande distribution : analyse des tickets de caisse, fidelisationdu client, cross selling/up selling...

Ressources humaines : analyse des CV des candidats croiseeavec leur reseau social

Scientifiques : prevision de la meteo, analyse du genome,analyse des imageries medicales, ...

Informatique : detection de pannes ou d’incidents securitaires,...

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 6: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining - Exemples d’utilisation de donnees

Les reseaux sociaux

Analyse des amis, analyse temporelle du reseau, detection decommunautesAnalyse des interactions entre utilisateurs : popularite, roledans le reseauAnalyse du contenu des messages : interets, evolution dulangage/des interets, connaissance du monde (websemantique), analyse d’opinion et de controverses, detection defleau (grippe), analyse des votes (like/follow...)Recommandation d’amis, de communaute/de groupes, decontenuRecherche d’informationConstruction de resume, de flux temporels

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 7: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

⇒ Impossibilite d’analyser les donnees manuellement ⇒ Besoin dedevelopper des outils/methodes d’analyse de donnees

Data Mining

the use of sophisticated data analysis tools to discover previouslyunknown, valid patterns and relationships in large data sets(Hand, Mannila, Smyth)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 8: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 9: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 10: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining

A cela, rajouter les connaissances metier, les experts du domainesont vos collaborateurs !

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 11: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining : Les familles de methodes (1/2)

Methodes descriptives (pattern mining) : identifier/synthetiserles informations presentes mais cachees dans un gros volumede donnees (regles association, analyses factorielles,clustering, ...)

Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 12: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Clustering

Regrouper automatiquement les donnees qui se ressemblentCreer des groupes (clusters) de donnees, et des resumesassocies a ces groupes

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 13: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Clustering

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 14: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Clustering

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 15: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Pattern Mining

Trouver des motifs frequents/recurrents dans un ensemble dedonnees

Panier de la menagere

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 16: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Pattern Mining

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 17: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Le Data Mining : Les familles de methodes (2/2)

Methodes predictivesExtrapoler des connaissances/informations a partir des donneespresentesVariables explicatives (classification, discrimination, regression,scoring)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 18: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Classification

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 19: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Traitement des donnees

3 types de variables : nominales, ordinales et continues

Transformations de donnees parfois necessaires :

Donnees qualitatives (nominales ou ordinales) → donneescontinues : tableau disjonctif (0/1) complet (perte de la notiond’ordre)Donnees continues → donnees ordinales : discretisation (pertede l’ecart entre les valeurs, possibilite de faire du non-lineaire)Donnees continues → donnees continues :normalisation/standardisation, transformationdistributionnelles (e.g., ln)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 20: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Dangers du Data Mining

Implication et Causalite

Paradoxe de Simpson

Data dredging (nettoyage)

Redondance

Pas d’Informations Nouvelles

Sur-apprentissage (modeles predictifs)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 21: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Implication et Causalite

Coca-Cola Light → Obesite

Soins intensifs → Mort

A la plage :

Ventes de glaces en hausse ⇒ Nombre de noyes en hausseNombre de noyes en hausse ⇒ Ventes de glaces en hausse

http://www.tylervigen.com/

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 22: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Paradoxe de Simpson

Exemple

On considere deux contributeurs de Wikipedia : Lisa et Bart. Lapremiere semaine, Lisa ameliore 60% des articles qu’elle edite alorsque Bart ameliore 90% des articles qu’il edite. La deuxiemesemaine, Lisa n’ameliore que 10% des articles et Bart s’en tient aun score de 30%. Les deux fois, Bart obtient un meilleur score queLisa. Mais lorsque les deux actions sont combinees, Lisa a amelioreun plus grand pourcentage que Bart. Comment est-ce possible ?

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 23: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Paradoxe de Simpson

Exemple

On considere deux contributeurs de Wikipedia : Lisa et Bart. Lapremiere semaine, Lisa ameliore 60% des articles qu’elle edite alorsque Bart ameliore 90% des articles qu’il edite. La deuxiemesemaine, Lisa n’ameliore que 10% des articles et Bart s’en tient aun score de 30%. Les deux fois, Bart obtient un meilleur score queLisa. Mais lorsque les deux actions sont combinees, Lisa a amelioreun plus grand pourcentage que Bart. Comment est-ce possible ?

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 24: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Data Dredging

Torturer les donnees jusqu’a confession

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 25: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Pas d’informations nouvelles

Motifs les plus frequents = motifs les plus connus

Beaucoup de motifs interessants sont peu frequents, sinon, onles connaitrait deja

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 26: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Et pleins d’autres

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 27: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Sur-apprentissage

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 28: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Sur-apprentissage

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 29: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Un premier type d’approche

Pattern Mining : Detection de regles d’association

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 30: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Detection de regles d’association

Histoire

Le concept de regle d’association a ete popularise, en particulier,par un article de Rakesh Agrawal de 1993. Mais il est possible quecette notion ait ete decouverte sous le nom de GUHA en 1966 parPetr Hajek et ses collegues. Rakesh Agrawal et son equipepresentent des regles d’association dont le but est de decouvrir dessimilitudes entre des produits dans des donnees saisies sur unegrande echelle dans les systemes informatiques des points deventes des chaınes de supermarches - panier de la menagere

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 31: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

La legende du pattern mining

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 32: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Detection de regles d’association

Donnees transactionnelles

Recherche d’associations inconnues/interessantes dans cesbases transactionnelles

Tres (tres) grand volumne de donnees

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 33: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Detection de regles d’association

Applications a la recomendation

En classification : decouverte de motifs frequents dans uneclasse, mais pas dans les autres

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 34: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Item Sets

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 35: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Item Sets

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 36: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Item Sets

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 37: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Itemsets

Soit I = {i1, ...im} un ensemble d’items

Soit T = {t1, ..., tn} un ensemble de transactions ou ti est unsous-ensemble de I

Support : ”fiabilite” du set

Le support Supp(x) avec x ⊆ I est le pourcentage de transactionsqui contiennent x .

Supp(x) =x .count

Card(T )

Un Frequent itemset est un sous-ensemble de I dont le support estsuperieur a une certaine valeur

Supp(x) ≥ minsup

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 38: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Itemsets

Quel est le support de {A}, {B,D}, {A,B,E} ?

Citer tous les itemsets frequents avec minsup = 0.4.

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 39: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Frequent Itemsets

Quel est le support de {A}, {B,D}, {A,B,E} ?

Quels sont les itemsets frequents avec minsup = 4

{}, {A}, {B}, {C}, {A,B}, {A,C}, {B,C}

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 40: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Monotonie

Tout sous-ensemble d’un itemset frequent est aussi unitemset frequent

Imaginez que {A,B} apparaissent 10 fois, alors {A} et {B}apparaissent au moins 10 fois !

Le principe de monotonie va permettre le developpementd’algorithmes performants capables d’analyser de tres grandesmasses de donnees

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 41: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Treillis

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 42: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Treillis

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 43: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Treillis

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 44: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Regles d’association

Definition : x ⇒ y

x et y sont des itemset ⊆ I

x et y sont distinct : x ∩ y = 0

y est non vide : y 6= 0

Signification : Si une transaction contient x , alors ellecontient y aussi

Exemple : {A,C} ⇒ {D,E ,F}

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 45: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Regles d’association

Si R : x ⇒ y alors Supp(R) = Supp(x) ∪ Supp(y)

Confiance ”precision” de la regle :Conf (R) = Supp(R)/Supp(x)

La confiance mesure la fraction de transaction x ∪ y parrapport a celles qui ont x

Les regles avec un haut support, et une confiance elevee sontappelees ”regles fortes” (strong rules)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 46: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Considerons l’ensemble {A,B,E}, quelles sont les regles deminsup = 0.2 et de minconf = 50% ?

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 47: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Considerons l’ensemble {A,B,E}, quelles sont les regles deminsup = 0.2 et de minconf = 50% ?

A, B ⇒ E : conf=2/4 = 50%A, E ⇒ B : conf=2/2 = 100%B, E ⇒ A : conf=2/2 = 100%E ⇒ A, B : conf=2/2 = 100%Don’t qualifyA ⇒ B, E : conf=2/6 =33% < 50%B ⇒ A, E : conf=2/7 = 28% < 50%{} ⇒ A,B,E : conf : 2/9 = 22% < 50%

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 48: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Decouverte de regles d’association

Etant donne :

minsup, minconf , et un ensemble de transactions T

Probleme :

Trouver les regles d’association R de T telles queSupp(R) ≥ minsup et Conf (R) ≥ minconf

Probleme combinatoire complexe

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 49: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Decouverte de regles d’association

Approche typique :Une regle R : X ⇒ Y satisfait minsup et minconf ssi :

Supp(X ∪ Y ) ≥ minsupSupp(X ∪ Y )/Supp(X ) ≥ minconf

On va chercher tous les Z tels que Supp(Z ) ≥ minsupEnsuite, pour chaque Z :

On decoupe Z en X et Y tel que Z = X ∪ YOn teste pour savoir si Supp(X ∪ Y )/Supp(X ) ≥ minconf

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 50: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Monotonie des regles d’association

Exercice

Tout comme pour les itemsets, une propriete de monotonie peutetre trouvee dans les regles d’association. Cherchez la...

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 51: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Monotonie des regles d’association

Exercice

Tout comme pour les itemsets, une propriete de monotonie peutetre trouvee dans les regles d’association. Cherchez la...

Solution

Soit Z = X ∪ Y = X ′ ∪ Y ′ avec X ′ ⊆ X alors :

Supp(X ⇒ Y ) = Supp(X ′ ⇒ Y ′)

Conf (X ⇒ Y ) ≥ Conf (X ′ ⇒ Y ′)

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 52: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Monotonie des regles d’association

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 53: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Algorithme APriori

APriori

L’algorithme APriori est un algorithme d’exploration de donneesconcu en 1994, par Rakesh Agrawal et Ramakrishnan Sikrant, dansle domaine de l’apprentissage des regles d’association. Il sert areconnaitre des proprietes qui reviennent frequemment dans unensemble de donnees et d’en deduire une categorisation.

L’algorithme Apriori s’execute en deux etapes :

Soient minsupp l’indice de support minimum donne, etminconf l’indice de confiance donne.Generation de tous les itemsets frequentsIdentification des itemsets frequents qui satisfont la borneminsuppGeneration de toutes les regles d’associations de confiance apartir des itemsets frequentsIdentification des regles d’association qui satisfont l’indice deconfiance

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 54: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 55: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 56: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 57: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 58: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 59: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 60: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 61: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 62: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 63: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 64: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining

Page 65: BI = Business Intelligence Master Data-Science Cours 6 - Data …dac.lip6.fr/master/wp-content/uploads/2017/02/bi_dm... · 2017-02-20 · BI = Business Intelligence Master Data-Science

Exercice

Trouvez toutes les regles d’association pour minsup = 0.4 etminconf = 0.7

[email protected] BI = Business Intelligence Master Data-ScienceCours 6 - Data Mining