39
Mutual Information Max Dependency Max Relevance Min Redundancy mRMR Algoritmo Sperimentazione mRMR - features selection method Simone Rutigliano Corso di Laurea in Informatica Magistrale 3 dicembre 2014 Simone Rutigliano mRMR

mRMR

Embed Size (px)

Citation preview

Page 1: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

mRMR - features selection method

Simone Rutigliano

Corso di Laurea in Informatica Magistrale

3 dicembre 2014

Simone Rutigliano mRMR

Page 2: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Outline

1 Mutual InformationDefinizioneFormuleProblematiche

2 Max DependencyDefinizioneFormulaProblemi

3 Max RelevanceDefinizione

FormuleProblematiche

4 Min RedundancyDefinizioneFormule

5 mRMRDefinizioneFormuleBenefici

6 Algoritmo7 Sperimentazione

Simone Rutigliano mRMR

Page 3: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

mRMR in azione

InputData

TrainingData

TestData

FeatureSelection

mRMR

ReducedData

ReducedTest Data

Classifier Rule

Prediction

Class Label

Simone Rutigliano mRMR

Page 4: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Mutual Information - Definizione

La mutua informazione rappresenta i bit di informazione cheuna delle variabili fornisce riguardo l’altra.

Date due variabili casuali X e Y, la mutua informazione edefinita come

I (X ;Y ) = H(X )− H(X |Y ) = H(Y )− H(Y |X )

dove le entropie sono calcolate

H(X ) = −∑i∈X

P(xi ) ∗ log(P(xi ))

H(X ,Y ) = −∑i∈X

∑j∈Y

P(xi , yj) ∗ log(P(xi , yj))

Simone Rutigliano mRMR

Page 5: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Considerazioni

Indipendenza: I (X ;Y ) = 0

Simmetria: I (X ;Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) = I (Y ;X )

Riflessivita: I (X ;X ) = H(X )

Simone Rutigliano mRMR

Page 6: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Esempio

Lanciamo 10 monete:

X rappresenta i valori delle prime 7 monete

Y quelli delle ultime 5

Avremo che:

H(X ) = 7

H(Y ) = 5

H(X |Y ) = 5

H(Y |X ) = 3

La mutua informazione sara quindi pari a

I (X ;Y ) = I (Y ;X ) = 2

Simone Rutigliano mRMR

Page 7: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

In caso di varibili discrete. . .

Definite due variabili casuali discrete X e Y

I (x ; y) =∑y∈Y

∑x∈X

p(x , y) logp(x , y)

p(x)p(y)

dove

p(x , y) e la funzione di distribuzione di probabilita congiuntadi X e Y

p(x) e p(y) sono le funzioni di distribuzione di probabilitamarginale di X e Y

Simone Rutigliano mRMR

Page 8: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

. . . mentre nel caso di variabili continue

I (x ; y) =

∫Y

∫Xp(x , y) log

p(x , y)

p(x)p(y)dxdy

dove

p(x , y) e la funzione di densita di probabilita congiunta di X eY

p(x) e p(y) sono le funzioni di densita di probabilitamarginale di X e Y

Simone Rutigliano mRMR

Page 9: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Problematiche

In caso di variabili continue, difficolta nella computazionedegli integrali nello spazio continuo su un numero limitato dicampioni

Soluzione

Discretizzazione dei dati nella fase di preprocessing

Simone Rutigliano mRMR

Page 10: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

Max Dependency . . .

In termini di mutua informazione, l’obiettivo e trovare il set difeature S con m features che abbia la piu alta dipendenza con laclasse target c

maxDep(S , c) Dep = I (x1, . . . , xm; c)

Dove

x1, . . . , xm sono le m features selezionate

I indica la mutua informazione tra le feature del set

Simone Rutigliano mRMR

Page 11: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

. . . Max Dependency

Dato un set contenente m-1 features( Sm−1) l’m-sima featureconsiste nella feature che piu riesce ad incrementare la mutuainformazione I (S , c)

I (Sm; c) =

∫ ∫p(Sm, c) log

p(Sm, c)

p(Sm)p(c)dSmdc

=

∫ ∫p(Sm−1, xm, c) log

p(Sm−1, xm, c)

p(Sm − 1, xm)p(c)dSm−1dSmdc

=

∫. . .

∫p(x1, . . . , xm, c) log

p(x1, . . . , xm, c)

p(x1, . . . , xm)p(c)dx1, . . . ,dxmdc

Simone Rutigliano mRMR

Page 12: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

Problemi nel continuo

Difficolta nella stima accurata delle funzioni di densita multivariatep(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:

Numero di campioni insufficienti

Comporta il calcolo delle inverse delle matrice di covarianzamultidimensionali

Computazione molto lenta

Simone Rutigliano mRMR

Page 13: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

Problemi nel discreto

Difficolta nel calcolo delle funzioni di distribuzione di probabilitacongiunta p(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:

Numero di campioni insufficienti

Computazione molto lenta in caso di un valore m molto alto

Simone Rutigliano mRMR

Page 14: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

Soluzione

Approssimare la funzione di dipendenza ad una funzionecomputazionalmente meno onerosa

Dependency ≈ Relevance + Redundancy ∨

Dependency ≈ Relevance

Redundancy

Simone Rutigliano mRMR

Page 15: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Max Relevance - Definizione

Ricercare le feature che riescano ad approssimare la funzione

maxDep(S , c) Dep = I (x1, . . . , xm; c)

con il valor medio di tutti i valori della mutua informazione trale singole feature xi e la classe c

Simone Rutigliano mRMR

Page 16: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Per variabili discrete

In caso di variabili discrete l’obiettivo sara massimizzare la funzioneDep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

I (xi ; c)

dove

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target

Simone Rutigliano mRMR

Page 17: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Per variabili continue. . .

Per le variabili continue bisogna usare la F-statistic come misuraper calcolare la rilevanza tra le features xi e la classe target c

F (xi , c) =

∑K

nk (xk−x)

K−1

σ2

dove:

σ2 =

∑k

(nk−1)σ2k

n−Kk indica le classi denotate da c

x e il valor medio di xi di tutti i campioni

xk e il valor medio di xi di tutti i campioni di classe k

nk e σk indicano dimensione e varianza della k−classe

Simone Rutigliano mRMR

Page 18: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

. . . per variabili continue

In caso di variabili continue l’obiettivo sara massimizzare lafunzione Dep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

F (xi ; c)

dove

F indica la funzione F − test calcolata sulle feature inrelazione alla classe target

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target

Simone Rutigliano mRMR

Page 19: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Problematiche

Features selezionate in questo modo potrebbero essere ricchedi ridondanza

Se due features dipendono l’una dall’altra e probabile cheeliminando una di esse il potere discriminante non saradecrementato

Simone Rutigliano mRMR

Page 20: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Min Redundancy - Definizione

Consiste nel selezionare le features in modo tale che siano traloro piu dissimilari possibili

Il subset che si otterra sara il piu rappresentativo possibiledell’intero dataset

Formalmente consiste nel

Calcolare una funzione Red calcolata sul set di feature S

Trovare il subset che minimizza la funzione calcolata

minRed(S)

Simone Rutigliano mRMR

Page 21: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Per variabili discrete

Red(S) =1

|S |2∑

xi ,xj∈SI (xi ; xj)

dove

|S |(= m) e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

I (xi ; xj) rappresenta la mutua informazione tra le due feature

Simone Rutigliano mRMR

Page 22: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Per variabili continue

Red(S) =1

|S |2∑

xi ,xj∈S|c(xi ; xj)|

dove

|S |(= m) e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

|c(xi ; xj)| indica il valore assoluto del coefficiente dicorrelazione di Pearson tra le feature xi e xj

Simone Rutigliano mRMR

Page 23: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

mRMR - Definizione

Approccio basato sulla combinazione della

minima ridondanza tra le features

massima rilevanza delle features con la classe target

Simone Rutigliano mRMR

Page 24: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Calcolo mRMR

Variabili discrete

MID - Mutual information differenceMIQ - Mutual information quotient

Variabili continue

FCD - F-test correlation differenceFCQ - F-test correlation quotient

Simone Rutigliano mRMR

Page 25: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Discrete - MID

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

max(Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj)

Simone Rutigliano mRMR

Page 26: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Discrete - MIQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj)

Simone Rutigliano mRMR

Page 27: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Continuous - FCD

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

max((Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj)|

Simone Rutigliano mRMR

Page 28: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Continuous - FCQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj)|

Simone Rutigliano mRMR

Page 29: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

Benefici

Con lo stesso numero di features, mRMR garantisce maggiorerappresentativita al dataset offrendo una migliore proprieta digeneralizzazione

Allo stesso modo, possiamo usare un set di feature mRMR piupiccolo per ricoprire in maniera piu efficace lo stesso spazioricoperto da feature set convenzionale piu grande

Simone Rutigliano mRMR

Page 30: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Feature Selection

La fase di Feature Selection avverra in modalita two stage:

1 Selezione del candidate feature set tramite l’utilizzo dellatecnica mRMR

2 Utilizzo del wrapper model per una ulteriore selezione difeature partendo dal candidate feature set

Simone Rutigliano mRMR

Page 31: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Fase 1 - Selezione del Candidate Feature Set

1 Vengono creati n subset sequenziali di feature tramite laselezione incrementale mRMR nella forma

S1 ⊂ S2 ⊂ · · · ⊂ Sn−1 ⊂ Sn

2 Per ogni subset Sk con 1 ≤ k ≤ n, verra calcolato l’errore dicross-validation ek ed inserito in un insieme Ω.

3 Viene selezionato il subset Sn∗ dove n∗ e il subset aventecome errore e∗ il piu piccolo errore di cross validation ∈ Ω.

Simone Rutigliano mRMR

Page 32: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Fase 2 - Wrapper Model

Il subset candidato sara il subset dato in input al wrapperUtilizzo di 4 tecniche di feature selection

Naıve Bayes (NB) classifierSupport Vector Machine (SVM)Linear Discriminant Analysis (LDA)Logistic Regression (LR)

Simone Rutigliano mRMR

Page 33: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Naıve Bayes (NB) classifier

Si basa sul Teorema di Bayes

Tutte le feature sono indipendenti tra loro (indipendenceassumption)

p(ck |S) ∝∏g∈S

p(g |ck)

dove

S = Set di m feature cosi composto s = g1, g2, . . . , gmp(ck |S) = probabilita a posteriori che il set S determini laclasse ck

p(g |ck) = probabilita a posteriori che il valore g occorranelle istanze di classe ck

Simone Rutigliano mRMR

Page 34: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Support Vector Machine (SVM)

SVM massimizza il margine di separazione tra gli iperpiani

La funzione di decisione viene creata sulla base del subset diesempi (support vectors)

Simone Rutigliano mRMR

Page 35: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Linear Discriminant Analysis (LDA)

Metodo di classificazione che sfrutta la combinazione lineare trafeature sotto determinate assunzioni:

Ogni campione segue unadistribuzione Gaussiana

Nessuna correlazione trafeature

Simone Rutigliano mRMR

Page 36: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Logistic Regression (LR)

Caso particolare di modello lineare generalizzatoApplicazione di una funzione logistica alla combinazionelineare delle feature in modo da limitarla in un intervallo [0; 1]

Simone Rutigliano mRMR

Page 37: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

Sperimentazione . . .

La sperimentazione eseguita aveva i seguenti parametri:

Esecuzione su 6 dataset di geni contenenti sia attributidiscreti che continui

Goal: Verificare se l’approccio mRMR potesse migliorare leperformance di classificazione

Configurazioni

Baseline + wrapper (NB, SVM, LDA, LR)mRMR approach + wrapper (NB, SVM, LDA, LR)

Simone Rutigliano mRMR

Page 38: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

. . . Sperimentazione

I risultati mostrano che mRMR performa meglio della baseline sututte le configurazioni, in particolare

Su variabili discrete la scelta migliore ricade su MIQ

Su variabili continue la scelta migliore ricade su FCQ

mRMR e indipendente dal metodo predittivo utilizzato

mRMR riesce con meno feature della baseline ad eguagliare emigliorare le performance

Simone Rutigliano mRMR

Page 39: mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

References

Chris Ding and Hanchuan Peng.Minimum redundancy feature selection from microarray geneexpression data.In Proceedings of the IEEE Computer Society Conference onBioinformatics, CSB ’03, pages 523–, Washington, DC, USA,2003. IEEE Computer Society.

Hanchuan Peng, Fuhui Long, and Chris Ding.Feature selection based on mutual information: criteria ofmax-dependency, max-relevance, and min-redundancy.IEEE Transactions on Pattern Analysis and MachineIntelligence, 27:1226–1238, 2005.

Simone Rutigliano mRMR