mRMR

Mutual InformationMax Dependency

Max RelevanceMin Redundancy

mRMRAlgoritmo

Sperimentazione

mRMR - features selection method

Simone Rutigliano

Corso di Laurea in Informatica Magistrale

3 dicembre 2014

Simone Rutigliano mRMR



mRMRAlgoritmo

Sperimentazione

Outline

1 Mutual InformationDefinizioneFormuleProblematiche

2 Max DependencyDefinizioneFormulaProblemi

3 Max RelevanceDefinizione

FormuleProblematiche

4 Min RedundancyDefinizioneFormule

5 mRMRDefinizioneFormuleBenefici

6 Algoritmo7 Sperimentazione




mRMRAlgoritmo

Sperimentazione

mRMR in azione

InputData

TrainingData

TestData

FeatureSelection

mRMR

ReducedData

ReducedTest Data

Classifier Rule

Prediction

Class Label




mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleProblematiche

Mutual Information - Definizione

La mutua informazione rappresenta i bit di informazione cheuna delle variabili fornisce riguardo l’altra.

Date due variabili casuali X e Y, la mutua informazione edefinita come

I (X ;Y ) = H(X )− H(X |Y ) = H(Y )− H(Y |X )

dove le entropie sono calcolate

H(X ) = −∑i∈X

P(xi ) ∗ log(P(xi ))

H(X ,Y ) = −∑i∈X

∑j∈Y

P(xi , yj) ∗ log(P(xi , yj))




mRMRAlgoritmo

Sperimentazione


Considerazioni

Indipendenza: I (X ;Y ) = 0

Simmetria: I (X ;Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) = I (Y ;X )

Riflessivita: I (X ;X ) = H(X )




mRMRAlgoritmo

Sperimentazione


Esempio

Lanciamo 10 monete:

X rappresenta i valori delle prime 7 monete

Y quelli delle ultime 5

Avremo che:

H(X ) = 7

H(Y ) = 5

H(X |Y ) = 5

H(Y |X ) = 3

La mutua informazione sara quindi pari a

I (X ;Y ) = I (Y ;X ) = 2




mRMRAlgoritmo

Sperimentazione


In caso di varibili discrete. . .

Definite due variabili casuali discrete X e Y

I (x ; y) =∑y∈Y

∑x∈X

p(x , y) logp(x , y)

p(x)p(y)

dove

p(x , y) e la funzione di distribuzione di probabilita congiuntadi X e Y

p(x) e p(y) sono le funzioni di distribuzione di probabilitamarginale di X e Y




mRMRAlgoritmo

Sperimentazione


. . . mentre nel caso di variabili continue

I (x ; y) =

∫Y

∫Xp(x , y) log

p(x , y)

p(x)p(y)dxdy

dove

p(x , y) e la funzione di densita di probabilita congiunta di X eY

p(x) e p(y) sono le funzioni di densita di probabilitamarginale di X e Y




mRMRAlgoritmo

Sperimentazione


Problematiche

In caso di variabili continue, difficolta nella computazionedegli integrali nello spazio continuo su un numero limitato dicampioni

Soluzione

Discretizzazione dei dati nella fase di preprocessing




mRMRAlgoritmo

Sperimentazione

DefinizioneFormulaProblemi

Max Dependency . . .

In termini di mutua informazione, l’obiettivo e trovare il set difeature S con m features che abbia la piu alta dipendenza con laclasse target c

maxDep(S , c) Dep = I (x1, . . . , xm; c)

Dove

x1, . . . , xm sono le m features selezionate

I indica la mutua informazione tra le feature del set




mRMRAlgoritmo

Sperimentazione


. . . Max Dependency

Dato un set contenente m-1 features( Sm−1) l’m-sima featureconsiste nella feature che piu riesce ad incrementare la mutuainformazione I (S , c)

I (Sm; c) =

∫ ∫p(Sm, c) log

p(Sm, c)

p(Sm)p(c)dSmdc

=

∫ ∫p(Sm−1, xm, c) log

p(Sm−1, xm, c)

p(Sm − 1, xm)p(c)dSm−1dSmdc

=

∫. . .

∫p(x1, . . . , xm, c) log

p(x1, . . . , xm, c)

p(x1, . . . , xm)p(c)dx1, . . . ,dxmdc




mRMRAlgoritmo

Sperimentazione


Problemi nel continuo

Difficolta nella stima accurata delle funzioni di densita multivariatep(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:

Numero di campioni insufficienti

Comporta il calcolo delle inverse delle matrice di covarianzamultidimensionali

Computazione molto lenta




mRMRAlgoritmo

Sperimentazione


Problemi nel discreto

Difficolta nel calcolo delle funzioni di distribuzione di probabilitacongiunta p(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:

Numero di campioni insufficienti

Computazione molto lenta in caso di un valore m molto alto




mRMRAlgoritmo

Sperimentazione


Soluzione

Approssimare la funzione di dipendenza ad una funzionecomputazionalmente meno onerosa

Dependency ≈ Relevance + Redundancy ∨

Dependency ≈ Relevance

Redundancy




mRMRAlgoritmo

Sperimentazione


Max Relevance - Definizione

Ricercare le feature che riescano ad approssimare la funzione

maxDep(S , c) Dep = I (x1, . . . , xm; c)

con il valor medio di tutti i valori della mutua informazione trale singole feature xi e la classe c




mRMRAlgoritmo

Sperimentazione


Per variabili discrete

In caso di variabili discrete l’obiettivo sara massimizzare la funzioneDep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

I (xi ; c)

dove

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target




mRMRAlgoritmo

Sperimentazione


Per variabili continue. . .

Per le variabili continue bisogna usare la F-statistic come misuraper calcolare la rilevanza tra le features xi e la classe target c

F (xi , c) =

∑K

nk (xk−x)

K−1

σ2

dove:

σ2 =

∑k

(nk−1)σ2k

n−Kk indica le classi denotate da c

x e il valor medio di xi di tutti i campioni

xk e il valor medio di xi di tutti i campioni di classe k

nk e σk indicano dimensione e varianza della k−classe




mRMRAlgoritmo

Sperimentazione


. . . per variabili continue

In caso di variabili continue l’obiettivo sara massimizzare lafunzione Dep calcolata nel seguente modo

Dep(S , c) =1

|S |∑xi∈S

F (xi ; c)

dove

F indica la funzione F − test calcolata sulle feature inrelazione alla classe target

S indica il set contenente tutte le features

xi indica la i-sima feature da considerare

c indica la classe target




mRMRAlgoritmo

Sperimentazione


Problematiche

Features selezionate in questo modo potrebbero essere ricchedi ridondanza

Se due features dipendono l’una dall’altra e probabile cheeliminando una di esse il potere discriminante non saradecrementato




mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Min Redundancy - Definizione

Consiste nel selezionare le features in modo tale che siano traloro piu dissimilari possibili

Il subset che si otterra sara il piu rappresentativo possibiledell’intero dataset

Formalmente consiste nel

Calcolare una funzione Red calcolata sul set di feature S

Trovare il subset che minimizza la funzione calcolata

minRed(S)




mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Per variabili discrete

Red(S) =1

|S |2∑

xi ,xj∈SI (xi ; xj)

dove

|S |(= m) e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

I (xi ; xj) rappresenta la mutua informazione tra le due feature




mRMRAlgoritmo

Sperimentazione

DefinizioneFormule

Per variabili continue

Red(S) =1

|S |2∑

xi ,xj∈S|c(xi ; xj)|

dove

|S |(= m) e il numero di features presenti nel subset S

xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S

|c(xi ; xj)| indica il valore assoluto del coefficiente dicorrelazione di Pearson tra le feature xi e xj




mRMRAlgoritmo

Sperimentazione

DefinizioneFormuleBenefici

mRMR - Definizione

Approccio basato sulla combinazione della

minima ridondanza tra le features

massima rilevanza delle features con la classe target




mRMRAlgoritmo

Sperimentazione


Calcolo mRMR

Variabili discrete

MID - Mutual information differenceMIQ - Mutual information quotient

Variabili continue

FCD - F-test correlation differenceFCQ - F-test correlation quotient




mRMRAlgoritmo

Sperimentazione


Discrete - MID

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

max(Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj)




mRMRAlgoritmo

Sperimentazione


Discrete - MIQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

I (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

I (xi ; xj)




mRMRAlgoritmo

Sperimentazione


Continuous - FCD

Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

max((Dep(S , c)− Red(S))

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj)|




mRMRAlgoritmo

Sperimentazione


Continuous - FCQ

Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test

maxDep(S , c)

Red(S)

dove ricordiamo che

Dep(S , c) = 1|S |

∑xi∈S

F (xi ; c)

Red(S) = 1|S |2

∑xi ,xj∈S

|c(xi ; xj)|




mRMRAlgoritmo

Sperimentazione


Benefici

Con lo stesso numero di features, mRMR garantisce maggiorerappresentativita al dataset offrendo una migliore proprieta digeneralizzazione

Allo stesso modo, possiamo usare un set di feature mRMR piupiccolo per ricoprire in maniera piu efficace lo stesso spazioricoperto da feature set convenzionale piu grande




mRMRAlgoritmo

Sperimentazione

Feature Selection

La fase di Feature Selection avverra in modalita two stage:

1 Selezione del candidate feature set tramite l’utilizzo dellatecnica mRMR

2 Utilizzo del wrapper model per una ulteriore selezione difeature partendo dal candidate feature set




mRMRAlgoritmo

Sperimentazione

Fase 1 - Selezione del Candidate Feature Set

1 Vengono creati n subset sequenziali di feature tramite laselezione incrementale mRMR nella forma

S1 ⊂ S2 ⊂ · · · ⊂ Sn−1 ⊂ Sn

2 Per ogni subset Sk con 1 ≤ k ≤ n, verra calcolato l’errore dicross-validation ek ed inserito in un insieme Ω.

3 Viene selezionato il subset Sn∗ dove n∗ e il subset aventecome errore e∗ il piu piccolo errore di cross validation ∈ Ω.




mRMRAlgoritmo

Sperimentazione

Fase 2 - Wrapper Model

Il subset candidato sara il subset dato in input al wrapperUtilizzo di 4 tecniche di feature selection

Naıve Bayes (NB) classifierSupport Vector Machine (SVM)Linear Discriminant Analysis (LDA)Logistic Regression (LR)




mRMRAlgoritmo

Sperimentazione

Naıve Bayes (NB) classifier

Si basa sul Teorema di Bayes

Tutte le feature sono indipendenti tra loro (indipendenceassumption)

p(ck |S) ∝∏g∈S

p(g |ck)

dove

S = Set di m feature cosi composto s = g1, g2, . . . , gmp(ck |S) = probabilita a posteriori che il set S determini laclasse ck

p(g |ck) = probabilita a posteriori che il valore g occorranelle istanze di classe ck




mRMRAlgoritmo

Sperimentazione

Support Vector Machine (SVM)

SVM massimizza il margine di separazione tra gli iperpiani

La funzione di decisione viene creata sulla base del subset diesempi (support vectors)




mRMRAlgoritmo

Sperimentazione

Linear Discriminant Analysis (LDA)

Metodo di classificazione che sfrutta la combinazione lineare trafeature sotto determinate assunzioni:

Ogni campione segue unadistribuzione Gaussiana

Nessuna correlazione trafeature




mRMRAlgoritmo

Sperimentazione

Logistic Regression (LR)

Caso particolare di modello lineare generalizzatoApplicazione di una funzione logistica alla combinazionelineare delle feature in modo da limitarla in un intervallo [0; 1]




mRMRAlgoritmo

Sperimentazione

Sperimentazione . . .

La sperimentazione eseguita aveva i seguenti parametri:

Esecuzione su 6 dataset di geni contenenti sia attributidiscreti che continui

Goal: Verificare se l’approccio mRMR potesse migliorare leperformance di classificazione

Configurazioni

Baseline + wrapper (NB, SVM, LDA, LR)mRMR approach + wrapper (NB, SVM, LDA, LR)




mRMRAlgoritmo

Sperimentazione

. . . Sperimentazione

I risultati mostrano che mRMR performa meglio della baseline sututte le configurazioni, in particolare

Su variabili discrete la scelta migliore ricade su MIQ

Su variabili continue la scelta migliore ricade su FCQ

mRMR e indipendente dal metodo predittivo utilizzato

mRMR riesce con meno feature della baseline ad eguagliare emigliorare le performance




mRMRAlgoritmo

Sperimentazione

References

Chris Ding and Hanchuan Peng.Minimum redundancy feature selection from microarray geneexpression data.In Proceedings of the IEEE Computer Society Conference onBioinformatics, CSB ’03, pages 523–, Washington, DC, USA,2003. IEEE Computer Society.

Hanchuan Peng, Fuhui Long, and Chris Ding.Feature selection based on mutual information: criteria ofmax-dependency, max-relevance, and min-redundancy.IEEE Transactions on Pattern Analysis and MachineIntelligence, 27:1226–1238, 2005.


Technology

mRMR