View
26
Download
0
Tags:
Embed Size (px)
Citation preview
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
mRMR - features selection method
Simone Rutigliano
Corso di Laurea in Informatica Magistrale
3 dicembre 2014
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Outline
1 Mutual InformationDefinizioneFormuleProblematiche
2 Max DependencyDefinizioneFormulaProblemi
3 Max RelevanceDefinizione
FormuleProblematiche
4 Min RedundancyDefinizioneFormule
5 mRMRDefinizioneFormuleBenefici
6 Algoritmo7 Sperimentazione
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
mRMR in azione
InputData
TrainingData
TestData
FeatureSelection
mRMR
ReducedData
ReducedTest Data
Classifier Rule
Prediction
Class Label
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Mutual Information - Definizione
La mutua informazione rappresenta i bit di informazione cheuna delle variabili fornisce riguardo l’altra.
Date due variabili casuali X e Y, la mutua informazione edefinita come
I (X ;Y ) = H(X )− H(X |Y ) = H(Y )− H(Y |X )
dove le entropie sono calcolate
H(X ) = −∑i∈X
P(xi ) ∗ log(P(xi ))
H(X ,Y ) = −∑i∈X
∑j∈Y
P(xi , yj) ∗ log(P(xi , yj))
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Considerazioni
Indipendenza: I (X ;Y ) = 0
Simmetria: I (X ;Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) = I (Y ;X )
Riflessivita: I (X ;X ) = H(X )
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Esempio
Lanciamo 10 monete:
X rappresenta i valori delle prime 7 monete
Y quelli delle ultime 5
Avremo che:
H(X ) = 7
H(Y ) = 5
H(X |Y ) = 5
H(Y |X ) = 3
La mutua informazione sara quindi pari a
I (X ;Y ) = I (Y ;X ) = 2
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
In caso di varibili discrete. . .
Definite due variabili casuali discrete X e Y
I (x ; y) =∑y∈Y
∑x∈X
p(x , y) logp(x , y)
p(x)p(y)
dove
p(x , y) e la funzione di distribuzione di probabilita congiuntadi X e Y
p(x) e p(y) sono le funzioni di distribuzione di probabilitamarginale di X e Y
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
. . . mentre nel caso di variabili continue
I (x ; y) =
∫Y
∫Xp(x , y) log
p(x , y)
p(x)p(y)dxdy
dove
p(x , y) e la funzione di densita di probabilita congiunta di X eY
p(x) e p(y) sono le funzioni di densita di probabilitamarginale di X e Y
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Problematiche
In caso di variabili continue, difficolta nella computazionedegli integrali nello spazio continuo su un numero limitato dicampioni
Soluzione
Discretizzazione dei dati nella fase di preprocessing
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormulaProblemi
Max Dependency . . .
In termini di mutua informazione, l’obiettivo e trovare il set difeature S con m features che abbia la piu alta dipendenza con laclasse target c
maxDep(S , c) Dep = I (x1, . . . , xm; c)
Dove
x1, . . . , xm sono le m features selezionate
I indica la mutua informazione tra le feature del set
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormulaProblemi
. . . Max Dependency
Dato un set contenente m-1 features( Sm−1) l’m-sima featureconsiste nella feature che piu riesce ad incrementare la mutuainformazione I (S , c)
I (Sm; c) =
∫ ∫p(Sm, c) log
p(Sm, c)
p(Sm)p(c)dSmdc
=
∫ ∫p(Sm−1, xm, c) log
p(Sm−1, xm, c)
p(Sm − 1, xm)p(c)dSm−1dSmdc
=
∫. . .
∫p(x1, . . . , xm, c) log
p(x1, . . . , xm, c)
p(x1, . . . , xm)p(c)dx1, . . . ,dxmdc
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormulaProblemi
Problemi nel continuo
Difficolta nella stima accurata delle funzioni di densita multivariatep(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:
Numero di campioni insufficienti
Comporta il calcolo delle inverse delle matrice di covarianzamultidimensionali
Computazione molto lenta
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormulaProblemi
Problemi nel discreto
Difficolta nel calcolo delle funzioni di distribuzione di probabilitacongiunta p(x1, . . . , xm) e p(x1, . . . , xm, c) a causa:
Numero di campioni insufficienti
Computazione molto lenta in caso di un valore m molto alto
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormulaProblemi
Soluzione
Approssimare la funzione di dipendenza ad una funzionecomputazionalmente meno onerosa
Dependency ≈ Relevance + Redundancy ∨
Dependency ≈ Relevance
Redundancy
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Max Relevance - Definizione
Ricercare le feature che riescano ad approssimare la funzione
maxDep(S , c) Dep = I (x1, . . . , xm; c)
con il valor medio di tutti i valori della mutua informazione trale singole feature xi e la classe c
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Per variabili discrete
In caso di variabili discrete l’obiettivo sara massimizzare la funzioneDep calcolata nel seguente modo
Dep(S , c) =1
|S |∑xi∈S
I (xi ; c)
dove
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Per variabili continue. . .
Per le variabili continue bisogna usare la F-statistic come misuraper calcolare la rilevanza tra le features xi e la classe target c
F (xi , c) =
∑K
nk (xk−x)
K−1
σ2
dove:
σ2 =
∑k
(nk−1)σ2k
n−Kk indica le classi denotate da c
x e il valor medio di xi di tutti i campioni
xk e il valor medio di xi di tutti i campioni di classe k
nk e σk indicano dimensione e varianza della k−classe
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
. . . per variabili continue
In caso di variabili continue l’obiettivo sara massimizzare lafunzione Dep calcolata nel seguente modo
Dep(S , c) =1
|S |∑xi∈S
F (xi ; c)
dove
F indica la funzione F − test calcolata sulle feature inrelazione alla classe target
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleProblematiche
Problematiche
Features selezionate in questo modo potrebbero essere ricchedi ridondanza
Se due features dipendono l’una dall’altra e probabile cheeliminando una di esse il potere discriminante non saradecrementato
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormule
Min Redundancy - Definizione
Consiste nel selezionare le features in modo tale che siano traloro piu dissimilari possibili
Il subset che si otterra sara il piu rappresentativo possibiledell’intero dataset
Formalmente consiste nel
Calcolare una funzione Red calcolata sul set di feature S
Trovare il subset che minimizza la funzione calcolata
minRed(S)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormule
Per variabili discrete
Red(S) =1
|S |2∑
xi ,xj∈SI (xi ; xj)
dove
|S |(= m) e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S
I (xi ; xj) rappresenta la mutua informazione tra le due feature
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormule
Per variabili continue
Red(S) =1
|S |2∑
xi ,xj∈S|c(xi ; xj)|
dove
|S |(= m) e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esimafeature del subset S
|c(xi ; xj)| indica il valore assoluto del coefficiente dicorrelazione di Pearson tra le feature xi e xj
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
mRMR - Definizione
Approccio basato sulla combinazione della
minima ridondanza tra le features
massima rilevanza delle features con la classe target
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Calcolo mRMR
Variabili discrete
MID - Mutual information differenceMIQ - Mutual information quotient
Variabili continue
FCD - F-test correlation differenceFCQ - F-test correlation quotient
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Discrete - MID
Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione
max(Dep(S , c)− Red(S))
dove ricordiamo che
Dep(S , c) = 1|S |
∑xi∈S
I (xi ; c)
Red(S) = 1|S |2
∑xi ,xj∈S
I (xi ; xj)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Discrete - MIQ
Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo della mutua informazione
maxDep(S , c)
Red(S)
dove ricordiamo che
Dep(S , c) = 1|S |
∑xi∈S
I (xi ; c)
Red(S) = 1|S |2
∑xi ,xj∈S
I (xi ; xj)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Continuous - FCD
Consiste nel trovare le features che massimizzino la differenza tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test
max((Dep(S , c)− Red(S))
dove ricordiamo che
Dep(S , c) = 1|S |
∑xi∈S
F (xi ; c)
Red(S) = 1|S |2
∑xi ,xj∈S
|c(xi ; xj)|
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Continuous - FCQ
Consiste nel trovare le features che massimizzino il rapporto tradipendenze e ridondanze di queste features dalla classe targetattraverso il calcolo del F-test
maxDep(S , c)
Red(S)
dove ricordiamo che
Dep(S , c) = 1|S |
∑xi∈S
F (xi ; c)
Red(S) = 1|S |2
∑xi ,xj∈S
|c(xi ; xj)|
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
DefinizioneFormuleBenefici
Benefici
Con lo stesso numero di features, mRMR garantisce maggiorerappresentativita al dataset offrendo una migliore proprieta digeneralizzazione
Allo stesso modo, possiamo usare un set di feature mRMR piupiccolo per ricoprire in maniera piu efficace lo stesso spazioricoperto da feature set convenzionale piu grande
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Feature Selection
La fase di Feature Selection avverra in modalita two stage:
1 Selezione del candidate feature set tramite l’utilizzo dellatecnica mRMR
2 Utilizzo del wrapper model per una ulteriore selezione difeature partendo dal candidate feature set
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Fase 1 - Selezione del Candidate Feature Set
1 Vengono creati n subset sequenziali di feature tramite laselezione incrementale mRMR nella forma
S1 ⊂ S2 ⊂ · · · ⊂ Sn−1 ⊂ Sn
2 Per ogni subset Sk con 1 ≤ k ≤ n, verra calcolato l’errore dicross-validation ek ed inserito in un insieme Ω.
3 Viene selezionato il subset Sn∗ dove n∗ e il subset aventecome errore e∗ il piu piccolo errore di cross validation ∈ Ω.
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Fase 2 - Wrapper Model
Il subset candidato sara il subset dato in input al wrapperUtilizzo di 4 tecniche di feature selection
Naıve Bayes (NB) classifierSupport Vector Machine (SVM)Linear Discriminant Analysis (LDA)Logistic Regression (LR)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Naıve Bayes (NB) classifier
Si basa sul Teorema di Bayes
Tutte le feature sono indipendenti tra loro (indipendenceassumption)
p(ck |S) ∝∏g∈S
p(g |ck)
dove
S = Set di m feature cosi composto s = g1, g2, . . . , gmp(ck |S) = probabilita a posteriori che il set S determini laclasse ck
p(g |ck) = probabilita a posteriori che il valore g occorranelle istanze di classe ck
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Support Vector Machine (SVM)
SVM massimizza il margine di separazione tra gli iperpiani
La funzione di decisione viene creata sulla base del subset diesempi (support vectors)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Linear Discriminant Analysis (LDA)
Metodo di classificazione che sfrutta la combinazione lineare trafeature sotto determinate assunzioni:
Ogni campione segue unadistribuzione Gaussiana
Nessuna correlazione trafeature
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Logistic Regression (LR)
Caso particolare di modello lineare generalizzatoApplicazione di una funzione logistica alla combinazionelineare delle feature in modo da limitarla in un intervallo [0; 1]
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
Sperimentazione . . .
La sperimentazione eseguita aveva i seguenti parametri:
Esecuzione su 6 dataset di geni contenenti sia attributidiscreti che continui
Goal: Verificare se l’approccio mRMR potesse migliorare leperformance di classificazione
Configurazioni
Baseline + wrapper (NB, SVM, LDA, LR)mRMR approach + wrapper (NB, SVM, LDA, LR)
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
. . . Sperimentazione
I risultati mostrano che mRMR performa meglio della baseline sututte le configurazioni, in particolare
Su variabili discrete la scelta migliore ricade su MIQ
Su variabili continue la scelta migliore ricade su FCQ
mRMR e indipendente dal metodo predittivo utilizzato
mRMR riesce con meno feature della baseline ad eguagliare emigliorare le performance
Simone Rutigliano mRMR
Mutual InformationMax Dependency
Max RelevanceMin Redundancy
mRMRAlgoritmo
Sperimentazione
References
Chris Ding and Hanchuan Peng.Minimum redundancy feature selection from microarray geneexpression data.In Proceedings of the IEEE Computer Society Conference onBioinformatics, CSB ’03, pages 523–, Washington, DC, USA,2003. IEEE Computer Society.
Hanchuan Peng, Fuhui Long, and Chris Ding.Feature selection based on mutual information: criteria ofmax-dependency, max-relevance, and min-redundancy.IEEE Transactions on Pattern Analysis and MachineIntelligence, 27:1226–1238, 2005.
Simone Rutigliano mRMR