Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Labo :16/12/2008D.Allouche
Sélection de TAGSNP par réseau de contraintes pondérées
D. Allouche , S. Degivry, M. Sanchez, T. Schiex
Equipe SaAB : unité de Biométrie intelligence Artificielle
Centre INRA de Toulouse
Labo :16/12/2008D.Allouche 2
plan
– Introduction du cadre méthodologique
– Problématique tagSNP
– Le modèle et les méthodes de recherche
– expérimentations
Labo :16/12/2008D.Allouche
Optim isation via toulbar2DFBB, BTD , BTD-RDS
Cadre formel
• Optimisation: trouver une affectation totale tel que:
m in Σj Fj
( Le problème est NP difficile)
Modèle Graphique (X,D,C):
X = {Xi,…Xn} variables
D = {D1, … Dn} domaines de valeurs
C = {F1,…,Fr} contraintes=fonctions de coût
50ye
∈[0,k]....
8ya
1za
coutX5X2
( )i l iC Val Dᅫ X1
X6
X2 X3
X5
X4
( ),ij l i l iC Val D Val D� �
{ }2 , , , ...D a b c e
D5 {z,y,..}
Labo :16/12/2008D.Allouche 4
TELECOM: Radio Link Frequency Allocation Problem
RLFAP CELAR scen06
Allocation de fréquences de connexion radio de sorte a minimiser les interférences
Minimiser contrainte binaires soft.
Sélections d’images parmi un ensemble candidat en respectant les contraintes physique de la caméra.
Contrainte binaire, contrainte ternaire dure.
-Maximiser la somme de poids associés aux images sélectionnées.
Contraintes unaires soft
SPATIAL: Earth Observation Satellite Management Problem
SPOT5 #503
Un champ d’applications …large
Labo :16/12/2008D.Allouche 5
plan
– Introduction du cadre méthodologique
– Problématique tagSNP
– Le modèle et les méthodes de recherche
– Expérimentations
Labo :16/12/2008D.Allouche 6
Contexte bio: Snp what is it ?
• SNP = Single Nucleotide Polymorphism
SNP = mutation ponctuelle entre individus d’une même espèce.
Exemple : chez l’humain 10 M de SNPsur 6 Milliards de bases (www.hapmap.org)
Remarques : dans une espèce, le nombre de SNP est fonction:
de la taille du génome
De la localisation (zone chromosomique, intron/exon )
de la diversité génétique de l’espèce
– Les SNP sont majoritairement hérités des parents
Labo :16/12/2008D.Allouche 7
Contexte Bio: Des SNP et alors ?
• SNP sont impliqués dans les maladies ou caractères multifactoriels
Susceptibilité à des maladies
Efficacité de médicaments
Réponse quantitative de caractères d’intérêt agronomique
Étude d’association par déséquilibre de liaison est une approche de recherche de causalité entre : SNP et phénotype d’intérêt
Cout expérimental encore prohibitif! sélection de tagSNP
Labo :16/12/2008D.Allouche 8
Stratégie pour accroître l’efficacité de l’étude d’association
Population size
« Hirschhorn NAT. REV. GEN. vol 6 p95 2005 »
Labo :16/12/2008D.Allouche 9
Carte haplotypique
SNPa
SNPd
SNPb SNPc
SNPe
0.9
SNPf0.97
0.88
0.8
0.87
1.0
0.82
Représentation
Graphique :Plusieurs composantes connexes
• Filtrage des arêtes r2ij ≥ r2
cut
(r2 cut = 0.8 )
( )2ijr correlation paire=
0.79
Carte HAPMAP: wwww.hapmap.org
CEU: CEPH (Utah residents with ancestry from northern and western Europe)
CHB: Han Chinese in Beijing, China+JPT: Japanese in Tokyo, Japan
YRI: Yoruba in Ibadan, Nigeria
Labo :16/12/2008D.Allouche 10
Définition du problème « tagSNP »
Sélectionner le long d’un chromosome un sous ensemble de marqueurs SNP de taille minimale
de sorte que les marqueurs sélectionnés (tagSNP) soient les plus représentatifs de l’information génétique de l’ensemble.
Problème de “set covering” avec des critères additionnels.(problème NP-difficile)
Labo :16/12/2008D.Allouche 11
Sélection de Tagsnp set covering
SNPa
SNPd
SNPb SNPc
SNPe
0.9
SNPf0.97
0.88
0.8
0.87
1.0
0.82
Le set covering est un problème classique en informatique et théorie de la complexité.
• Soit une ensemble composé de plusieurs familles. (avec éventuellement des éléments commun).
L’objectif est de sélectionner le nombre minimum de famille afin de recouvrir tous les éléments compris dans l’ensemble total.
Labo :16/12/2008D.Allouche 12
Des solutions optimales multiples:
D
C
BA E
D
C
BA E
D
C
BA E
D
C
BA E
Solution = {(B,E) | (B,D) | (A,D) }
Recherche de Tagsnp = recherche d’un sous ensemble de taille minimal de snp en déséquilibre de liaison avec tout les autres.
1.0
0.8
0.9032
1.0
0.8
0.876
0.876
0.926
REPRESENTATIVITE:
r² moyen entre tag et non tag 1
0
DISPERSION:
r² moyen entre tag
0
Labo :16/12/2008D.Allouche 13
plan
– Introduction du cadre méthodologique
– Problématique tagSNP
– Le modèle et les méthodes de recherches
– Expérimentations
Labo :16/12/2008D.Allouche 14
A1
A2
B1
B2
T|FT|F
a
c
d
bb
a
D
C
BA E
Le reseau de fonction de cout
1.0
0.8
0.9
1.0
0.8
00b
100c
0d
10a
ReprésentativitéB2
Cohérence 2
B2A1
0....
∞aFalse
False
True
B1
0
M
Flag Tagsnp
0bFalse
∞aFalse
0aTrue
Cohérence 1 A2A1
0....
0TrueFalse
0FalseFalse
0FalseTrue
90TrueTrue
dispersionB1A1
a
a
Il en résulte une combinaison linéaire
de ces critères critères hiérarchiques
Set covering pur
Labo :16/12/2008D.Allouche 15
A1
A2
B1
B2
E1
E2
D1
D2
C1
C2
D
C
BA E
Le Modèle
Labo :16/12/2008D.Allouche 16
A1
A2
B1
B2
E1
E2
D1
D2
C1
C2
T|F
T|FT|F
T|F
T|F
b
c
e
d
a
c
d
b
b
a e
d
c
b
d
D
C
BA E
Le Modèle
Labo :16/12/2008D.Allouche 17
Depth-First Branch and Bound (DFBB)
(UB) Upper Bound = Meilleur solution courante
varia
ble
(or
dre
dyna
miq
ue)
(LB) Lower Bound sous estimation du cout de la
meilleure solution dans le sous-problème courant (obtenu par
propagation)
chaque nœud est une variable ouUn sous-problème de contraintes soft
Time complexity: O(dO(dnn)) Space complexity: O(n)O(n)
Affectation
Si LB ≥ UB alors EliminationDu sous arbre
Labo :16/12/2008D.Allouche 18
C4
C3
C2C2
C1
Méthodes de recherches arborescentes par décomposition
C3
C1
C4C2
C5
Arbre de clusterX1
X4
X2 X3
X5
X6
X7
X10
X9X8
X11
C5
S1-2= {X4} S1-4={X4}
S2-3= {X5,X6} S4-5= {X4,X9,X10}
Séparateur = intersection Séparateur = intersection entre Clusters entre Clusters connectésconnectés(Les variables des séparateurs (Les variables des séparateurs sont dupliquées )sont dupliquées )
A partir d’un ordre d’élimination des variables on cherche A partir d’un ordre d’élimination des variables on cherche successivement les cliques de tailles maximales dans le successivement les cliques de tailles maximales dans le graphe triangulé. graphe triangulé.
construction d’un arbre de clustersconstruction d’un arbre de clusters
•Complexité : Time: O(dw), Space: O(ds)
d = taille du plus grand domainew = taille du plus grand cluster - 1 (tree width)
S = taille du plus grand séparateur
BTD (BTD (BBacktrack acktrack TTree ree DDecomposition)ecomposition)
• L’affectation des séparateurs rendL’affectation des séparateurs rend les sous-problèmes indépendantsles sous-problèmes indépendants
• On mémorise de l’information dans les On mémorise de l’information dans les séparateurs afin d’éviter des calculs séparateurs afin d’éviter des calculs redondantredondant
X4
•RDS-BTD UTILISATION d’un minorant de sous problèmeCalculés avant la recherche par relaxation des contraintesAssociées aux « séparateurs »
Labo :16/12/2008D.Allouche 19
plan
– Introduction du cadre méthodologique
– Problématique tagSNP
– Le modèle et les méthodes de recherche
– Expérimentations
Labo :16/12/2008D.Allouche 20
Expérimentation: Données de départ
Chromosome 1 : Hapmap phase 2
46 Sujets Européens
178 438 SNP
30 Millions d’arrêtes
Histogram of data$DELTASQ
data$DELTASQ
Fre
quen
cy
0.0 0.2 0.4 0.6 0.8 1.0
0e+0
02e
+06
4e+0
66e
+06
8e+0
6
Distribution du LD ( filtrage)
r2
r2 ≥ 0.5
Sélection 516 cc Non triviales:
Tailles: 32 à 777
Dom Max : 9 à 267
connectivité : 6 à 37 %
r2 ≥ 0.5
19 750 composantes connexes
r2 ≥ 0.8
Sélection de 82 cc Non triviales :Tailles : 33 à 464
Domaine max : 15 - 224
connectivité: 18 à 93%
r2 ≥ 0.8
43 251 composantes
connexes
Composantes connexes =instances indépendantes
Labo :16/12/2008D.Allouche 21
Logiciel de référence
• FESTA (QIN et al. Bioinformatics Nov. 2005):
Approche exhaustive pour les composantes connexes de petites tailles
Recherche gloutonnes pour les composantes connexes de plus grandes tailles.
« Aujourd’hui la grande majorité des logiciels de sélection de tagSNP sont basés sur des méthodes incomplètes ».
Labo :16/12/2008D.Allouche 22
Résultats d’expérimentations
• r2 ≥ 0.8– DFBB Résolution de la totalité des instances ( 82/82)
Comparaison de l’approche à DFBB à « FESTA gloutonne »
Temps de calcul : 2h37 avec DFBB versus 3mm avec FESTA
Gain de la compression de -21 % par rapport FESTA ( #tagsnp passe de 487 à 359)
Comparaison DFFB à FESTA « hybride recherche exhaustive + gloutonne »
Gain de la compression -3 % par rapport à FESTA ( #Tagsnp passe 370 à 359)
Temps de calcul : 2h37 avec DFBB versus 39 h 17m FESTA(15 fois plus rapide que FESTA)
Comparaison des méthodes de recherche Toulbar2: (limite 2h cpus par instances)
DFBB 100%,
BTD 75% (62/82)
RDS-BTD 79% (65/82)
Labo :16/12/2008D.Allouche 23
BENCHMARK
• r2 ≥ 0.5– Résolution de 95% des instances (491/516)
Gain de compression -15% par rapport à FESTA « glouton »#TAGSNP passe de 2780 versus 3274 avec FESTA
25 instances de plus grande taille sont particulièrement difficiles benchmark de méthodes
– décomposition totale des problèmes est souvent pénalisante!
Labo :16/12/2008D.Allouche 24
C3
C1
C4C2
C5
C4
C3
C2C2
C1
Modification de la décomposition : recherche de petits séparateurs
C3
C1
C4C2
C5
Arbre de cluster
X1
X4
X2 X3
X5
X6
X7
X10
X9X8
X11
C5
S1-2= {X4} S1-4={X4}
S2-3= {X5,X6} S4-5= {X4,X9,X10}
C3
C1
C4C2
C5C4*
Fusion de cluster
Si #Si-j > #Sseuil
Plus de liberté dans l’ordre dynamique des variables lors de la recherche
Labo :16/12/2008D.Allouche 25
0
5
10
15
20
25
30
35
40
45
50
0 5 10 15 20 25 30 35
s m a x
#pb.
solve
d / H
ours
BTD CPU
RDS-BTD CPU
BTD %solved
RDS-BTD %solved
∞
Impactes du majorant de taille de séparateur
Jeux de départ :Les 25 instances difficiles ( r2 ≥ 0.5 )2 heures de calcul maximum
RDS-BTD (Smax=4) amélioration importante de l’efficacité
nbre de résolution +33% , CPUTime -23%
DFBB
Décompositioncomplète
Labo :16/12/2008D.Allouche 26
En résumé:
Pour r2 ≥ 0.8 : 100% des instances sont résolues
(DFBB, BTD (Smax=4), RDS-BTD (Smax=4) )
Pour r2 ≥ 0.5 :12/25 instances « difficiles » restent ouvertes
Intérêt pour la biologie modéré ! benchmark méthode d’optimisation
Concernant les méthodes:RDS-BTD améliore les résultats par rapport à BTD.
Décomposition avec petit séparateur facilite la résolution des instances
Labo :16/12/2008D.Allouche 27
perspectives
• Extension des méthodes de découpage de graphes Toulbar:
Intégration de méthode de découpage permettant exhiber les petits séparateurs avec une prise en compte de la structure et les cout.
Algo découpage de graphe type metis, hmetis
Algo fusion/fission de graphe ( Brichot&al)
Algo de découpage par relaxation lagrangienne
..?
Labo :16/12/2008D.Allouche 28
end
TOULBAR2:
http://mulcyber.toulouse.inra.fr/gf/project/toulbar2…
Quelques références:DFBB AND/OR search (Marinescu & Dechter, 2005)BTD (Simon de Givry, Thomas Schiex, and Gérard Verfaillie ) In /Proc. of AAAI-06/, Boston,2006
RDS (Verfaillie et al, 1996) Pseudo-Tree RDS (Larrosa et al, 2002)
THE END …..