Upload
marc-legault
View
336
Download
2
Embed Size (px)
Citation preview
OrthoMCL: Identification of Ortholog Groups for Eukaryotic GenomesLi et al. Genome Res. (2003)Prsent par Marc-Andr Legault
Introduction Orthologie
https://genomevolution.org/wiki/index.php/OrthologLes orthologues partagent un rle fonctionnelLes paralogues rcents aussi
Introduction Reciprocal Best Hits
Espce 1
Espce 2Gne AGne AGne BGne C
Et vice versa
5
1
2
Introduction Reciprocal Best Hits
Espce 1
Espce 2Gne AGne A
5Gne BGne C
21Alignement A A est optimal dans les deux directionsQuarrive-t-il avec des paralogues (rcents)?
Introduction Reciprocal Best Hits
Espce 1
Espce 2Gne AGne A
5Paralogue AGne B
61Le hit nest plus rciproque!Possibilit de faux positifs et faux ngatifsDpend de BLAST
Introduction Reciprocal Best Hits
RBH fonctionne bien dans les cas simplesGnomes eucaryotes:Redondance fonctionnelleStructures plusieurs domainesSquenage incomplet
OrthoMCL Objectifs
Ajouter les paralogues rcents aux groupes dorthologuesPrendre plusieurs espces en charge de faon simultane
OrthoMCL Mthodes
Utilisation de WU-BLASTP pour chaque gneConstruction du graphe pondr par le score dalignementLes paralogues potentiels sont ajouts ssi. ils ont un meilleur score que nimporte quelle paire dorthologues
OrthoMCL Mthodes
Diffrence entre les scores de paralogues rcents (plus similaires) et dorthologuesDiffrence en comparant diffrentes espcesviter des biais ltape du partitionnement
Marc-Andre Legault (ML) - Normalisation en divisant par le ratio entre la moyenne des poids moyen pour les orthologues entre ces espces et le poids moyen pour tous les orthologues ou paralogues.OrthoMCL Markov Cluster Algorithm
Approches de partitionnement (clustering)Non supervisTrouver des regroupements dlments similaires
doi:10.1186/gb-2012-13-7-r64Exemple de clustering vectoriel
OrthoMCL Markov Cluster Algorithm
Marche alatoire dans le grapheLa marche passe plus des temps lintrieur des clusters
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdfhttp://micans.org/mcl/ani/mcl-animation.html
OrthoMCL Markov Cluster Algorithm
La marche dans le graphe peut tre reprsente par une chaine de MarkovLa marche se fait par exponentiation de la matrice (expansion)Les noeuds dun mme cluster auront de plus grands poidsMCL utilise lopration de r-inflation pour renforcer cet effet
https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdfLa matrice est ensuitenormalise par colonne
Marc-Andre Legault (ML) - Inflation: exponentiation par la constante r + normalisationOrthoMCL Rsum de lalgorithme
Rsultats Comparaison des mthodes
InParanoid: Algorithme similaire, mais qui peut traiter seulement des paires despcesNexige pas que les alignements entre parangonnes soient meilleurs que pour les orthologues
Rsultats Comparaison des mthodes
Identification des orthologues entre le ver et la drosophileEnviron 30% des squences regroupes (sur 33 062)Mthodes relativement cohrentes entre elles
10.230.62OrthoMCLInParanoidLes valeurs sont des milliers de squences1.13
Rsultats Comparaison des mthodes
Identification des orthologues entre le ver et la drosophile et la levureComparaison avec EGO (capable de grer des triplets despces)35% des squences classes par OrthoMCL vs. 13% pour EGO
4.729.14EGO0.57OrthoMCL
Rsultats Comparaison des mthodes
tendre un ensemble: Lorsquun groupe dorthologues est un sous-ensemble dun groupe identifi par lautre mthode considre.70 groupe OrthoMCL tendus par EGO2038 groupes EGO tendus par OrthoMCLSuggre une plus grande sensibilit de OrthoMCLsnb-1SybSNC1
snb-1SybSNC1
n-syb
EGOOrthoMCL
Rsultats Relation avec la fonction
Utilisation denzymes avec un numro ECEC (Enzyme Commission Number): Classification systmatique de la fonction des enzymese.g. EC 3.4.11.43 Hydrolases4 agissant sur des liens peptidiques11 clivant lacide amin terminal4 dun tri-peptide
Rsultats Relation avec la fonction
7 protomes, 3562 squences avec numro EC88% des groupes avec au moins 2 squences annotes avaient la mme annotationSuggre que OrthoMCL est un bon candidat pour lannotation fonctionnelle
http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif
Rsultats Annotation
Le parasite protozoaire Plasmodium falciparum causant la forme la plus svre de malariaAnnotation de protines prditesSil ny a pas dorthologue, on peut envisager des thrapies cibles
http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png
Rsultats Annotation
175 protines sans numro EC se sont retrouves dans des groupes avec au moins une squence annoteCertaines de ces protines taient connues, mais dautres taient seulement prditesPlusieurs (137) annotations prdites ont t confirmesLabsence de gnes animaux dans des regroupements est aussi intressant (traitement)
Discussion Dfis
Considrations TechniquesGnome eucaryotes ont un haut taux de duplicationParalogues rcents (mme fonction)Paralogues anciens (fonction divergente)Alignements sensibles larchitecture en domaines des protines
http://www.endocytosis.org/EHDs/EHD2_Dimer.gif
Discussion Dfis
Considrations Techniques (suite)Gnomes incompletsLapproche RBH peut identifier des substituts Le clustering dans le graphe permet dliminer ces faux positifs
Conclusions (de larticle)
Fonctionne aussi bien que InParanoid pour 2 espcesForme des groupes cohrents avec EGO pour 3 espcesPerspectives pour lannotation de protines prditesIdentification de cibles thrapeutiques spcifiques
Amliorations
Pour la cration du graphe initialIntgrer la structure tri-dimensionnelleApproche base sur les domaines protiquesNormalization dans la matriceAlgorithme de partitionnement
Proteinortho
Cration du graphe bas sur une fraction f du score maximal
BLAST sur des protines spares (versus BDD agrges)Permet dviter la normalisation des poids du grapheFacile parallliser
Proteinortho
Partitionnement spectral (au lieu de MCL)Calcul des eigenvecteurs et eigenvaleurs () de la matrice laplacienne (L)Le eigenvecteur de la deuxime plus petite eigenvaleure (vecteur de Fiedler) forme la division optimale du grapheItration du partitionnement tant quil reste des composantes de faible connectivit
Conclusion
Dveloppements algorithmiques possiblesMeilleure identification de squences similairesMeilleur regroupement Cration du grapheGroupes dorthologuesSquences
BLASTPartitionnementModle gnrique des approches par squence:
Conclusion
Projet proposRemplacer lalignement par des techniques danalyse de squenceRemplacer le partitionnement du graphe par une partitionnement vectoriel
http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb
Questions