Analyse comparative Détermination d’états ancestraux · 2007. 10. 22. · Références •...

Preview:

Citation preview

Analyse comparative&

Détermination d’états ancestraux

Yves DesdevisesUniversité Pierre et Marie Curie

Observatoire Océanologique de Banyuls04 68 88 73 13

desdevises@obs-banyuls.frhttp://desdevises.free.fr

Références• Felsenstein J. 1985. Phylogeny and the comparative method.

American Naturalist 125 : 1-15.

• Harvey P. et Pagel M. 1991. The comparative method in evolutionary biology. Oxford University Press.

• Brooks D. et McLennan D. 1991. Phylogeny, ecology, and behaviour. A research program in comparative biology. The University of Chicago Press.

• Harvey P. et al. 1996. New uses for new phylogenies. Oxford University Press.

• Brooks D. et McLennan D. 2003. The nature of diversity. An evolutionary voyage of discovery. The University of Chicago Press.

• Reconstruction de phylogénies dans un but autre que taxonomique/systématique

• Arbres : à partir de tous types de caractères mais les données moléculaires ont l’avantage de pouvoir générer des longueurs de branches

• La plupart des méthodes nécessitent des arbres solides et bien résolus : limitation dans beaucoup de cas

Phylogénies

• Utilisations premières

• Découvrir l’origine des organismes

• Comprendre leurs relations évolutives

• Permettre de les classifier

• Mais pas seulement...

• Inférence des états de caractères ancestraux

• Etude de l’évolution corrélée entre traits

• Etude de l’adaptation

• Evolution moléculaire

• Taux de diversification et “key innovations”

• Dates de divergence

• Biogéographie et phylogéographie

• Cospéciation

Adaptation

• Adaptation = trait, ou ensemble de traits qui améliore la valeur sélective (fitness), qui permet à un individu de laisser davantage de descendants que ceux qui ne le possèdent pas

• Trait dont l’origine est associée à une augmentation de l’efficacité fonctionnelle favorisée par la sélection naturelle

• Produit de la sélection naturelle

• Difficile à mettre en évidence : doit être testée

• Action sur conformation (design), et/ou amélioration de la reproduction

• Doit être appréhendée dans un contexte évolutif

• Adaptation “apparaît” dans une lignée

• ≠ héritage d’un ancêtre

• Exemple : adaptation = apparition hydrodynamisme

• Dans le clade des cétacés, la forme hydrodynamique est héritée, et n’est pas une adaptation sensu stricto chez chaque espèce

• Adaptation : évolution par sélection naturelle, dans une espèce, beaucoup de générations. Modification du génotype. Souvent non réversible

• Acclimatation : changement physiologique, biochimique, anatomique, dans un individu, du à exposition à un environnement nouveau. Souvent réversible

• Plasticité phénotypique : capacité d’un génotype à produire différents phénotypes en fonction d’un changement d’environnement, dans un individu. La plasticité peut être elle-même adaptative.

Adaptation/Acclimatation/Plasticité phénotypique

TempsAdaptationAcclimatation

Plasticité phénotypique

Une composante de l’évolution

• Evolution ≠ adaptation

• Adaptation (sélection)

• Structure (lois physiques)

• Inertie phylogénétique (traits de l’ancêtre)

• Contrainte (tout n’est pas possible)

• Organisme = ensemble de compromis (trade-offs)

• Changement graduel (Darwin) ou ponctuel

• Multiples étapes transitoires, avec possiblement des fonctions différentes

• Gènes régulateurs : petite modification génétique = grand changement phénotypique

• Combinaison de divers éléments : différentes structures, gènes, organismes (endosymbiose)

Adaptation ≠ perfection

• Décalage (time lag) entre adaptation et changement de l’environnement : “imperfections” apparentes, maladaptation

• Contraintes

• Génétiques : ex. persistance d’homozygotes délétères si les hétérozygotes ont une fitness supérieure

• Développementales : le développement influence la gamme de variations possible

• Historiques

• L’adaptation se bâtit sur le préexistant : la solution possible n’est pas nécessairement optimale

• Attention aux abus dans les interprétations adaptatives !!

• “Spandrelisme”

Etude de l’adaptation

• Approche théorique : modèles, prédictions

• Approche observationnelle : sur le terrain

• Approche expérimentale : altération structure potentiellement adaptative

• Approche comparative : corrélation structures ou structure/fonction dans plusieurs lignées (espèces en général), en tenant compte de la phylogénie. Méthode/Analyse comparative.

Analyse comparative

• Etude de l’évolution corrélée de caractères

• Recherche des adaptations par une approche corrélative entre espèces (généralement)

• Lien trait/trait ou trait/environnement

• Taille / longévité

• Métabolisme / température

• Coloration / grégarité

• Quelques dates clés

• 1985 : Felsenstein

• 1991 : Harvey & Pagel ; Brooks & McLennan

• Les espèces proches ont tendance à se ressembler et ne sont pas des observations indépendantes (pseudoréplication)

• Contraintes phylogénétiques (morphologie, physiologie, génétique, développement, ...) : inertie, héritabilité, ...

• Phylogénie = variable confondante

Exemple

Espèces Altitude Taille

A 5 2B 6 6C 8 6D 12 7E 14 12F 24 13G 25 14H 28 14I 29 16J 30 17 corrélation : adaptation ?

Hypothèse : la taille est une adaptation à l’altitude

Tai

lle

Altitude

• La phylogénie rend les données non indépendantes

Problème

Espèces Altitude Taille

A 5 2B 6 6C 8 6D 12 7E 14 12F 24 13G 25 14H 28 14I 29 16J 30 17

Tai

lleAltitude

pas de corrélation

Solution• Contrôle des contraintes phylogénétiques

Analyse comparative

Tai

lle

Altitude

(cor

rigé

e)

(corrigée)

100 % de la variation du trait

Westoby et al. (1995)

• Plusieurs méthodes existent pour prendre en compte la phylogénie dans les analyses

• La plus connue : contrastes indépendants (Felsenstein, 1985)

• Partitionnent la variation du trait de la façon suivante :

Analyse comparative

Environnement ?Phylogénie

Quand l’utiliser ?

• Recherche de lien de causalité : hypothèse

• X a-t-il une influence sur Y ?

• Pas dans un cadre prédictif

• Quelle est la valeur de Y pour un X donné ?

• Pas avec n’importe quel type de caractère : suppose a priori un lien avec la phylogénie, le caractère doit pouvoir se transmettre

Caractères quantitatifs

• Nombreuses méthodes

• Aussi pour variables semi-quantitatives

• Variables qualitatives parfois utilisables avec ces méthodes en les recodant

Matrices d’association phylogénétiques

• Mesurent la dépendance phylogénétique (structure) des données

• Deux types

• Matrice de variance-covariance

• Matrice de distance

Matrice de variance-covariance

Espèces

Espèces

S2 S1,2 S1,3 0 0

S2 S2,3 0 0

S2 0 0

S2 S4,5

S2

1

2

34

5

Matrice de distances patristiques

Espèces

Espèces

0 D5,1

0 D3,2

0 D5,3

0

0

1

2

34

5

Modèles d’évolution des caractères

• Deux modèles basiques

• Mouvement Brownien (BM) : variance linéairement liée au temps = longueurs de branches sur l’arbre

• Mouvement Brownien.

Trait (x)

Tim

e

• Ajout de contraintes (adaptatives, ...) et estimation de paramètres correspondants : différentes relations entre longueurs de branches et variance des caractères (e.g. modèle Ornstein-Uhlenbeck : OU)D

iver

genc

e

Temps

Dérive génétique (BM)BM + sélection stabilisante

Méthodes

• Méthodes basées sur des modèles évolutifs

• Contrastes indépendants (FIC ; Felsenstein 1985) (CAIC, COMPARE, PDAP, ...)

• Régression phylogénétique des moindres carrés généralisés (PGLS ; Martins 1994) (COMPARE)

• Modèle phylogénétique mixte (PMM ; Lynch et al. 2004) (COMPARE)

• Méthodes à bases statistiques

• Méthode autorégressive (ARM ; Cheverud et al. 1985) (AUTOPHY)

• Régression sur les vecteurs propres phylogénétiques (PVR ; Diniz-Filho et al. 1998)

• Présupposés différents

• Résultats souvent plus ou moins différents

• Méthodes pas toujours directement comparables

• Démarche intéressante : utiliser plusieurs méthodes et comparer les résultats

Contrastes indépendantsFIC ; PIC

• Méthode la plus utilisée

• Basée sur une matrice de variance-covariance

• Modèle d’évolution = mouvement Brownien : dérive génétique, certains modèles de sélection

• Temps = longueur de branche = variance

• Suppose phylogénie bien connue

• Idéalement pour variables quantitatives mais une variable peut-être qualitative

• Corrélation entre traits.

Traits (x, y)

Tim

e

ρ = 0.0ρ = 0.9

• Les contrastes doivent être standardisés : divisés par leur écart-type (√variance)

7

9

14

20

20

24

30

40

10 25

X Y Contrastes

6

8

2

2X Y

10

11

3

4

Estimation de lavaleur des caractèresancestraux(moyenne pondérée)

9

17

8 22

24

35

17,520

22,525

27,530

32,535

37,540

42,5

Y

6 8 10 12 14 16 18 20 22X

23456789

101112

IC Y

1 2 3 4 5 6 7 8 9IC X

• Les contrastes peuvent ensuite être utilisés dans toutes sortes d’analyses

• Régressions (par l’origine, car le calcul des contrastes élimine le terme constant)

• Analyses multivariables

• Puissant car peu de paramètres à estimer

• Test du modèle : contrastes vs écart-types

• Pente = 0 si BM

• Sinon : transformation des longueurs ou introduction d’un modèle différent (PGLS, ...)

• Certaines améliorations permettent de prendre en compte les polytomies

• Pas de prise en compte de la variabilité des mesures (écart-types)

• “Retire la phylogénie” (sans la quantifier explicitement) dans la corrélation entre traits

• Paradoxe pour étude de l’adaptation car hypothèse de sélection (≠ BM)

MacroCAIC : étude de la diversification taxonomique

• Dérivé de CAIC : contrastes indépendants

• Permet d’utiliser la variable “nombre de taxons par clade” dans une analyse comparative

• Les valeurs aux noeuds ne sont pas les moyennes mais les sommes des valeurs de leurs descendants

• Mesure si la valeur d’une variable à un noeud est corrélée au nombre d’espèces qui en descendent

• Permet aussi la mesure du taux de diversification (avec des longueurs de branches = temps)

5 3 2

Régression phylogénétique des moindres carrés généralisés

PGLS• Généralisation de FIC à d’autres modèles

• Considère la structure phylogénétique du terme d’erreur (observations non indépendantes, hétéroscédasticité) à travers la matrice de variance-covariance

• Estimation d’un paramètre de contraintes (adaptation, sélection stabilisante...) s’ajoutant au BM

• Prise en compte de la variance (écart-types) des mesures

• Le nombre de paramètres à estimer fait baisser la puissance

• Permet également la reconstruction de caractères ancestraux

Régression sur les vecteurs propres phylogénétiques

PVR

• Base statistique (pas de modèle explicite)

• Transformation de la matrice de distances phylogénétiques en coordonnées principales (PC)

• Problème : ne prend en compte qu’une partie de la phylogénie

• Les premières PC représentent l’extrémité de l’arbre

• Solution simple : matrice de distances patristiques (génétiques) entre espèces

1 n

1

n

1

n

Problème : requiert l’expression des autres variables (”environnement”) également sous forme de matrices de distance

Obtention d’au maximum n-1 variablesindépendantes (coordonnées principales)représentant les distances phylogénétiques

ACGTTCGGAACTGTCGGAAGTGTCCGA

010010100010110110001110110

( )1

n

1 n

1

n

Distances brutes oupatristiques

Matrice de distance

Analyse encoordonnéesprincipales

1 n-1 (max)

1

n

• Transformation des distances phylogénétiques en coordonnées principales

• Le découpage de la variance dépend de la taille et de la structure de la phylogénie

• Sélection des PC : Bâton brisé (Broken stick), Backward elimination, ...

• Méthode efficace avec peu de taxons

• Quantifie explicitement la fraction liée à la phylogénie

• Y = βX + ε ; T = P + S

• Souplesse des matrices de distance : arbres, réticulogrammes, distances brutes, ...

• Permet la partition de la variation et la quantification du “phylogenetic niche conservatism”

• Logiciels

• R 4.0 (Mac), DistPCoA (Mac, PC) pour la PCoA

• Permute! (Mac) pour les tests

Variation environnementale structurée par la phylogénie

• Fraction “due à la phylogénie” (inertie)

• Fraction “non-historique”, spécifique (adaptation, ...)

• Il est possible de quantifier la fraction commune (phylogenetic niche conservatism)

100 % de la variation du trait

PhylogénieEnvironnement ?

• Effet de deux variables X1 et X2 sur une variable Y

• Exemple : effet de la température (X1) et de

l’humidité (X2) sur la croissance (Y) d’un organisme

• La température et l’humidité ont chacune une influence sur la croissance

• La température et l’humidité sont corrélées

Partitionnement de la variation

100 % de la variation de Y

Variation expliquée par X1 = R21

Variation expliquée par X2 = R22

Variation inexpliquée

da b c

Avec a+b+c+d = 100 %

a, b, c, et d sont déduits par soustraction

= a+b

= b+c

= a+b+c

= d

Variation expliquée à la fois par X1 et X2 = R21,2

• Y = variable dont on veut expliquer la variation : “trait” potentiellement contrôlé au moins en partie par la phylogénie

• X1 = “environnement” : régression (e.g. linéaire)

• X2 = “phylogénie” : le problème est de l’exprimer

Application à un contexte phylogénétique

• Effet de la phylogénie : régression de la variable

étudiée Y sur les coordonnées principales (P) : R2P

• Effet de l’environnement : régression de Y sur la (ou

les) variable(s) E : R2E

• Phylogénie et environnement : régression multiple de

Y sur les variables P et E : R2P+E

La méthode

100 % de la variation de Y

d

Phylogénie et environnement = R2P+E (= a+b+c)

b = variation environnementale phylogénétiquement structurée

Phylogénie = R2P (= a+b)

a b

Environnement = R2E (= b+c)

c

Caractères discrets

• Caractères binaires

• 0/1 (présence/absence, 2 états, ...)

• Caractères à états multiples, ordonnés ou non

• 0/1/2/3

• Question : pour deux caractères

• La présence d’un état pour un des caractères est-elle associée à (conditionne-t-elle) la présence (l’apparition) d’un certain état dans l’autre caractère ?

• Espèces indépendantes

• P < 0,005

• Transitions

• P = 0,99

Test du Χ2 sur les transitions

Concentrated Change Test

• Les changement du caractère B se font-ils plutôt aux mêmes endroits de l’arbre que ceux du caractère A ?

• Génération de la distribution sous l’hypothèse nulle (pas d’association) par permutations aléatoires des données (MacClade)

• Ne prend pas en compte les longueurs de branches

• Dépend du nombre de branches

• Test par ML : estimation des taux de transition d’un état de caractère en un autre (BayesTraits (contient ancien Discrete))

• LRT : la vraisemblance est-elle différente sous la contrainte d’indépendance des changements ?

• Prend en compte les longueurs de branches

• Inférence des états ancestraux

Détermination des états de caractères ancestraux• Par optimisation des caractères sur l’arbre

(mapping)

• Caractères discrets ou continus

• Modèles ou non

• Caractères discrets : modèle de Markov (MC)

• Caractères quantitatifs : mouvement Brownien (BM), OU, ...

Caractères discrets

• Parcimonie (MacClade, Mesquite)

• Maximum de vraisemblance (donne intervalles de confiance ; BayesTraits, Mesquite)

• Inférence Bayesienne (BayesTraits, Mesquite, MrBayes, SIMMAP)

Exemple d’utilisation• Détermination de la polarité des caractères :

ancestral ou dérivé

• Caractéristiques environnementale

• Exemple : pollinisation des fleurs

abeilles → oiseaux

• Test de l’adaptation

• Evolution du caractère

abeilles → oiseaux

Support de l’hypothèse d’adaptation

abeilles → oiseaux

Adaptation non supportée

• Parcimonie

• Simple

• Pas de modèle explicite

• Pas d’incertitude

• Ne prend pas en compte longueurs de branches

• Exemple : alimentation chez larves d’échinodermes

• Maximum de vraisemblance

• Modèle explicite (e.g. MC ou BM)

• Estimation des taux de transition d’un état à l’autre : π

• Donne incertitude dans reconstruction : probabilité des états observés d’après le modèle et l’arbre

• Importance du modèle (valeurs fixes des paramètres, estimés ou non) et des caractéristiques de l’arbre (topologie et longueurs de branches)

• Même exemple

• Inférence Bayesienne

• Besoin de la probabilité a priori sur les taux de transition π entre les états (hypothèse + MCMC)

• Permet d’incorporer l’incertitude sur l’arbre

• Fonctionne aussi pour caractères continus

MP ML BI

• Simulation de l’évolution des caractères

Caractères continus• Parcimonie linéaire : minimise la quantité de

changements (absolue ou au carré (= BM)) entre descendants et ancêtres (MacClade, Mesquite)

• Modèle linéaire généralisé : incorporation d’un modèle

• Plus général (inclue approches précédentes)

Datation

• Comment donner un âge aux événements de spéciation (noeuds) ?

• Cela peut permettre de tester des hypothèses évolutives.

• Besoin d’une calibration : date connue (fossile, événement géologique, ...). Idéalement plusieurs dates

• Besoin de longueurs de branches pour inférence aux autres noeuds de l’arbre, ce qui suppose de lier divergence et temps

• Fossiles : difficiles à situer sur les branches, à voir comme des âges minimums

• Différences fossile/molécules : “tige” (fossile)/”couronne” (molécules)

• Si horloge moléculaire (= taux d’évolution constant pour un gène ou une protéine donné(e)) et (au moins) un point de calibration, c’est facile

• Mais... en général le taux de substitution varie avec le temps et/ou les lignées : pas d’horloge moléculaire globale

• Problèmes liés à une horloge globale

Erreur de datation

Vitesse d’évolution du gène Y différente de X

Gène Z : taux très variable

Solutions• Eliminer les sites/gènes/lignées responsables de la

variation du taux

• Tests de constance du taux (relative rate tests)

• Peu puissants

• OK si la variation reste l’exception

• Méthodes incorporant les variations de taux (relaxed clocks)

• Horloge moléculaires locales : différentes selon les régions de l’arbre (peu de taux différents)

• Horloges “assouplies” (nombreux taux différents)

Horloges locales

• Méthode basée sur quartets (Qdate)

• Sous-groupes de 4 taxons séparés en 2 groupes monophylétiques dont les dates de divergence sont connues

• Basé sur modèle d’évolution des caractères (ML)

• Prends en compte la variation du taux de substitution (2 taux au maximum)

• Donne intervalles de confiance des dates (précision fonction de la longueur des séquences)

• Méthodes basées sur arbres entiers (PAML, r8s, BEAST)

• Taux assignés à différentes parties de l’arbre, à l’aide de tests, ou de connaissances externes

• Bien si fossiles nombreux et bien datés

• Différents modèles pour estimation

• Si modèle : très important ici

Horloges assouplies• Lissage du taux (rate smoothing)

• Nombreux taux différents

• Besoin de lier les taux entre eux par une relation

• Changement graduel du taux : chaque taux dépend en partie du précédent (autocorrélation)

Différentes relations mathématiques (modèles) peuvent lier les taux : pénalité pour changements importants (penalty function)

• Méthode non paramétrique NPRS (= Non parametric rate smoothing, r8s) et Penalized likelihood (r8s)

• La première proposée

• Approche Bayesienne (BEAST, Multidivtime)

• Utilise estimation a priori des paramètres, parfois difficile à justifier

• Pour les deux approches, hypothèse de changement graduel

Recommended