Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Lezione 6
Confronti fra sequenze: distanze, allineamenti
tem
po
La distanza tra due sequenze si definisce come il numero atteso di sostituzioni nucleotidiche per sito. Se il tasso di evoluzione è costante nel tempo la distanza crescerà linearmente con il crescere del tempo di divergenza.
AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA
Sostituzioni nucleotidiche
Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata distanza p)
10 siti; 3 differenze distanza = 30% = 0.3
Sostituzioni nucleotidiche
AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA distanza = 30% = 0.3 Questa proporzione grezza funziona per
sequenze che sono molto vicine
evolutivamente.
Se è passato molto tempo dalla
divergenza, p sottostima il numero di
sostituzioni che sono realmente
avvenute.
Un sito variabile può originarsi attraverso
più percorsi e perfino un sito uguale in
due sequenze può nascondere retro
sostituzioni o sostituzioni parallele.
Sostituzioni multiple nascondono alcuni
cambiamenti, perciò p non è una funzione
diretta del tempo evolutivo. La
proporzione grezza p può essere usata
solo se p < al 5%
Per N siti ed n differenze: grado di divergenza = n/N AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA divergenza = 0.3 o 30%
Distanze fra sequenze
Distanze fra sequenze
Complichiamo lo scenario: correggiamo per “multiple hits” I modelli di Jukes e Cantor, Kimura, Tamura e Nei etc. possono essere usati oltre che per prevedere l’evolversi di una sequenza, anche per valutare la distanza fra due sequenze originatesi da una divergenza
Modello di Jukes e Cantor (1969)
Distanze fra sequenze: non coding sites
d: numero di sostituzioni per sito dal momento della divergenza p: proporzione osservata di siti differenti tra due sequenze
Modello di Kimura 2 parametri (1980)
d: numero di sostituzioni per sito dal momento della divergenza (se P e Q sono uguali si torna all’equazione di JC)
d
Distanze fra sequenze: non coding sites
Esempio: rRNA 12s mtDNA
Da Yang “computational molecular evolution” Oxford University Press 2006
Distanze fra sequenze: non coding sites
Esempio: rRNA 12s mtDNA N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948 p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949 P = transiz = (30+23+21+10)/948 =84/948=0.088 Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063
Da Yang “computational molecular evolution”
JC69
K2P80
JC69 : d = 0.1015
K2P80: d = 0.1038
La differenza è minima
Distanze fra sequenze: non coding sites
Aumentiamo la divergenza: N= 948 p= 500/948 = 0.527 P = transiz = 400/948 = 0.4219 Q= trasv= 100/948 = 0.1055
JC69
K2P80
JC69 : d = 0.91
K2P80: d = 1.55
La differenza tra le due stime aumenta all’aumentare della
divergenza
Se c’è un alto livello di divergenza e, soprattutto, se ci sono motivi a priori di pensare che il tasso di transizione differisca da quello di trasversione è meglio considerare modelli più complessi di Jukes and Cantor
Distanze fra sequenze: non coding sites
Distanze fra sequenze: coding sites
Calcolare il numero di sostituzioni tra due sequenze codificanti proteine è più complesso perché è necessario distinguere tra sostituzioni sinonime e non sinonime
Distanze fra sequenze: coding sites
Seq1
Seq2
Ser Thr Glu Met Cys Leu
TCA ACT GAG ATG TGT TTA
↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTA
Ser Thr Glu Ile Cys Leu Basta contare?
NO: Problemi con il denominatore
Non Sin
Sin Sin Sin
Distanze fra sequenze: coding sites
Perché non basta contare?
sinonimo
Non sinonimo
1. La classificazione dei siti cambia nel tempo
Distanze fra sequenze: coding sites
Perché non basta contare?
Sinonimo Non sinonimo
2. Alcuni siti non sono solo sinonimi o solo non sinonimi, dipende da come mutano
Distanze fra sequenze: coding sites
Seq1
Seq2
Ser Thr Glu Met Cys Leu
TCA ACT GAG ATG TGT TTA
↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTA
Ser Thr Glu Ile Cys Leu Basta contare?
NO: Problemi con il numeratore
Non Sin
Sin Sin Sin
Distanze fra sequenze: coding sites Problemi col numeratore: Esempio: quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non sinonimo.
Esempio: CCC nella sequenza 1 e CAA nella sequenza 2 La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute
Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi
Distanze fra sequenze: coding sites Basta contare?
NO: possibili soluzioni Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
Nei and Gojobori calculate average
number of synonymous and
nonsynonymous sites allowing
particular sites to be a portion in
each category (can also “weight”
substitution pathway probabilities).
Distanze fra sequenze: coding sites Basta contare?
NO: possibili soluzioni
1. Consideriamo una posizione specifica in
un codon. Se i è il numero di possibili
cambiamenti sinonimi a quel sito allora lo
conteremo come i/3 sinonimo e (3 – i)/3
non sinonimo.
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non sinonimo. 2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e quello di non sinonimi è NA. 3. Classifichiamo le differenze in sinonime e non sinonime per due codon con 1 differenza è semplice GTC (Val) GTT (Val) > sinonimo GTC (Val) GCC (Ala) > non sinonimo per più di una differenza: considerare i diversi percorsi
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime per più di una differenza: considerare i diversi percorsi (in che ordine sono avvenute le mutazioni?) Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi
Approccio non pesato: Tutto è equiprobabile Nei and Gojobori Ma=differenze non sin: (1+2)/2 = 1.5 Ms=differenze sinonime: (1+0)/2 = 0.5
Approccio pesato Utilizza criteri che aiutano a decidere quali dei due percorsi sia più probabile Percorso II meno probabile (sin più frequenti di non sin)
Ma= differenze non sin: (0.9*1) + (0.1*2) = 1.1 Ms= differenze sinonime: (0.9*1) + (0.1*0) = 0.9
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime 4. Il numero di mutazioni sinonime per sito sinonimo pS = MS / NS
Il numero di mutazioni non sinonime per sito non sinonimo pA = MA / NA
Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor per correggere
Distanze fra sequenze: coding sites
Nei & Gojobori (1986)
Allineamenti
Dan Graur : Lecture 18
ALIGNMENT OF NUCLEOTIDE
& AMINO-ACID SEQUENCES
http://nsm.uh.edu/~dgraur/
Genes and Genomes: Fundamentals of Molecular Evolution