25
Lezione 6 Confronti fra sequenze: distanze, allineamenti

Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Lezione 6

Confronti fra sequenze: distanze, allineamenti

Page 2: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

tem

po

Page 3: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

La distanza tra due sequenze si definisce come il numero atteso di sostituzioni nucleotidiche per sito. Se il tasso di evoluzione è costante nel tempo la distanza crescerà linearmente con il crescere del tempo di divergenza.

AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA

Sostituzioni nucleotidiche

Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata distanza p)

10 siti; 3 differenze distanza = 30% = 0.3

Page 4: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Sostituzioni nucleotidiche

AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA distanza = 30% = 0.3 Questa proporzione grezza funziona per

sequenze che sono molto vicine

evolutivamente.

Se è passato molto tempo dalla

divergenza, p sottostima il numero di

sostituzioni che sono realmente

avvenute.

Un sito variabile può originarsi attraverso

più percorsi e perfino un sito uguale in

due sequenze può nascondere retro

sostituzioni o sostituzioni parallele.

Sostituzioni multiple nascondono alcuni

cambiamenti, perciò p non è una funzione

diretta del tempo evolutivo. La

proporzione grezza p può essere usata

solo se p < al 5%

Page 5: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Per N siti ed n differenze: grado di divergenza = n/N AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA divergenza = 0.3 o 30%

Distanze fra sequenze

Page 6: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze
Page 7: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze

Complichiamo lo scenario: correggiamo per “multiple hits” I modelli di Jukes e Cantor, Kimura, Tamura e Nei etc. possono essere usati oltre che per prevedere l’evolversi di una sequenza, anche per valutare la distanza fra due sequenze originatesi da una divergenza

Page 8: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Modello di Jukes e Cantor (1969)

Distanze fra sequenze: non coding sites

d: numero di sostituzioni per sito dal momento della divergenza p: proporzione osservata di siti differenti tra due sequenze

Page 9: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Modello di Kimura 2 parametri (1980)

d: numero di sostituzioni per sito dal momento della divergenza (se P e Q sono uguali si torna all’equazione di JC)

d

Distanze fra sequenze: non coding sites

Page 10: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Esempio: rRNA 12s mtDNA

Da Yang “computational molecular evolution” Oxford University Press 2006

Distanze fra sequenze: non coding sites

Page 11: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Esempio: rRNA 12s mtDNA N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948 p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949 P = transiz = (30+23+21+10)/948 =84/948=0.088 Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063

Da Yang “computational molecular evolution”

JC69

K2P80

JC69 : d = 0.1015

K2P80: d = 0.1038

La differenza è minima

Distanze fra sequenze: non coding sites

Page 12: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Aumentiamo la divergenza: N= 948 p= 500/948 = 0.527 P = transiz = 400/948 = 0.4219 Q= trasv= 100/948 = 0.1055

JC69

K2P80

JC69 : d = 0.91

K2P80: d = 1.55

La differenza tra le due stime aumenta all’aumentare della

divergenza

Se c’è un alto livello di divergenza e, soprattutto, se ci sono motivi a priori di pensare che il tasso di transizione differisca da quello di trasversione è meglio considerare modelli più complessi di Jukes and Cantor

Distanze fra sequenze: non coding sites

Page 13: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Calcolare il numero di sostituzioni tra due sequenze codificanti proteine è più complesso perché è necessario distinguere tra sostituzioni sinonime e non sinonime

Page 14: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Seq1

Seq2

Ser Thr Glu Met Cys Leu

TCA ACT GAG ATG TGT TTA

↕ ↕ ↕ ↕

TCG ACA GAG ATA TGT CTA

Ser Thr Glu Ile Cys Leu Basta contare?

NO: Problemi con il denominatore

Non Sin

Sin Sin Sin

Page 15: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Perché non basta contare?

sinonimo

Non sinonimo

1. La classificazione dei siti cambia nel tempo

Page 16: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Perché non basta contare?

Sinonimo Non sinonimo

2. Alcuni siti non sono solo sinonimi o solo non sinonimi, dipende da come mutano

Page 17: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Seq1

Seq2

Ser Thr Glu Met Cys Leu

TCA ACT GAG ATG TGT TTA

↕ ↕ ↕ ↕

TCG ACA GAG ATA TGT CTA

Ser Thr Glu Ile Cys Leu Basta contare?

NO: Problemi con il numeratore

Non Sin

Sin Sin Sin

Page 18: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites Problemi col numeratore: Esempio: quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non sinonimo.

Esempio: CCC nella sequenza 1 e CAA nella sequenza 2 La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute

Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi

Page 19: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites Basta contare?

NO: possibili soluzioni Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

Nei and Gojobori calculate average

number of synonymous and

nonsynonymous sites allowing

particular sites to be a portion in

each category (can also “weight”

substitution pathway probabilities).

Page 20: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites Basta contare?

NO: possibili soluzioni

1. Consideriamo una posizione specifica in

un codon. Se i è il numero di possibili

cambiamenti sinonimi a quel sito allora lo

conteremo come i/3 sinonimo e (3 – i)/3

non sinonimo.

Page 21: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non sinonimo. 2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e quello di non sinonimi è NA. 3. Classifichiamo le differenze in sinonime e non sinonime per due codon con 1 differenza è semplice GTC (Val) GTT (Val) > sinonimo GTC (Val) GCC (Ala) > non sinonimo per più di una differenza: considerare i diversi percorsi

Page 22: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

3. Classifichiamo le differenze in sinonime e non sinonime per più di una differenza: considerare i diversi percorsi (in che ordine sono avvenute le mutazioni?) Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi

Approccio non pesato: Tutto è equiprobabile Nei and Gojobori Ma=differenze non sin: (1+2)/2 = 1.5 Ms=differenze sinonime: (1+0)/2 = 0.5

Approccio pesato Utilizza criteri che aiutano a decidere quali dei due percorsi sia più probabile Percorso II meno probabile (sin più frequenti di non sin)

Ma= differenze non sin: (0.9*1) + (0.1*2) = 1.1 Ms= differenze sinonime: (0.9*1) + (0.1*0) = 0.9

Page 23: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

3. Classifichiamo le differenze in sinonime e non sinonime 4. Il numero di mutazioni sinonime per sito sinonimo pS = MS / NS

Il numero di mutazioni non sinonime per sito non sinonimo pA = MA / NA

Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor per correggere

Page 24: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Distanze fra sequenze: coding sites

Nei & Gojobori (1986)

Page 25: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze

Allineamenti

Dan Graur : Lecture 18

ALIGNMENT OF NUCLEOTIDE

& AMINO-ACID SEQUENCES

http://nsm.uh.edu/~dgraur/

Genes and Genomes: Fundamentals of Molecular Evolution