95
Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa [email protected]

Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa [email protected]

Embed Size (px)

Citation preview

Page 1: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti biologiche e allineamento

Giovanni MicalePhD student

Department of Computer ScienceUniversity of [email protected]

Page 2: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Outline

• Reti biologiche

• Analisi comparativa di reti biologiche

• Allineamento di reti:o Allineamento di reti PPI

• GASOLINEo Allineamento di protein structure networks

• PROPOSAL

Page 3: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti biologiche

Page 4: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Definizione di reteUna rete (o grafo) G=(V,E) è una struttura dati definita da:• V: insieme di nodi che rappresentano le entità di

una rete;• E: insieme di archi che descrivono le relazioni tra

le entità. Un arco è una coppia ordinata di nodi.

A

B

C

D

A

B

C

D

Page 5: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Networks everywhere

Page 6: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti biologiche• Descrivono processi biologici che avvengono nella

cellula a diversi ‘livelli di risoluzione’;

• Descrivono l’insieme delle interazioni fisiche o reazioni chimiche tra vari tipi di molecole (es. RNA, geni, proteine, metaboliti).

• Esempi di reti biologiche:o Reti di interazione proteina-proteina (PPI);o Reti trascrizionali;o Reti metaboliche;o Mappe di contatto;

Page 7: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti di interazione proteina-proteina

(PPI)

• Nodi: proteine;• Archi: contatti fisici che si stabiliscono tra le proteine come

conseguenza di eventi biochimici o forze elettrostatiche;• Gli archi possono essere pesati con probabilità di

interazione.

Page 8: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Due tipi di interazioni• Signal transduction: una proteina interagisce

con una o più proteine per trasmettere un segnale o uno stimolo esterno alla cellula (es. inizio trascrizione)o Interazioni a catena (solitamente mediante fosforilazione);o Interazioni tipicamente transitoria.

• Complex assembly: un insieme di proteine si unisce a formare una struttura cellulare più grande (complesso)o Interazioni stabili tra tutte le proteine del complesso

Page 9: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Identificare PPIs• Metodi sperimentali e computazionali;

• Metodi per individuare interazioni fisiche:o Yeast 2-hybrid (Y2H) screening;o Mass spectrometry;

• Metodi per individuare associazioni funzionali:o Correlazione di profili di espressione di mRNA;o Interazioni genetiche;o Metodi in silico (ad esempio gene fusion)

Page 10: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Banche dati di PPIs• Biological General Repository for Interaction

Datasets (BioGRID)• Human Protein Reference Database (HPRD)• Saccharomyces Genome Database (SGD)• Search Tool for the Retrieval of Interacting

Genes/Proteins (STRING)• Molecular interaction database (IntAct)• Database of Interacting Proteins (DIP)• Molecular Interactions Database (MINT)• …

Page 11: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Limitazioni su PPI data

• Alto tasso di falsi positivi e negativi;• Incompletezza dei dati attuali su molte specie:

o Yeast 50%, Human 10%;o Le PPI dei virus sono quelle più complete.

• Scarso overlap tra i vari dataset:o Mancanza di uno standard;o Inconsistenza del mapping.

• Mancanza di informazioni temporali e relative a condizioni sperimentali;

• Relazione tra concentrazione di una proteina e il suo insieme di interattori?

Page 12: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti trascrizionali• Nodi: geni;• Arco: un gene influenza la produzione di un altro gene, per

mezzo della sua corrispondente proteina (fattore di trascrizione);

• Due tipi di archi: stimolazione o repressione dell’espressione del gene.

Page 13: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti trascrizionali• Le più complete sono relative a organismi

modello semplici (lievito, verme, moscerino della frutta);

• Alcune sorgenti di dati:o Kyoto Encyclopedia of Genes and Genomes (KEGG);o RegulonDB;o Reactome;o TRANSPATH;o TRANSFACT;o EcoCyc.

Page 14: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti metaboliche• Usate per descrivere il metabolismo, cioè

l’insieme delle reazioni biochimiche che permettono all’organismo, si crescere, riprodursi e rispondere all’ambiente esterno;

• E’ formata da pathway metaboliche;

• La pathway descrive l’insieme delle reazioni biochimiche necessarie per realizzare una funzione (ad es. apoptosi e glicolisi)

Page 15: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti metaboliche• I nodi della rete sono metaboliti ed enzimi;

• I metaboliti sono molecole e costituiscono prodotti intermedi e finali del metabolismo (es. glucosio, aminoacidi e polisaccaridi);

• Gli enzimi sono proteine che catalizzano le reazioni chimiche;

• Gli archi (diretti) corrispondono alle reazioni metaboliche, che convertono un metabolita in un altro, mediante l’intervento di uno o più enzimi.

Page 16: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti metaboliche

Page 17: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Reti metaboliche• Le reti metaboliche sono ottenute in parte

sperimentalmente e in parte per omologia;

• Dati disponibili per molti organismi;

• Alcuni database:o Kyoto Encyclopedia of Genes and Genomes (KEGG);o GeneDB;o BioCyc;o EcoCyc;o MetaCyc;o ERGO.

Page 18: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Mappe di contatto

• Nodi: aminoacidi;• Un arco collega due amino acidi se sono sufficientemente

vicini nella struttura tridimensionale della proteina (ad es. 10 Angstrom);

Page 19: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Mappe di contatto• Mappano la struttura 3D della proteina in modelli

2D (grafi), più semplici da analizzare;

• Invarianti a rotazioni e traslazioni;

• Sotto certe condizioni, è possibile ricostruire le coordinate 3D di una proteina a partire dalla sua contact map;

Page 20: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Altre reti biologiche• Reti neurali: connessioni sinaptiche tra neuroni;• Reti ecologiche: sistema prede – predatori;• Reti di correlazioni: descrivono le correlazioni

tra le espressioni dei geni;o Diversamente dalle reti trascrizionali non sono il risultato diretto di

esperimenti;

• Reti di associazione ‘disease-gene’: lega malattie causate dallo stesso gene e geni che causano la stessa malattia;

• Reti di associazione ‘drug-target’: lega drugs che targettano lo stesso gene (o proteina) e geni (o proteine) targettate dalla stessa drug.

Page 21: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Analisi comparativa di reti biologiche

Page 22: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Network vs sequence analysis

• Per molti anni, la ricerca si è concentrata sull’analisi di singoli geni o proteine, per capirne la loro funzione;

• Tuttavia alcuni processi sono complessi e coinvolgono molti geni o proteine;

• L’analisi delle reti biologiche può spiegare meglio il funzionamento di questi processi

Page 23: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Proprietà delle reti biologiche

• Le reti biologiche (ed in particolare le reti PPI) sono costituite da piccoli gruppi di proteine altamente interconnessi (moduli);

• I moduli sono collegati tra loro da un ristretto numero di proteine di grado elevato (hub), che corrispondono a proteine ‘centrali’;

• I moduli coinvolgono tipicamente nodi che svolgono una funzione comune o sono coinvolti nello stesso processo (ad es. complessi).

Page 24: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Esempio su D. Melanogaster PPI

Page 25: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Analisi comparativa • Il problema di individuare moduli funzionali nelle

reti biologiche è analogo al problema di individuare elementi funzionali in sequenze di genomi o proteine;

• Assunzione biologica: la ‘conservazione’ di una sottorete di molecole nell’evoluzione di una specie implica una rilevanza funzionale;

• Conservazione riguarda sia le molecole coinvolte che le loro interazioni

Page 26: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Tecniche di network comparison

• Network alignment: confrontare due o più reti biologiche dello stesso tipo ma di specie diverse, identificando regioni di similarità;o Individuare moduli funzionali conservati in specie diverse

• Network integration: combinare due o più reti di diverso tipo ma della stessa specie e definite sullo stesso set di elementi;o Individuare moduli di proteine che interagiscono allo stesso modo

mediante interazioni di tipo diverso;o Predire nuove interazioni.

• Network querying: ricercare, all’interno di una rete, sottoreti simili ad una rete di interesse (query graph);o Identificare istanze duplicate o conservate di un modulo

Page 27: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Esempio di network integration

Page 28: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Esempio di network querying

Page 29: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti

Page 30: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti • Date N reti biologiche, individuare un insieme di N

sottoreti di W nodi, una per ogni rete, in modo tale che la similarità tra le sottoreti sia massimizzata, in termini di similarità molecolare e topologica;

• W può essere fissato oppure no.

Page 31: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento locale vs globale

• Allineamento locale: trovare sottoreti locali simili e ‘allineare’ le reti in corrispondenza di queste sottostrutture;

• Allineamento globale: mappare tra loro i nodi delle varie reti, cercando di massimizzare il numero di archi conservati nelle varie reti.

Page 32: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti PPI

Page 33: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti PPI • Allineamento locale: Individuare moduli

funzionali di proteine conservati in specie diverse:o Complessi (tipicamente sottoreti dense);o Pathway (tipicamente strutture ad albero o a catena).

• Allineamento globale: misurare la similarità tra specie diverse a livello di reti PPI (analogo all’allineamento genomico):o Valutare la distanza evolutiva tra specie diverse

• Può essere pairwise (due reti) o multiplo (più reti)

Page 34: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti PPI • Quali proteine, interazioni tra proteine e gruppi di

interazione hanno funzioni equivalenti tra le specie?

• A partire da queste similarità, è possibile predire la funzione alcune proteine e nuove interazioni?

• Cosa ci suggeriscono queste relazioni sull’evoluzione delle proteine, di alcuni processi o dell’intera rete nei vari organismi?

• E’ possibile migliorare la confidenza che abbiamo su una interazione, se quest’ultima risulta conservata tra specie diverse?

Page 35: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Funzione di similarità tra proteine

• Nell’allineamento di reti PPI, occorre definire una funzione di similarità molecolare tra le proteine;

• Una scelta tipica è quella di considerare il BLAST E-value (o il Bit Score);

• Le proteine che si corrispondono nell’allineamento sono considerate ortologhe;

• Ortologhi: proteine che svolgono una funzione simile in specie diverse;

• Ortologia e similarità sequenziale non sempre coincidono!;

Page 36: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Paraloghi e omologhi • Una proteina può avere due o più ‘copie’ (più o

meno divergenti) nella stessa specie (paraloghi);

• La presenza di paraloghi è dovuta a processi di duplicazione e successiva modificazione subiti dalle proteine nel corso dell’evoluzione;

• Le modifiche possono riguardare anche la rete PPI;

• Paraloghi e ortologhi prendono anche il nome di omologhi.

Page 37: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Duplication-divergence model

Page 38: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Mapping tra proteine allineate

• Nell’allineamento finale, il mapping prodotto può essere uno-a-uno oppure molti-a-molti;

• Il mapping molti-a-molti è in grado di considerare paraloghi e ortologhi, ma può essere più difficile da interpretare.

Page 39: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Panoramica su algoritmi di allineamento di

reti PPI

Page 40: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Un algoritmo di allineamento di reti

PPI: GASOLINE

Page 41: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

GASOLINE

GASOLINE: Greedy and Stochastic algorithm for Optimal Local alignment of Interaction NEtworks

• Greedy: usa un approccio seed-extend per cercare sottografi conservati, partendo da allineamento di singoli nodi (seed dell’allineamento);

• Stochastic: usa il Gibbs sampling, un metodo stocastico e probabilistico, per cercare un mapping ottimale tra i nodi.

Page 42: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Preprocessing• Obbiettivo: ridurre lo spazio di ricerca per i

potenziali seed;

• Si ‘marcano’ le proteine che hanno ortologhi in tutte le reti allineate e grado superiore un valore di soglia σ;

• Tutti i nodi ‘marcati’ nella rete Gi sono aggiunti ad un insieme Si;

• Gli insiemi S1, S2, …, Sk sono utilizzati come input per GASOLINE e aggiornati ad ogni iterazione.

Page 43: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Descrizione generale di

GASOLINEInput:

G: set of N PPI networksS1, S2, …, SN: set of nodes from networks G1, G2, …, GN marked

as potential seeds

Bootstrap phase: find an optimal alignment of

seeds

Iterative phase: iteratively remove and add nodes

All aligned seeds are orthologs

Extension step: extend

seeds until the degree ratio

increases

Removal step: remove the set of

mapped nodes with minimum Goodness

score

S1, S2, …, SN are not

empty

Output:set of local

alignments of N subgraphs

Remove seeds from S1, S2, …,

SN

True

False

True

False

Save the alignment

found

Page 44: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

A running example

Page 45: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Gibbs sampling• Sia la fase iniziale (bootstrap phase) che la fase

iterativa (e in particolare ogni estensione) sono eseguite usando il Gibbs sampling

• Il Gibbs sampling è un metodo di campionamento, che fa parte della classe dei metodi Markov Chain Monte Carlo (MCMC);

• Il Gibbs sampling si basa sui concetti di catene di Markov e distribuzione stazionaria;

Page 46: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Catena di MarkovDef: a catena di Markov è una tripla (Q, P(π1),A):

• Q è un insieme finite di k stati (o eventi);• πi for i=1, 2, …, è lo stato della catena all’istante di

tempo i;• P(π1) è la distribuzione di probabilità iniziale degli

stati (probabilità di trovarsi in uno stato all’istante iniziale);• A = [aij] è una matrice di probabilità di transizione

da uno stato i ad uno stato j.

Page 47: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Tipi di catene di Markov

Def: una catena di Markov del primo ordine è una catena in cui la probabilità di trovarsi in uno stato al tempo i+1 dipende soltanto dallo stato della catena al tempo i:

" i ≥ 1, P(πi+1|π1, …, πi) = P(πi+1|πi)

Def: una catena di Markov è finita se l’insieme dei suoi stati è finito.

Def: una catena di Markov è irriducibile se tutti I suoi stati sono raggiungibili da qualsiasi stato della catena.

Page 48: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Tipi di catene di Markov

Def: il periodo di uno stato s della catena di Markov è il numero minimo di transizioni (con probabilità non nulla) che sono necessari per tornare a s partendo da s stesso.

Period(E1) = 2E1

E2

E3

E4

E1

E2

E1E3

E4

Def: uno stato è aperiodico se ha periodo uguale a 1.

Def: una catena di Markov è aperiodica se tutti i suoi stati sono aperiodici.

Page 49: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Distribuzione stazionaria

Def: Data una catena di Markov del primo ordine, finita, aperiodica e irriducibile con n stati, un vettore φ=(φ1, φ2, …, φn) è una distribuzione stazionaria se:

φ x A = φ

• Data una catena di Markov con queste proprietà trovare la distribuzione stazionaria è semplice (risolvendo la precedente equazione);

• Il problema inverso è computazionalmente difficile e si può risolvere tramite metodi di campionamento (Gibbs sampling, Hasting-Metropolis, etc…)

Page 50: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Bootstrap phase – Gibbs sampling

1. Sia M una catena di Markov in cui gli stati sono combinazioni di k protein, una per ogni rete(prese dagli insiemi Si);

2. Scegli in maniera random una proteina da ogni rete e sia A questo allineamento iniziale;

3. Per i=1,2,…k• Estrai in maniera random una proteina Ai da

A;• Sostituisci Ai con una proteina x della stessa

rete, sulla base di una probabilità di transizione (ovvero cambia stato in M);

• Aggiungi x ad A;4. Restituisci A.

Page 51: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Bootstrap phase – probabilità di

trans.

• Supponiamo di voler sostituire Ai con x nell’allineamento A;

• Sia S(a,b) lo score di similarità tra le sequenze delle proteine a e b (es. BLAST Bit score);

• Label similarity score di x:

• Probabilità di transizione:

Page 52: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Bootstrap phase – terminazione

• Il Gibbs sampling viene iterato per un numero fissato di volte;

• Al termine del Gibbs sampling, l’ultimo allineamento ottenuto viene restituito.

Page 53: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Iterative phase – fase di estensione

1. Sia M una catena di Markov dove gli stati sono combinazioni di k proteine, una per ogni rete (prese dagli insiemi dei nodi adiacenti ai nodi già allineati);

2. Scegli in maniera random un nodo adiacente da ogni insieme e sia A questo allineamento iniziale;

3. Per i=1,2,…k• Estrai in maniera random una proteina Ai da

A;• Sostituisci Ai con una proteina x della stessa

rete, sulla base di una probabilità di transizione P (cambia stato in M);

• Aggiungi x ad A;4. Estendi ciascun seed con I nodi corrispondenti in

A.5. Ripeti finché il degree ratio dei sottografi allineati

cresce.

Page 54: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Iterative phase – Probabilità di

trans.

• Supponiamo di rimpiazzare Ai con x nell’allineamento A;

• Label similarity score di x:

• Per la similarità topologica, sia V(n) il vettore topologico, un array che memorizza i pesi degli archi che collegano un nodo n ai nodi della stessa rete già allineati.

• La posizione dei pesi nel vettore segue l’ordine di inserimento dei nodi nell’allineamento di sottografi parziale.

Page 55: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Vettore di topologia - esempio

n1

2

3

V(n) = [0.7, 0, 0.3]

0.7

0.3

Page 56: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Iterative phase – Probabilità di

trans.

• Similarità tra i vettori topologici di due proteine a e b:

• Topology similarity score di x:

• Score di similarità complessivo di x:

• Probabilità di transizione di x:

dove Adj(k) è l’insieme degli adiacenti al

sottografo già allineato della k-esima rete.

Page 57: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Iterative phase – terminazione• Il Gibbs sampling viene iterato per un numero

fisso di volte;

• Al termine del Gibbs sampling, l’ultimo allineamento prodotto viene restituito.

Page 58: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Degree ratio• Sia S un sottografo allineato, G il grafo di cui fa

parte, degInt(x) il numero di archi che collegano un nodo x in S con i nodi di S e deg(x) il grado di x in G;

• Degree ratio di S:

• Degree ratio dell’allineamento A:

• Il processo di estensione viene eseguito finché il degree ratio di A cresce.

Page 59: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Removal step• Elimina dall’allineamento corrente l’insieme di

nodi allineati che dà il contributo minimo alla qualità dell’allineamento;

• Rappresentiamo A come una matrice k x w, dove ogni colonna contiene proteine allineate nelle varie reti;

• Eliminiamo la colonna con Goodness score minimo;

• Goodness di una proteina A[i,j]:

• Goodness di una colonna j di A:

Page 60: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Score dell’allineamento finale• La qualità dell’allineamento viene valutata in

termini di conservazione strutturale;• Numero di interazioni conservate in nodi x e y di

diversi sottografi allineati:

• Score di similarità strutturale tra due sottografi allineati P e Q:

dove P[i] and Q[i] sono nodi allineati in P and Q.

Page 61: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Score dell’allineamento finale• Score di similarità strutturale di un allineamento

A:

• Index of Structural Conservation (ISC) di A:

• ISC(A) [0,1]

Page 62: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Postprocessing• Obbiettivo: filtrare complessi che hanno un

elevato grado di overlap;• Gli allineamenti vengono ordinati per dimensione

e ISC score;• Sia S un sottografo dell’allineamento A e Perc(S)

la percentuale di proteine in S osservate in precedenti allineamenti;

• Perc(A) è il valore medio di Perc(S) sui vari sottografi allineati in A;

• Se Perc(A) è al di sopra di una certa soglia l’allineamento viene scartato.

Page 63: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 64: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 65: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 66: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Riferimenti bibliografici

Page 67: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 68: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 69: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 70: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 71: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 72: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Una app per Cytoscape

Page 73: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di reti di strutture di proteine

Page 74: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Perché confrontare strutture 3D

• La funzione di una proteina è principalmente legata alla sua struttura 3D oltre che alle proteine con cui interagisce;

• La struttura 3D di una proteina è generalmente più conservata della sua sequenza;

• L’analisi comparativa a livello strutturale può fornire ancora più indizi sulla funzione di una proteina rispetto a quella fatta a livello di sequenze.

Page 75: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di protein structures

• Confrontare due o più strutture 3D di proteine al fine di individuare delle similarità (locali o globali);

• Similarità relative sia agli aminoacidi coinvolti che alle loro distanze dagli altri residui;

• Obbiettivo: trovare una sovrapposizione ottimale delle strutture.

Page 76: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento di protein structures

Page 77: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento locale

• Individuare potenziali siti di legame con altre molecole (proteine, RNA, ecc.) conservati in più proteine;

• Applicazioni: o Predire interazioni tra proteine a livello molecolare (docking

molecolare);o Drug design.

• L’allineamento si può fare sia a livello 3D che 2D (contact maps);

• Il mapping a 2D viene fatto per ridurre la complessità computazionale del problema.

Page 78: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Funzione di similarità tra

aminoacidi

• Similarità tra le label dei nodi: matrici di sostituzione (PAM, BLOSUM);

• BLOSUM: matrice di sostituzione, con score che indicano la frequenza di sostituzione di aminoacidi con altri, sulla base di allineamenti locali già computati;

• BLOSUMx: matrice costruita usando sequenze con non più del 62% di similarità;

• Per proteine distanti conviene usare BLOSUM33, per proteine simili si può usare anche BLOSUM80;

Page 79: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Valutazione della qualità

dell’allineamento

• La qualità dell’allineamento è misurata sulla base della distanza media tra gli aminoacidi allineati;

• Dati due set di k residui allineati C e D, si cerca prima la sovrapposizione ottimale di questi residui, quella che minimizza la loro distanza nello spazio (tramite rotazioni e traslazioni);

• Quindi si calcola l’RMSD (Root Mean Square Deviation) a partire dalle coordinate x,y,z dei residui allineate dopo la trasformazione:

Page 80: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Panoramica su algoritmi di allineamento strutturale di

proteine

• 3D structure comparison:o DALI;o VAST;o SSAP;o CE;o MultiProt;o TM-Align;o MATT;o DeepAlign.

• 2D contact maps comparison:o Apurva;o (Di Lena et al.);o MSVNS;o GR-Align.

• Local aligners (pairwise):o ProBiS;o SMAP.

Page 81: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Un algoritmo di allineamento locale di strutture: PROPOSAL

Page 82: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

PROPOSAL

PROPOSAL: PROtein comparison through Probabilistic Optimal Structure local ALignment

• Greedy: use a seed-extend approach to look for conserved substructures, starting from the alignment of triplets of aminoacids;

• Stochastic: use a Gibbs sampling strategy to find an optimal mapping between aminoacids.

Page 83: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Descrizione di PROPOSAL

Page 84: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Differenze tra GASOLINE e

PROPOSAL

• Gli allineamenti hanno dimensione fissata W;

• Si parte da allineamenti di triplette di aminoacidi e non più da singoli nodi;

• L’estensione iniziale è fatta sempre fino a W aminoacidi, poi si procede sempre per rimozione e aggiunta di singoli aminoacidi allineati (da W-1 a W e viceversa);

• Cambiano le funzioni di scoring per Gibbs sampling; • Goodness sostituita con Badness score.

Page 85: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Allineamento iniziale

• L’allineamento iniziale avviene a partire da triplette di aminoacidi.

• Le triplette candidate ad essere allineate sono tutte quelle in cui gli aminoacidi sono a distanza massima di 10 Angstrom tra loro.

• Gli aminoacidi da allineare devono corrispondersi (ad es. C deve essere mecciato con C, D con D, ecc.)

Page 86: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Probabilità di transizione nella fase

iniziale

• Siano S1, S2, …, SN le triplette di aminoacidi nell’alllineamento corrente;

• Sia X la tripletta candidata a sostituire Si ad una certa iterazione del Gibbs sampling;

• Distance similarity:

• La probabilità di transizione è ottenuta normalizzando Sim(X) in [0,1].

Page 87: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Probabilità di transizione nella fase di

estensione

• Siano S1, S2, …, SN le sottostrutture già allineate;

• Vogliamo estendere ogni sottostruttura già allineata con l’aggiunta di un nuovo aminoacido della stessa struttura tramite Gibbs sampling;

• Gli aminoacidi candidati sono quelli che si trovano a distanza al più 10 Angstrom da almeno un residuo nella sottostruttura corrispondente;

• Sia A l’allineamento corrente di aminoacidi nel Gibbs sampling e supponiamo di sostituire Ai con x;

• La probabilità di transizione è calcolata considerando la similarità tra x e gli altri aminoacidi in A e le distanze tra x e gli altri aminoacidi in A;

Page 88: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Probabilità di transizione nella fase di

estensione

• Similarità tra label:

• Distance similarity:

• La probabilità di transizione è il prodotto delle due similarità

Page 89: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Badness score

• Nella refinement phase si rimuove il set di aminoacidi allineati che dà il contributo ‘peggiore’ all’allineamento finale;

• Badness score:

• Si rimuove il set di aminoacidi allineati con più alto Badness score.

Page 90: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 91: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 92: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Test – alcuni risultati

Page 93: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Riferimenti bibliografici

Page 94: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Considerazioni finali• Gli algoritmi descritti possono essere

generalizzati ed estesi a qualsiasi tipo di rete e contesto;

• Qualsiasi funzione di similarità tra i nodi delle reti può essere usata;

• Possibili estensioni:o Analisi di reti sociali;o Reti dinamiche;o Reti multidimensionali;o …

Page 95: Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Questions?