21
Cadenas de Markov y aplicaciones en biolog´ ıa computacional Alex S´ anchez Departament d’Estad´ ıstica U.B. Estad´ ıstica i Bioinform` atica Cadenas de Markov en Biologia Computacional Alex S´ anchez Esquema del tema Modelos de secuencias biol´ ogicas Cadenas de Markov Definici´ on y conceptos b´ asicos Ecuaciones de Chapman Kolmogorov Distribuciones estacionarias e invariantes Inferencia con cadenas de Markov Verosimilitud Estimaci´ on (MV) de los par´ ametros. Aplicaciones de los MM en biocomputaci´ on Islas CpG Modelos de evolucion molecular Matrices de sustituci´ on Departament d’Estad´ ıstica U.B. 1

Esquema del tema - Universitat de Barcelona · Cadenas de Markov en Biologia Computacional Alex S anchez ’ & $ % Podemos reformular las cuestiones anteriores en t erminos de probabilidad

  • Upload
    lamkien

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

'

&

$

%

Cadenas de Markov y aplicaciones

en biologıa computacional

Alex Sanchez

Departament d’Estadıstica U.B.

Estadıstica i Bioinformatica

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Esquema del tema

Modelos de secuencias biologicas

Cadenas de Markov

• Definicion y conceptos basicos

• Ecuaciones de Chapman Kolmogorov

• Distribuciones estacionarias e invariantes

Inferencia con cadenas de Markov

• Verosimilitud

• Estimacion (MV) de los parametros.

Aplicaciones de los MM en biocomputacion

• Islas CpG

• Modelos de evolucion molecular

• Matrices de sustitucion

Departament d’Estadıstica U.B. 1

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

1. Modelos probabilısticos de secuencias

biologicas

Deseamos responder cuestiones del tipo de:

• Reconocimiento de patrones: ¿Esta secuencia es un

sitio de “splice”?

• Discriminacion entre modelos: ¿A que se parece mas

esta proteına, a una hemoglobina o a una mioglobina?

• Busqueda en bases de datos: ¿Que secuencias, si hay

alguna, de SWISS PROT son parecidas a una dada?

Los modelos probabilısticos de secuencias biologicas resultan

adecuados para hacerlo

Departament d’Estadıstica U.B. 2

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Puntuacion de secuencias

La idea basica en muchos metodos, es puntuar las secuencias

con la probabilidad que les asigna un modelo M dado,

S(x) = P (x|M),∑

∀x

P (x|M) = 1.

Esto permite tambien establecer una medida de cuan verosimil

resulta un modelo, a la vista de una secuencia:

L(M|x) ∝ P (x|M)

Departament d’Estadıstica U.B. 3

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Podemos reformular las cuestiones anteriores en terminos de

probabilidad o verosimilitud. Por ejemplo:

La cuestion sobre reconocimiento de patrones:

• ¿Esta secuencia es un sitio de “splice”?

• equivale a preguntarse si: ¿Es P (x|Msplice) suficientemente

alta para decidir que sı lo es?

El problema de discriminacion entre modelos:

• ¿A que se parece mas esta proteına, a una hemoglobina o a

una mioglobina?

• Sera equivalente a ¿Que es relativamente mayor

L(Mmiog|x) o L(Mhemo|x)?

Departament d’Estadıstica U.B. 4

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Mas sobre modelos probabilısticos ...

Stochastic Modeling Techniques: Understanding and using

hidden Markov models

• 2.1. What is a model y

• 2.2. Bayesian statistics When does a sequence fit a model?

http://www.cse.ucsc.edu/research/compbio/sam.html

Departament d’Estadıstica U.B. 5

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Tipos de modelos para secuencias

Los tipos mas utilizados de modelos son:

Secuencias de sucesos independientes

Modelos de Cadenas de Markov

Modelos Ocultos de Markov

Departament d’Estadıstica U.B. 6

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

2. Modelos de independencia

Podemos imaginar que una secuencia de nucleotidos (AN) o

aminoacidos (proteınas) se origina a partir de lanzamientos

independientes de una moneda de 4 (AN) o 20 caras (AA)

• Por ejemplo en los AN podemos obtener A, con

probabilidad PA, C con probabilidad PC , G con

probabilidad PG y T con probabilidad 1 − PA − PC − PG .

• Observamos la secuencia de resultados O = GATTACA.

Podemos modelizar esta situacion suponiendo que tenemos

realizaciones independientes de una variable aleatoria que toma

valores en {0, 1}4 segun cada nucleotido sea A,C,G, T con

probabilidades PA, PC , PG, PT

Departament d’Estadıstica U.B. 7

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

2.1. Probabilidad y verosimilitud

Bajo el modelo de independencia (M) la probabilidad de

observar la secuencia O sera:

P (O|M) = PG · PA · PT · PT · PA · PC · PA = P 3A · P 1

C · P 1G · P 2

T

Dada una secuencia formada por nA, As, nC Cs, etc la

verosimilitud del modelo M sera:

L(M |O) = P nA

A · PnC

C · PnG

G · PnT

T .

Departament d’Estadıstica U.B. 8

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Estimacion de los parametros

La estimacion maximo verosimil de los parametros resulta

(confırmelo):

PMLA =

nA

n, PML

C =nC

n, PML

G =nG

n, PML

T =nT

n.

Una estimacion bayesiana, tomando como prior una

distribucion de Dirichlet,

Dir(αqA, ..., αqT ),∑

qi = 1

y como estimador la media de la distribucion posterior(MPE)

da un resultado similar:

PMPEi =

ni + αqi

n + α, i = A,C,G, T.

salvo por los pseudocontajes αqi, que a veces se interpretan

como una pequena perturbacion de la muestra para evitar

estimaciones iguales a cero.

Departament d’Estadıstica U.B. 9

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Los modelos de independencia resultan utiles como modelo nulo

pero suponer que hay independencia entre los sucesos suele ser

una simplificacion excesiva.

• Correlaciones entre los nucleotidos debido a su pertenencia

a uno u otro codon,

• Correlaciones entre codones por la presencia de senales,

• Correlaciones entre las secuencias de AA debido a los

plegamientos de las proteinas...

En estos casos resultan adecuados modelos capaces de capturar

las relaciones de dependencia entre un suceso y los anteriores.

Uno de los mas adecuados son las cadenas de Markov.

Departament d’Estadıstica U.B. 10

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

3. Cadenas de Markov

Procesos estocasticos

Definicion. Propiedad de Markov

(Matriz de) Probabilidades de transicion

Calculos con cadenas de Markov

• Probabilidad de una secuencia de observaciones

• Probabilidad de encontrarse en un estado en tras n

transiciones.

• Probabilidad de todos los estados a cada transiciopn.

Distribuciones estacionarias. Cadenas estacionarias

Departament d’Estadıstica U.B. 11

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

3.1. Procesos estocasticos o aleatorios

Un proceso estocastico (random process) en tiempo discreto es

una familia (o una sucesion) de variables aleatorias

X0, X1, X2, ... = {Xn}n≥0.

Normalmente estas variables son dependientes, es decir el valor

de una de ellas depende le las restantes a traves de su

distribucion conjunta.

Tıpicamente Xn describe algun fenomeno que evoluciona en el

tiempo (ej. Poblacion) o el espacio.

Mas: http://en.wikipedia.org/wiki/Stochastic_process

Departament d’Estadıstica U.B. 12

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Ejemplos de procesos estocasticos

Proceso de Bernouilli: Xi ∼ b(1, p): Repeticiones

independientes de una observacion que puede valer 1 o 0.

Paseo aleatorio (random walk) Sea X0 = 0 y Xi = Xi−1 + Zi,

i ≥ 1, donde Z1, Z2, etc. son variables iid tales que:

P (Zi = −1) = p, P (Zi = 1) = 1 − p. En este caso el futuro

Xn+1, Xn+2, ... tan solo depende del estado actual Xn.

Proceso de Poisson

Departament d’Estadıstica U.B. 13

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

3.2. Conceptos basicos sobre cadenas de Markov

Las cadenas de Markov son un tipo de proceso estocastico,

{Xj}j≥0, de gran importancia en bioinformatica

Suelen describir procesos discretos que evolucionan en el

tiempo (generaciones) o en el espacio (secuencias biologicas)

En cada instante la cadena visita uno (Si) de un cierto numero

de estados posibles S = {S1, ...., SN}.

Caracterıstica principal: Propiedad de Markov (falta de

memoria): Solo importa el estado actual para predecir el estado

futuro:

P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)

= P (Xj+1 = kj+1|Xj = kj).

Departament d’Estadıstica U.B. 14

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Figura 1: Una cadena de Markov evoluciona entre un conjunto de

estados. A menudo se indican los estados S1, ..., SN como 1, 2, ..., N

para simplificar la notacion.

Departament d’Estadıstica U.B. 15

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%Figura 2: Las cadenas de Markov tambien pueden describirse medi-

ante maquinas de estados o automatas finitos

Departament d’Estadıstica U.B. 16

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Orden de una cadena de Markov

El orden de una cadena de Markov establece el numero de

estados anteriores de los cuales depende la probabilidad de un

estado, en un instante dado del proceso:

Ası, dado S = {S1, ..., SN}, en una cadena de primer orden

tendremos:

P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)

= P (Xj+1 = kj+1|Xj = kj),

y en una cadena de orden dos

P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1, ..., X0 = k0)

= P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1),

Departament d’Estadıstica U.B. 17

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Ejemplo: Modelos de cadenas de Markov para el ADN

Los valores que toma un proceso discreto no son necesariamente

numericos, ni el ındice indica necesariamente el tiempo.

En una secuencia de ADN tendremos S = {A,C,G, T} y n la

posicion del nucleotido n en la secuencia, es decir Xi indica el

nucleotido que aparece en la posicion iesima.

Teniendo en cuenta el codigo genetico no parece realista que un

nucleotido sea independiente de sus predecesores.

Una cadena de Markov sobre S puede ser una mejor

aproximacion. Si deseamos tener en cuenta dependencias mas

complejas nos basaremos en cadenas de orden superior a 1.

Departament d’Estadıstica U.B. 18

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Matriz de probabilidades de transicion

Dada una cadena de Markov X0, X1, ... sobre un estado de

espacios S, por ejemplo S = {A,C,G, T} podemos agrupar en

una matriz cuadrada todas las probabilidades de transicion de

un estado a otro.

Si aij = P (Xn+1 = j|Xn = i) la matriz de probabilidades de

transicion es:

P =

p11 p12 p13 p14

p21 p22 p23 p24

p31 p32 p33 p34

p41 p42 p43 p44

,

4∑

j=1

pij = 1, i = 1, ..., 4.

Departament d’Estadıstica U.B. 19

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Probabilidades de transicion de n pasos

Si indicamos por

Pnij = P (Xn+m = j|Xm = i) ,

el teorema de Chapman-Kolmogorov establece que:

Pnij =

∞∑

k=0

PnikPm

kj .

Asi : P (n+m) = P (n)P (m),

y por induccion: P(n)ij = Pn.

Departament d’Estadıstica U.B. 20

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Distribucion inicial de una CM

El estado inicial de una cadena de Markov, X0 suele ser

tambien aleatorio y en general se considera que su valor viene

determinado por una distribucion de probabilidad inicial.

Sea πj = π(j) = P (X0 = Sj), j ∈ S = {S1, ..., SN}

La distribucion de probabilidad inicial suele representarse como

el vector fila:

π = (π(1), ..., π(N)) = (P (X0 = S1), ..., P (X0 = SN )) .

Departament d’Estadıstica U.B. 21

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Estado inicial y final en las CM

El estado inicial del sistema suele describirse mediante un

vector de probabilidades iniciales

π = (πi); πi = P (Si), i = 1, ...N

En vez de las probabilidades iniciales podemos definir unos

estados inicial y final que no se corresponden con estados

“reales” sino que son estados silenciosos

• El sistema siempre empieza en el estado inicial,

B = Inicio = 0

πi = P (X1 = Si) = pInicio,i = a0,i

• El sistema siempre acaba en el estado final E = Fin. Este

estado es menos relevante puesto que en general suele

definirse pt,Fin = τ, ∀t ∈ S.

Departament d’Estadıstica U.B. 22

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%Figura 3: Una cadena de Markov con estado inicial y final

Departament d’Estadıstica U.B. 23

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Probabilidad de una secuencia de observaciones

Como consecuencia de la propiedad de Markov, la probabilidad

de que una cadena M recorra un “camino” dado, es decir pase

por una determinada sucesion de estados, k1k2...kL es:

P (X1 = k1, X2 = k2, ..., XL = kL|M)

= P (k1, k2, ..., kL)

= P (X1 = k1) · P (X2 = k2|X1 = k1) · . . .

·P (XL = kL|XL−1 = kL−1)

= P1(k1)pk1k2pk2k3

· · · · · pkL−1kL= (indicando ki = i)

= P1(k1)p12p23 · · · · · pL−1L.

Departament d’Estadıstica U.B. 24

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Verosimilitud de un modelo de cadena de Markov

De manera recıproca a la formula anterior, la verosimilitud de

un modelo de cadena de markov, M, dada una secuencia de

observaciones k1, ..., kL sera:

L (M |k1, k2, ..., kL) = π(k1)p12p23 · · · · · pL−1L

= π(k1)L−1∏

i

pi−1,i

Como en el caso de los modelos de independencia la

verosimilitud puede utilizarse para puntuar (score una

secuencia (ver ejemplo de las islas CpG, mas adelante).

Departament d’Estadıstica U.B. 25

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Otras caracterısticas de las cadenas de Markov

Entre los conceptos interesantes a destacar en el estudio de las

cadenas de Markov cabe destacar

Ecuaciones de Chapmann-Kolmogorov

Probabilidades de transicion de n pasos

Distribucion estacionaria y distribucion lımite de una cadena

de Markov

Clasificacion de los estados de las cadenas de Markov y

Caracterizacion de las CM por sus estados.

Cadenas ergodicas, cadenas reversibles

Cadenas de Markov en tiempo continuo ...

Departament d’Estadıstica U.B. 26

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Mas informacion en...

De un curso de bioinformatica en U. Zurich...

http://mathweb.unizh.ch/~dasven/bio02markov.pdf

Un muy buen curso de procesos estocasticos

http://www.stat.sfu.ca/~lockhart/richard/380/00_3/

lectures/08/web.html

Un paseo por la Wikipedia, enciclopedia gratis en internet

http://en.wikipedia.org/wiki/Markov_chain

El juego de la escalera, como motivacion. Ejemplos en R!

http://wiener.math.csi.cuny.edu/st/Projects/

ChutesAndLadders/ChutesAndLadders.pdf

Departament d’Estadıstica U.B. 27

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

4. Estimacion en las cadenas de Markov

Sea x una secuencia de observaciones de una cadena finita de

Markov, con K estados, y con matriz de probabilidades de

transicion P = pij , i, j = 1..K,

x = x0x1...xL

La verosimilitud del modelo es:

L(M|x) =n∏

i=1

pji−1j =K∏

i=1

K∏

j=1

pnij

ij .

Departament d’Estadıstica U.B. 28

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Calculos directos llevan al siguiente estimador maximo

verosımil de pij :

pij =nij

n,

siendo nij el numero de transiciones entre los estados i, j y n el

total de transiciones.

Departament d’Estadıstica U.B. 29

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

5. Aplicacion: Las islas CpG

El par de nucleotidos CG es relativamente raro en las

secuencias de DNA excepto en ciertos fragmentos,

biologicamente significantes, de varios centenares de

nucleotidos de longitud, en que son muy abundantes.

Dichos fragmentos se denominan islas CpG, y en contraste el

resto del genoma es el oceano.

Podemos observar la secuencia de dinucleotidos pero no

sabemos a que tipo de region pertence cada fragmento

O = AACATA︸ ︷︷ ︸No CpG?

CGTCCG︸ ︷︷ ︸Isla CpG?

ATACATA︸ ︷︷ ︸No CpG?

Una cuestion relevante: Dada un fragmento de una secuencia

genomica, ¿como podemos decidir si proviene o no de una isla

CpG?

Departament d’Estadıstica U.B. 30

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

5.1. Modelizacion de las islas CpG

Las islas CpG (los oceanos) presentan una peculiaridad

1. Hay mas Cs y Gs en las islas (mas As y Ts en los oceanos)

2. La probabilidad de hallar una G despues de un nucleotido

sera mayor en una isla (menor en un oceano) si en la

posicion actual hay una C que si no la hay

Un modelo de Markov de orden 1 puede capturar estas

relaciones de dependencia.

Las probabilidades de cada transicion van a depender de si

estamos en una isla CpG o no −→ Construimos un modelo de

markov para cada caso

Departament d’Estadıstica U.B. 31

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Figura 4: Modelo de Markov para las islas CpG

Departament d’Estadıstica U.B. 32

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

5.2. Estimacion de las probabilidades

De bancos de datos genomicos podemos extraer secuencias

pertenecientes a islas CpG (grupo “+”) y pertenecientes al

oceanos (grupo “-”).

Las probabilidades de transicion se estimaran mediante

maxima verosimilitud: Si C∗st representa el numero de veces que

el nucleotido t sigue al s en una secuencia, siendo ∗ ∈ {+,−} y

s, t ∈ {A,C,G, T} las probabilidades de transicion estimadas

son:

a+st =

C+st∑

k C+sk

, a−st =

C−st∑

k C−sk

.

Departament d’Estadıstica U.B. 33

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Figura 5: Estimacion de las probabilidades en cada modelo. Al

basarse en una secuencia corta aparece un cero en la transicion

C → G. Un enfoque bayesiano con pseudocontajes remediarıa este

problema!

Departament d’Estadıstica U.B. 34

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

5.3. Discriminacion entre secuencias

Supongamos que queremos puntuar una secuencia para decidir

si corresponde a una isla CpG o a un oceano

Disponemos de 2 modelos

• El modelo “+” de las islas CpG

• El modelo “-” de los oceanos.

La idea subyacente tras el sistema de puntuaciones es:

• Si la secuencia pertenece a una isla CpG tendra una

probabilidad mas alta sobre el modelo “+” que sobre el “-”

• Si la secuencia no es de una isla CpG la probabilidad que le

asignara el modelo “-” sera mayor

Departament d’Estadıstica U.B. 35

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

5.4. Puntuacion de una secuencia

En vez de multiplicar probabilidades, sumaremos los logaritmos

de las razones de probabilidades segun cada modelo y

calcularemos un log-odds ratio

S(O) = log

(P (O|+)

P (O|−)

)

= log

(∏L

i=1 a+oi−1oi∏L

i=1 a−oi−1oi

)

=L∑

i=1

log

(a+

oi−1oi

a−oi−1oi

)=

L∑

i=1

βoi−1oi

La decision de si la secuencia es o no una isla CpG

dependera de que los valores sean mas o menos altos

Departament d’Estadıstica U.B. 36

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Figura 6: Matriz de puntuaciones basada en los modelos del ejemplo

anterior. Al basarse en secuencias cortas la transicion C → G se

puntuara como un 1. Deberıan tomarse mas valores para mejorar la

estimacion o bien adoptar un enfoque bayesiano con pseudocontajes!

Departament d’Estadıstica U.B. 37

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

6. Un ejemplo numerico

De un conjunto de secuencias de ADN humano se extrajeron 48

islas CpG potenciales.

Se derivaron 2 modelos de Markov, uno para las islas CpG y

otro para los oceanos

A partir de ellas se construyo la tabla de razones de

verosimilitud βoi−1oi

Esta tabla se utilizo para puntuar todas las secuencias.

La figura siguiente muestra como las islas CpG obtienen

efectivamente una mayor puntuacion.

Departament d’Estadıstica U.B. 38

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%Figura 7: Histograma de las puntuaciones normalizadas para la lon-

gitud. La trama oscura corresponde a islas CpG y la clara a oceanos

Departament d’Estadıstica U.B. 39

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

7. Bibliografıa y enlaces

Durbin Richard et al. (1998) Biological sequence analysis.

Cambridge University Press

Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.

Kluwer

Rabiner, L.R. (1989) A tutorial on hidden markov models and

selected applications in speech recognition.Proceedings of the

IEEE 77:257-286

Un enlace a materiales y enlaces sobre MMO

http://www.bio.ub.es/estad/personal/alexsanchez/

personal/materials/HMM_Links.htm

Departament d’Estadıstica U.B. 40