AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS

AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS

Gene expression data analysis

VI LEZIONE

• Introduzione all'analisi di dati d'espressione genica.

• Metodi per lo studio dell’espressione genica su larga scala.

• Profili e matrici d'espressione.• Ricerca di geni co-espressi e di geni differenzialmente espressi.

Metodi per lo studio dell’espressione genica su larga scala:

1. Basati su ibridazione: Microarray/Chip

2. Basati su conteggio di sequenze: EST sequencing, SAGE, e deep sequencing di librerie di cDNA

MICROARRAYSAGEEST

Computational analysis of data by statistical methods

Deep seq. CHIP

ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE

• Tutte le cellule di un organismo hanno lo stesso corredo genomico

• L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali

• In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme dei geni

REGOLAZIONE DELL’ESPRESSIONE GENICA

• Puo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine

• Negli Eucarioti superiori la regolazione dell’espressione genica si svolge principalmente come controllo della trascrizione

• Principali tipi di regolazione:Controllo epigeneticoControllo trascrizionaleControllo post-trascrizionale

“One-gene approach”Il gene di interesse e’ espresso in un tessuto o in un dato momento dello sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?

Profilo d’espressione del genoma(TRASCRITTOMA)

Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?

“Large-scale approach”

Real Time PCRPCR semiquantitativaIbridazione DNA genico o cDNA con RNA

totale o poly(A)+RNA (Northern blot)Ibridazione in situ

METODI PER LO STUDIO SU LARGA SCALA DELL’ESPRESSIONE GENICA BASATI SUL SEQUENZIAMENTO

Sequenziamento sistematico di ESTs da librerie di cDNA Sequenziamento sistematico con metodi di terza generazione di librerie di cDNA SAGE (Serial Analysis of Gene Expression)

mRNA of different genes

cDNA LIBRARY

SEQUENCING ESTDeep seq.

ESTIMATE OF THE LEVEL OF EXPRESSION OF A GIVEN GENE

Sample of 12919 ESTs corresponding to 4460 genes/trascripts

eg. Rhodopsin:

65 retina ESTs 65 / 12919 = 0.503%

UniGene Human Release Statistics

Total sequences in clusters: 3115711

Total number of clusters sets: 95928

22094 sets contain at least one known gene

94710 sets contain at least one EST

20876 sets contain both genes and ESTs

EST

SAGE Serial Analysis of Gene Expression

SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del sequenziamento su larga scala per avere informazioni quantitative di espressione genica (Velculescu et al. 1995, Zhang et al, 1997)

Con questa tecnica e’ possibile stimare il livello d’espressione di ciascun gene, attraverso la misura del numero di volte in cui la TAG che lo rappresenta compare in un campione abbastanza grande di TAGs sequenziate a partire dal messaggero del tessuto in analisi

Tag to Gene mapping Gene to Tag mapping

Consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da etichette di sequenza (TAG)

SAGE

Iso lam ento de lle “ tag”

L igaz ione

Sequenziam ento

Q u an tificazione d i c iascuna“tag” e determ inazione del pattern d i esp ressione

Liv

ello

di

esp

ress

ione

Liv

ello

di

esp

ress

ione

G E N E

A lte r a toG E N E

N orm ale

Iso lam ento de lle “ tag”

L igaz ione

Sequenziam ento

Q u an tificazione d i c iascuna“tag” e determ inazione del pattern d i esp ressione

Liv

ello

di

esp

ress

ione

Liv

ello

di

esp

ress

ione

G E N E

A lte r a toG E N E

N orm aleG E N EN o rm a le

G E N EA lter ato

una sequenza di 9 paia di basi permette di identificare 49 (262144) diversi trascritti (una "tag" viene ottenuta da una posizione specifica di ogni trascritto).

le "tag" possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate.

il numero di volte in cui una singola "tag" viene osservata permette di quantificare l'abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente, il livello di espressione del gene corrispondente.

SAGE

Esperimenti di Microarray

Permettono l’analisi dell’espressione di migliaia di geni simultaneamente

MICROARRAYDUE CANALI

MICROARRAYDUE CANALI

GeneChipAffymetrixSINGOLOCANALE

Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser

Analisi immagineAnalisi immagine

NormalizzazioneNormalizzazione

ClusteringClustering

Espressione differenziale

Espressione differenziale

Interpretazione biologica

Interpretazione biologica

Analisi dell’immagine

• Identificazione della posizione degli spot

•Costruzione di un’area locale intorno ad ogni spot

•Calcolo dell’intensità di ogni singolo spot

•Calcolo del background locale

MICROARRAYGeneChipAffymetrixSINGOLOCANALE

Elaborazione dei datiMICROARRAYGeneChipAffymetrixSINGOLOCANALE

MICROARRAYSAGEESTDeep seq. CHIP

Matrice dei risultati: righe = geni, colonne = condizioni sperimentali

Cond. 1 Cond. 2 … Cond. m

Gene 1 x11 x12 … x1m

Gene 2 x21 x22 … x2m

… … … … …

Gene n xn1 xn2 … xnm

• Quali geni sono differenzialmente espressi ? • Quali e quanti geni sono co-espressi?

Obiettivi dell’analisi saranno…

Identificazione geni differenzialmente espressi

Identificazione pattern di espressione comuni

Identificazione di geni co-espressi con geni di funzione nota

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 5

Cam

pion

e 6

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 5

Cam

pion

e 6

Cam

pion

e 7

Cam

pion

e 8

Gene 1 10 12 15 50 34 10 12 13 22 10 10 10 10 10

Gene 2 100 150 100 90 70 110 400 345 300 400 300 300 300 409

Gene 3 1000 1110 1200 950 850 900 1100 1110 1200 800 1050 790 1000 1000

Gene 4 345 300 400 300 300 300 5 1 1 2 2 3 1 3

Gene 5 1 1 2 2 3 1 50 56 62 68 74 47 86 50

Gene 6 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000

Gene n 1 1 2 2 3 1 5 1 3 2 1 2 1 1

COLON NORMALE COLON CARCINOMA

0

200

400

600

800

1000

1200

1400

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 5

Cam

pion

e 6

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 5

Cam

pion

e 6

Cam

pion

e 7

Cam

pion

e 8

COLON NORMALE COLON CARCINOMA

Gene 1

Gene 2

Gene 3

Gene 4

Gene 5

Gene 6

Gene n

Schema sperimentale “semplice”:Dati d’espressione in colon normale e carcinomaDomanda biologica:Quali geni sono differenzialmente espressi nel confronto ?

GENI DIFFERENZIALMENTE ESPRESSI

Fold Change: un primo criterio puo’ essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2Molti falsi positiviI geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative

Fold Change: un primo criterio puo’ essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2Molti falsi positiviI geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative

Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione

Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione

Uso di metodi basati su permutazioni (SAM) e FDRUso di metodi basati su permutazioni (SAM) e FDR

Schema sperimentale piu’ complesso: Dati d’espressione in piu’ condizioniDomanda biologica:Posso identificare gruppi di geni espressi in modo simile ?

Ca

mp

ion

e 1

Ca

mp

ion

e 2

Ca

mp

ion

e 3

Ca

mp

ion

e 1

Ca

mp

ion

e 2

Ca

mp

ion

e 3

Ca

mp

ion

e 4

Ca

mp

ion

e 1

Ca

mp

ion

e 2

Ca

mp

ion

e 3

Ca

mp

ion

e 4

Ca

mp

ion

e 1

Ca

mp

ion

e 2

Ca

mp

ion

e 3

Gene 1 10 12 15 50 34 10 12 13 22 10 10 10 10 10

Gene 2 100 150 100 90 70 110 430 345 300 400 300 300 300 409

Gene 3 1000 1110 1200 950 850 900 1100 1110 1200 800 1050 790 1000 1000

Gene 4 345 300 400 300 300 300 5 1 1 2 2 3 1 3

Gene 5 3 4 2 5 6 7 30 56 62 68 74 47 86 50

Gene 6 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000

Gene 7 1 1 2 2 3 1 5 1 3 2 1 2 1 1

Gene 8 13 14 12 15 16 17 40 66 72 78 84 57 96 60

Gene 9 120 170 150 110 90 130 500 365 320 560 320 320 320 429

Gene 10 150 200 180 130 110 150 470 385 340 440 340 200 340 449

Gene 11 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000

Gene n 50 60 55 29 45 60 200 250 333 2 1 2 1 1

BAMBINO GIOVANE ADULTO ANZIANOMUSCOLO

0

200

400

600

800

1000

1200

1400

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

Cam

pion

e 4

Cam

pion

e 1

Cam

pion

e 2

Cam

pion

e 3

BAMBINO GIOVANE ADULTO ANZIANO

MUSCOLO

Gene 1

Gene 2

Gene 3

Gene 4

Gene 5

Gene 6

Gene 7

Gene 8

Gene 9

Gene 10

Gene 11

Gene n

CLUSTER ANALISI• Il CLUSTERING o analisi cluster o analisi di

raggruppamento è un insieme di tecniche di analisi multivariata dei dati volte al raggruppamento di elementi omogenei.

• Un insieme di oggetti grande e disomogeo viene classificato in una serie limitata di gruppi omogeneei, ovvero “vicini” in accordo con una specifica misura di distanza.

DUE STEPS:

Misura di similarita’• Diverse misure• Standardizzazione dei dati

Linking method• criterio per stabilire i gruppi• Metodi gerarchici e non gerarchici

CLUSTER ANALISI

• Si parte dalla matrice dei dati X di dimensione nxp e la sitrasforma in una matrice nxn di dissimilarità o di distanzetra le n coppie di osservazioni (vettori di p elementi).• Si sceglie poi un algoritmo che definisca le regole su comeraggruppare le unità in sottogruppi sulla base delle lorosimilarità.• Lo scopo e’ di identificare un cero numero di gruppi taliche gli elementi appartenenti ad un gruppo siano – inqualche senso – piu’ simili tra loro che non agli elementiappartenenti ad altri gruppi.

I geni sono punti nello spazio:

punti vicini nello spazio sono raggruppati insieme

CLUSTER ANALISI

Distanza euclidea

Correlazione di Pearson

CLUSTER ANALISI

1- Data Matrix

PROBESET/GENE CD34Eritroblasti

Mieloblasti MKC

Monoblasti Monociti Neutrofili Eosinofili

GC00U921857_at -1.0 1.2 1.1 -1.1 -0.2 -1.0 1.1 -0.2

GC00U922066_at -0.5 -1.0 -0.9 -0.2 -0.9 1.1 1.2 1.1

GC00U990452_at -1.1 1.2 1.1 -0.2 1.0 -1.0 0.0 -1.1

GC00U990575_at 0.1 -1.0 -0.5 1.0 -1.0 1.2 1.2 -1.0

GC00U990668_at 1.1 1.1 1.0 0.3 -0.3 -1.0 -1.2 -1.0

GC00U990680_at -0.8 -0.9 0.2 1.1 1.1 1.2 -0.9 -0.9

GC00U990706_at -0.1 -1.2 -1.0 0.4 -1.1 1.2 0.9 1.0

GC01M033561_at 0.1 -1.0 -1.0 1.0 -1.2 1.2 1.2 -0.3

GC01M035219_at 1.1 1.1 0.5 -1.0 -0.5 -1.0 -1.1 1.0

GC01M035470_at -1.0 -0.9 -1.2 1.1 -0.3 0.1 1.0 1.2

GC01M035671_at 1.2 -1.0 0.2 -1.2 0.0 -1.1 1.0 0.9

GC01M035737_at 1.2 1.2 1.2 -0.8 -0.4 -0.4 -0.8 -1.1

GC01M035952_at 1.3 -0.2 1.1 -0.9 1.0 -0.1 -0.9 -1.2

GC01M035958_at -0.1 -1.2 -1.0 -0.8 -0.4 1.1 1.1 1.2

GC01M036333_at -0.9 1.2 1.0 0.0 1.2 -0.9 -1.2 -0.4

2- Data representation

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

CD

34

Eri

tro

bla

sti

Mie

lob

last

i

MK

C

Mo

no

bla

sti

Mo

no

citi

Neu

tro

fili

Eo

sin

ofi

li

3-Distance and linking method selection

Pearson QT clustering

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

CD

34

Eri

tro

bla

sti

Mie

lob

last

i

MK

C

Mo

no

bla

sti

Mo

no

citi

Neu

tro

fili

Eo

sin

ofi

li

Insieme disomogeneo

di 40 geni 6 cluster, gruppi

omogenei

4 - Result

Documents

AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS