Upload
andren
View
66
Download
5
Tags:
Embed Size (px)
DESCRIPTION
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS. Gene expression data analysis. VI LEZIONE. Introduzione all'analisi di dati d'espressione genica. Metodi per lo studio dell’espressione genica su larga scala. Profili e matrici d'espressione. - PowerPoint PPT Presentation
Citation preview
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
Gene expression data analysis
VI LEZIONE
• Introduzione all'analisi di dati d'espressione genica.
• Metodi per lo studio dell’espressione genica su larga scala.
• Profili e matrici d'espressione.• Ricerca di geni co-espressi e di geni differenzialmente espressi.
Metodi per lo studio dell’espressione genica su larga scala:
1. Basati su ibridazione: Microarray/Chip
2. Basati su conteggio di sequenze: EST sequencing, SAGE, e deep sequencing di librerie di cDNA
MICROARRAYSAGEEST
Computational analysis of data by statistical methods
Deep seq. CHIP
ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso corredo genomico
• L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali
• In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme dei geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine
• Negli Eucarioti superiori la regolazione dell’espressione genica si svolge principalmente come controllo della trascrizione
• Principali tipi di regolazione:Controllo epigeneticoControllo trascrizionaleControllo post-trascrizionale
“One-gene approach”Il gene di interesse e’ espresso in un tessuto o in un dato momento dello sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma(TRASCRITTOMA)
Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?
“Large-scale approach”
Real Time PCRPCR semiquantitativaIbridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)Ibridazione in situ
METODI PER LO STUDIO SU LARGA SCALA DELL’ESPRESSIONE GENICA BASATI SUL SEQUENZIAMENTO
Sequenziamento sistematico di ESTs da librerie di cDNA Sequenziamento sistematico con metodi di terza generazione di librerie di cDNA SAGE (Serial Analysis of Gene Expression)
mRNA of different genes
cDNA LIBRARY
SEQUENCING ESTDeep seq.
ESTIMATE OF THE LEVEL OF EXPRESSION OF A GIVEN GENE
Sample of 12919 ESTs corresponding to 4460 genes/trascripts
eg. Rhodopsin:
65 retina ESTs 65 / 12919 = 0.503%
UniGene Human Release Statistics
Total sequences in clusters: 3115711
Total number of clusters sets: 95928
22094 sets contain at least one known gene
94710 sets contain at least one EST
20876 sets contain both genes and ESTs
EST
SAGE Serial Analysis of Gene Expression
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del sequenziamento su larga scala per avere informazioni quantitative di espressione genica (Velculescu et al. 1995, Zhang et al, 1997)
Con questa tecnica e’ possibile stimare il livello d’espressione di ciascun gene, attraverso la misura del numero di volte in cui la TAG che lo rappresenta compare in un campione abbastanza grande di TAGs sequenziate a partire dal messaggero del tessuto in analisi
Tag to Gene mapping Gene to Tag mapping
Consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da etichette di sequenza (TAG)
SAGE
Iso lam ento de lle “ tag”
L igaz ione
Sequenziam ento
Q u an tificazione d i c iascuna“tag” e determ inazione del pattern d i esp ressione
Liv
ello
di
esp
ress
ione
Liv
ello
di
esp
ress
ione
G E N E
A lte r a toG E N E
N orm ale
Iso lam ento de lle “ tag”
L igaz ione
Sequenziam ento
Q u an tificazione d i c iascuna“tag” e determ inazione del pattern d i esp ressione
Liv
ello
di
esp
ress
ione
Liv
ello
di
esp
ress
ione
G E N E
A lte r a toG E N E
N orm aleG E N EN o rm a le
G E N EA lter ato
una sequenza di 9 paia di basi permette di identificare 49 (262144) diversi trascritti (una "tag" viene ottenuta da una posizione specifica di ogni trascritto).
le "tag" possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate.
il numero di volte in cui una singola "tag" viene osservata permette di quantificare l'abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente, il livello di espressione del gene corrispondente.
SAGE
Esperimenti di Microarray
Permettono l’analisi dell’espressione di migliaia di geni simultaneamente
MICROARRAYDUE CANALI
MICROARRAYDUE CANALI
GeneChipAffymetrixSINGOLOCANALE
Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser
Analisi immagineAnalisi immagine
NormalizzazioneNormalizzazione
ClusteringClustering
Espressione differenziale
Espressione differenziale
Interpretazione biologica
Interpretazione biologica
Analisi dell’immagine
• Identificazione della posizione degli spot
•Costruzione di un’area locale intorno ad ogni spot
•Calcolo dell’intensità di ogni singolo spot
•Calcolo del background locale
MICROARRAYGeneChipAffymetrixSINGOLOCANALE
Elaborazione dei datiMICROARRAYGeneChipAffymetrixSINGOLOCANALE
MICROARRAYSAGEESTDeep seq. CHIP
Matrice dei risultati: righe = geni, colonne = condizioni sperimentali
Cond. 1 Cond. 2 … Cond. m
Gene 1 x11 x12 … x1m
Gene 2 x21 x22 … x2m
… … … … …
Gene n xn1 xn2 … xnm
• Quali geni sono differenzialmente espressi ? • Quali e quanti geni sono co-espressi?
Obiettivi dell’analisi saranno…
Identificazione geni differenzialmente espressi
Identificazione pattern di espressione comuni
Identificazione di geni co-espressi con geni di funzione nota
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 5
Cam
pion
e 6
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 5
Cam
pion
e 6
Cam
pion
e 7
Cam
pion
e 8
Gene 1 10 12 15 50 34 10 12 13 22 10 10 10 10 10
Gene 2 100 150 100 90 70 110 400 345 300 400 300 300 300 409
Gene 3 1000 1110 1200 950 850 900 1100 1110 1200 800 1050 790 1000 1000
Gene 4 345 300 400 300 300 300 5 1 1 2 2 3 1 3
Gene 5 1 1 2 2 3 1 50 56 62 68 74 47 86 50
Gene 6 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000
Gene n 1 1 2 2 3 1 5 1 3 2 1 2 1 1
COLON NORMALE COLON CARCINOMA
0
200
400
600
800
1000
1200
1400
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 5
Cam
pion
e 6
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 5
Cam
pion
e 6
Cam
pion
e 7
Cam
pion
e 8
COLON NORMALE COLON CARCINOMA
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
Gene 6
Gene n
Schema sperimentale “semplice”:Dati d’espressione in colon normale e carcinomaDomanda biologica:Quali geni sono differenzialmente espressi nel confronto ?
GENI DIFFERENZIALMENTE ESPRESSI
Fold Change: un primo criterio puo’ essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2Molti falsi positiviI geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative
Fold Change: un primo criterio puo’ essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2Molti falsi positiviI geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative
Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione
Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione
Uso di metodi basati su permutazioni (SAM) e FDRUso di metodi basati su permutazioni (SAM) e FDR
Schema sperimentale piu’ complesso: Dati d’espressione in piu’ condizioniDomanda biologica:Posso identificare gruppi di geni espressi in modo simile ?
Ca
mp
ion
e 1
Ca
mp
ion
e 2
Ca
mp
ion
e 3
Ca
mp
ion
e 1
Ca
mp
ion
e 2
Ca
mp
ion
e 3
Ca
mp
ion
e 4
Ca
mp
ion
e 1
Ca
mp
ion
e 2
Ca
mp
ion
e 3
Ca
mp
ion
e 4
Ca
mp
ion
e 1
Ca
mp
ion
e 2
Ca
mp
ion
e 3
Gene 1 10 12 15 50 34 10 12 13 22 10 10 10 10 10
Gene 2 100 150 100 90 70 110 430 345 300 400 300 300 300 409
Gene 3 1000 1110 1200 950 850 900 1100 1110 1200 800 1050 790 1000 1000
Gene 4 345 300 400 300 300 300 5 1 1 2 2 3 1 3
Gene 5 3 4 2 5 6 7 30 56 62 68 74 47 86 50
Gene 6 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000
Gene 7 1 1 2 2 3 1 5 1 3 2 1 2 1 1
Gene 8 13 14 12 15 16 17 40 66 72 78 84 57 96 60
Gene 9 120 170 150 110 90 130 500 365 320 560 320 320 320 429
Gene 10 150 200 180 130 110 150 470 385 340 440 340 200 340 449
Gene 11 1100 1110 1300 950 850 900 1100 1110 1000 800 1050 790 1000 1000
Gene n 50 60 55 29 45 60 200 250 333 2 1 2 1 1
BAMBINO GIOVANE ADULTO ANZIANOMUSCOLO
0
200
400
600
800
1000
1200
1400
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
Cam
pion
e 4
Cam
pion
e 1
Cam
pion
e 2
Cam
pion
e 3
BAMBINO GIOVANE ADULTO ANZIANO
MUSCOLO
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
Gene 6
Gene 7
Gene 8
Gene 9
Gene 10
Gene 11
Gene n
CLUSTER ANALISI• Il CLUSTERING o analisi cluster o analisi di
raggruppamento è un insieme di tecniche di analisi multivariata dei dati volte al raggruppamento di elementi omogenei.
• Un insieme di oggetti grande e disomogeo viene classificato in una serie limitata di gruppi omogeneei, ovvero “vicini” in accordo con una specifica misura di distanza.
DUE STEPS:
Misura di similarita’• Diverse misure• Standardizzazione dei dati
Linking method• criterio per stabilire i gruppi• Metodi gerarchici e non gerarchici
CLUSTER ANALISI
• Si parte dalla matrice dei dati X di dimensione nxp e la sitrasforma in una matrice nxn di dissimilarità o di distanzetra le n coppie di osservazioni (vettori di p elementi).• Si sceglie poi un algoritmo che definisca le regole su comeraggruppare le unità in sottogruppi sulla base delle lorosimilarità.• Lo scopo e’ di identificare un cero numero di gruppi taliche gli elementi appartenenti ad un gruppo siano – inqualche senso – piu’ simili tra loro che non agli elementiappartenenti ad altri gruppi.
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
CLUSTER ANALISI
Distanza euclidea
Correlazione di Pearson
CLUSTER ANALISI
1- Data Matrix
PROBESET/GENE CD34Eritroblasti
Mieloblasti MKC
Monoblasti Monociti Neutrofili Eosinofili
GC00U921857_at -1.0 1.2 1.1 -1.1 -0.2 -1.0 1.1 -0.2
GC00U922066_at -0.5 -1.0 -0.9 -0.2 -0.9 1.1 1.2 1.1
GC00U990452_at -1.1 1.2 1.1 -0.2 1.0 -1.0 0.0 -1.1
GC00U990575_at 0.1 -1.0 -0.5 1.0 -1.0 1.2 1.2 -1.0
GC00U990668_at 1.1 1.1 1.0 0.3 -0.3 -1.0 -1.2 -1.0
GC00U990680_at -0.8 -0.9 0.2 1.1 1.1 1.2 -0.9 -0.9
GC00U990706_at -0.1 -1.2 -1.0 0.4 -1.1 1.2 0.9 1.0
GC01M033561_at 0.1 -1.0 -1.0 1.0 -1.2 1.2 1.2 -0.3
GC01M035219_at 1.1 1.1 0.5 -1.0 -0.5 -1.0 -1.1 1.0
GC01M035470_at -1.0 -0.9 -1.2 1.1 -0.3 0.1 1.0 1.2
GC01M035671_at 1.2 -1.0 0.2 -1.2 0.0 -1.1 1.0 0.9
GC01M035737_at 1.2 1.2 1.2 -0.8 -0.4 -0.4 -0.8 -1.1
GC01M035952_at 1.3 -0.2 1.1 -0.9 1.0 -0.1 -0.9 -1.2
GC01M035958_at -0.1 -1.2 -1.0 -0.8 -0.4 1.1 1.1 1.2
GC01M036333_at -0.9 1.2 1.0 0.0 1.2 -0.9 -1.2 -0.4
2- Data representation
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
CD
34
Eri
tro
bla
sti
Mie
lob
last
i
MK
C
Mo
no
bla
sti
Mo
no
citi
Neu
tro
fili
Eo
sin
ofi
li
3-Distance and linking method selection
Pearson QT clustering
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
CD
34
Eri
tro
bla
sti
Mie
lob
last
i
MK
C
Mo
no
bla
sti
Mo
no
citi
Neu
tro
fili
Eo
sin
ofi
li
Insieme disomogeneo
di 40 geni 6 cluster, gruppi
omogenei
4 - Result