72
Statistical analysis of gene expression data Alex Sánchez Unitat d'Estadística i Bioinformàtica (VHIR) Statistics Department (UB)

Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

  • Upload
    ueb

  • View
    819

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Statistical analysis of gene expression data

Alex SánchezUnitat d'Estadística i Bioinformàtica (VHIR)

Statistics Department (UB)

Page 2: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Outline

• Basic principles of experimental design• The microarray data analysis process

Page 3: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Basic principles of Experimental Design

Page 4: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Research

• Researcher’s first goal: understand a process, (to understand, control, modify, reproduce … it)

• To reach this goal researchers perform studies.• Experiments are a central part of many studies.

Page 5: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

What characterizes an experiment?

1. The treatments to be used

2. The experimental units to be used

3. The way that treatments levels are assigned to experimental units (or visa-versa): The Experimental Design

4. The responses that are measured

Page 6: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

How can we obtain a good experimental design?

• Try to apply some good, general, relatively overlapping rules1. Rely on an Experimental Design checklist2. Follow a good Experimental Design Process3. Rely on basic principles of Experimental Design

Randomization, replication, local control

• But also• Plan design and analysis at the same time• Involve your favourite statistician from the beginning

(or before)

Page 7: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

What characterizes a good experimental design?

• It avoids systematic error – systematic error leads to bias when estimating differences in responses between (i.e., comparing) treatments

• It allows for precise estimation – achieves a relatively small random error,

• It has broad validity • the experimental units are a sample of the

population study• The conclusions obtained on the sample can be

extrapolated to the population.

Page 8: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

To obtain a good experimental design (1) Plan the experiments (Checklist)

1. Define the objectives of the experiment2. Identify all potential sources of variation3. Select an appropriate Experimental Design. 4. Specify the experimental process5. Conduct a pilot study6. Specify the hypothesized model7. Outline the analyses to be conducted 8. Estimate the required sample size using results

from the pilot study9. Review your decisions in Steps 1 – 8 and make

necessary revisions

Page 9: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

To obtain a good experimental design (2): Follow the experimental design process

Page 10: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

To obtain a good experimental design (3)Follow Experimental Design Principles

Page 11: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

The basic principles of Experimental Design

• Good experimental designs share common traits.

• Apart of wishful thinking there is general agreement that relying on experimental design principles yields good (if not best) experimental designs.

• These are• Randomization• Replication• Blocking or Local control

Page 12: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

1. Randomization

• Randomly assigning samples to groups to eliminate unspecific disturbances– Randomly assign individuals to treatments.– Randomize order in which experiments are performed.

• Randomization required to – Ensure validity of statistical procedures.– Ensure that no preferential allocation of treatment to

experimental units is made• E.g: Assign strongest treatment to patients in worse health state

– Ensure that the efects of confounding variables are minimized

• Eg: Assign tretament to patients older than controls

Page 13: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Randomization software

• Saying “randomly assign…” is sometimes easier to say than to do, especially in complex designs.

• Some tools may help– R, of course– Research Randomizer

http://www.randomizer.org/– Interactive Statistical Calculation pages

http://statpages.org/ (look por “Experimental design”)

Page 14: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

2. Replication

• There is general agreement about the need to apply each treatment independently to several experimental units.• Helps to establish reproducibility of results.

• Protects against eventual abnormal/unusual results.

• Provides a way to estimate the error variance in the absence of systematic differences among experimental units. (This is important because treatment differences are judged against this variance estimate.)

• Provides the capacity to increase the precision for estimates of treatment means.

• By itself, does not guarantee valid estimates of experimental error or treatment differences.

Page 15: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Replication precision and power

• The number of replications r is directly related to the precision of the experiment

1/var(mean) = r/ σ2 (*)

• An efficient design has greater power to detect differences between treatment effects.

• From (*) it follows that– the greater r– the smaller σ2

the greater the power attained by a design.

Page 16: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

How many replications?

• Formulae for computing sample size given:– effect size, – significance level (P Error type I)– power (1-P error type II)

can be derived for most common analyses.

• While the derivation is rough, the application – is straightforward, especially if using calculators– attention must be paid to application conditions.

Page 17: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Sample size calculators

• R: package power– http://www.statmethods.net/stats/power.html

• Statistical calculators– http://hedwig.mgh.harvard.edu/sample_size/size.html

– http://www.stat.uiowa.edu/~rlenth/Power/

• Interactive Statistical Calculation pages http://statpages.org(look for “Power and Sample Size”)

Page 18: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Biological vs Technical Replicates

@ Nature reviews & G. Churchill (2002)

2Bσ

2Aσ

2eσ

Page 19: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

3. Blocking

• Assume we wish to perform an experiment to compare two treatments.

• The samples or their processing may not be homogeneous: There are blocks • Subjects: Male/Female• Arrays produced in two lots (February, March)

• If there are systematic differences between blocks the effects of interest (e.g. tretament) may be confounded• Observed differences are attributable to treatment effect or

to confounding factors?• Local control or blocking is the way to minimize the

effect of existing (unavoidable?) blocks.

Page 20: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Local Control

• Group EUs so that the variability of units within the groups is less than that among all units prior to grouping – Differences among treatments are not confused with

differences among experimental units. – EE is reduced by the variability associated with

environmental differences among groups of units.– Effects of nuisance factors which contribute

systematic variation to the differences among EUs can be eliminated.

– Analysis is more sensitive.

Page 21: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Confounding block with treatment effects

Awful design Balanced designSample Treatment Sex Batch Sample Treatment Sex Batch

1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 16 B Female 2 6 B Female 27 B Female 2 7 B Male 28 B Female 2 8 B Female 1

• Two alternative designs to investigate treatment effects– Left: Treatment effects confounded with Sex and Batch effect– Right: Treatments are balanced between blocks

• Influence of blocks is automatically compensated• Statistical analysis may separate block from treatment efefect

Page 22: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Allocating samples to treatments

• A key point in any experiment is the way that experimental units are allocated to treatments– It must be chosen so that random variability is as

small as possible

– It must be chosen so that the best local control is achieved.

– It implicitly defines the analysis model, so it must be chosen so that the analysis can be performed and validity conditions hold.

Page 23: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

In summary

• Good experimental design is essential to perform good experiments.

• Experimental design means planning ahead– Should be done before the experiment starts– Should consider all the steps: from sampling

to data analysis.

Page 24: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.

Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA

Sir Ronald A. Fisher

And Fisher said…

Page 25: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Introduction to microarray data analysis

Page 26: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Esquema de la presentación

Introducción y objetivosAnálisis de datos de microarrays

Tipos de datos y Tipos de estudios. Herramientas. El proceso de análisis. Ejemplos

Críticas, consensos, consejos y “estado del arte” Críticas a los microarrays Consensos y consejos (“dos and don’ts”) MAQC-I, MAQC-II

De los microarrays al diagnóstico ¿Porque está siempre por llegar?

Page 27: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Para aprender más …

http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/

Page 28: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Tipos de estudios

Page 29: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(1): Class comparison

Page 30: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(2): Class discovery

Page 31: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(3): Class prediction

Page 32: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Y muchos más …

Time Course Perfiles de expresión a lo largo del tiempo

Pathway Analysis-(Systems Biology) Reconstrucción de redes metabólicas a

partir de datos de expressión

Whole Genome, CGH, Alternative Splicing

Estudios con datos de distintos tipos Fusión o Integración de datos

Page 33: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Herramientas para el análisis

Page 34: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Programas de análisis de datos

Multitud de herramientas Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] Descargables / En-linea [R, BRB, MeV…] / [Babelomics,…] Aísladas / Parte de “suites” o de sitios [BRB, dChip] / [MeV (TM4), OntoTools]

Review: Tools for managing and analyzing microarray data http://bib.oxfordjournals.org/content/13/1/46.abstra

ct?keytype=ref&ijkey=g74sTv2xGt5kOpU

Page 35: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

El proceso de análisis

Page 36: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Análisis de un experimento con microarrays

(1) Imágenes(Datos crudos)

(2) C. de calidad(bajo nivel)

(3) Preprocesado

(4) Exploración de la Matriz de Expresión

(5) Análisis

(6) Significación Biológica

Page 37: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(0) Diseño experimental

• Variabilidad– Sistemática

• Calibrar/Normalizar

– Aleatoria• Diseño Experimental• Inferencia

• Decidir acerca de– Réplicas, – Lotes (“Batch effect”)– Pools …

Awful design :-( Balanced design :-)Sample Treatment Sex Batch Sample Treatment Sex

1 A Male 1 1 A Male2 A Male 1 2 A Female3 A Male 1 3 A Male4 A Male 1 4 A Female5 B Female 2 5 B Male6 B Female 2 6 B Female7 B Female 2 7 B Male8 B Female 2 8 B Female

Page 38: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(1) Obtención de la imagen

•Entra: Microarrays•Salen:

– Imágenes (1/chip) – Ficheros de imagen

• Información para cada sonda individual

•Datos para el análisis de bajo nivel– Control de calidad– Preprocesado– Sumarización

1.cel, 1.chp 2.cel, 2.chp

Page 39: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(2) Control de calidad de bajo nivel

• Entra: – Imágenes (.CEL, ...)

• Proceso– Diagnósticos y

Control de calidad– Análisis basado en

modelos (PLM)

• Salen:– Gráficos– Estadísticos de

control de calidad

1.cel, 1.chp 2.cel, 2.chp

Page 40: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(3) Preprocesado

• Entra:– Fichero de Imágenes

(datos del escaner)

• Proceso– Eliminación de ruido

– Normalización

– Sumarización

– Filtrado

• Sale:– Matriz de expresión

1.cel, 1.chp 2.cel, 2.chp

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

Page 41: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(4) Exploración

• Entra– Matriz de expresión

• Proceso– PCA, Cluster, MDS– Representaciones en

2D/3D– Agrupaciones

• Sale– Detectado efectos

batch– Verificación calidad

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

Page 42: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(5) Análisis estadístico (i):Selección de genes diferencialmente expresados

•Entra:– Matriz expresión– Modelo de

análisis

•Proceso– t-tests, ANOVA

• Ajustes de p-valores

• Sale– Listas de genes

• Fold change, p.values

– Gráficos– Perfiles de expresión

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4,911 63,544 6,21E-14 2,80E-10 22,2441457644_s_at Cxcl1 1457644_s_at 4,286 53,015 3,52E-13 7,69E-10 20,7911415904_at Lpl 1415904_at -4,132 -50,455 5,66E-13 7,69E-10 20,3731449450_at Ptges 1449450_at 5,164 49,483 6,82E-13 7,69E-10 20,2071419209_at Cxcl1 1419209_at 5,037 47,175 1,08E-12 9,71E-10 19,7941416576_at Socs3 1416576_at 3,372 42,107 3,19E-12 2,08E-09 18,7841450330_at Il10 1450330_at 4,519 42,056 3,23E-12 2,08E-09 18,7731455899_x_at Socs3 1455899_x_at 3,648 40,821 4,29E-12 2,12E-09 18,5021419681_a_at Prok2 1419681_a_at 3,709 40,645 4,48E-12 2,12E-09 18,4631436555_at Slc7a2 1436555_at 3,724 40,081 5,12E-12 2,12E-09 18,335

Page 43: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(5) Análisis estadístico (ii):Construcción & validación de un predictor

• Entra:– Matriz expresión

• Proceso– Selección variables– Ajuste modelo– Validación

• Sale– Modelos predictivos– Medidas de fiabilidad

/reproducibilidad

Page 44: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

(6) Significación biologica

• Entra– Listas de genes

• Proceso– GEA, GSEA, …

• Sale:– Clases GO /

Grupos de GenesPathwaysespecialmente representados

ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4,9111457644_s_at Cxcl1 1457644_s_at 4,2861415904_at Lpl 1415904_at -4,1321449450_at Ptges 1449450_at 5,1641419209_at Cxcl1 1419209_at 5,0371416576_at Socs3 1416576_at 3,3721450330_at Il10 1450330_at 4,5191455899_x_at Socs3 1455899_x_at 3,6481419681_a_at Prok2 1419681_a_at 3,7091436555_at Slc7a2 1436555_at 3,724

Page 45: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Ejemplo de análisis de datos

Comparación de perfiles de expresión entre tumores BRCA1/BRCA2 y

Construcción de un predictor que permita distinguir entre ambos.

Page 46: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Fuente del ejemplo

Gene Expression Profiles in Hereditary Breast Cancer

•Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548.

Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumores asociados a BRCA1 y BRCA2

Page 47: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Esquema del análisis

• Diseño experimental y datos para el análisis

• Preprocesado• Exploración • Selección de genes• Construcción de varios predictores y

selección del más apropiado

Page 48: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Diseño experimental

• RNA extraido de– 7 pacientess. BRCA1– 8 pacients BRCA2– 7 con cancer “esporádico”

• 6512 sondas– 5361 genes

• 3226 retenidos para el análisis

• Diseño de referencia– Cada muestra comparada

contra linea celular no tumorgénica (MCF-104)

Patient Array PID

BRCA1 v BRCA2 v Sporadic

s1321 20 Sporadic

s1996 1 BRCA1

s1822 5 BRCA1

s1714 3 BRCA1

s1224 7 BRCA1

s1252 2 BRCA1

s1510 4 BRCA1

s1900 10 BRCA2

s1787 9 BRCA2

s1721 8 BRCA2

s1486 22 BRCA2

s1572 16 Sporadic

s1324 17 Sporadic

s1649 15 Sporadic

s1320 18 Sporadic

s1542 19 Sporadic

s1281 21 Sporadic

s1905 6 BRCA1

s1816 13 BRCA2

s1616 14 BRCA2

s1063 11 BRCA2

s1936 12 BRCA2

Page 49: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Datos: log ratios

Page 50: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Preprocesado: Filtrado y Normalización

Page 51: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Exploración (1)

Page 52: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Exploración (2)

Page 53: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Análisis (1). Selección de genes (class comparison)

• BRCA1 vs noBRCA1• Usamos un t-test y

un cutoff de 0.0001 – es decir declaramos

diferencialmenete expresados los genes cuyo p-valor sea inferior a 0.0001

• No hacemos ajustes– Mínimo FC– Multiple testing

Page 54: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resultados (1): Lista de genes

Order FDR Fold-change Unique id Description Clone1 1.66e-05 0.0198 2.24 HV34H7 ESTs 2478182 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 7 460193 2.3e-05 0.0198 0.31 HV17G6 keratin 8 8977814 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein 8407025 3.63e-05 0.0198 2.21 HV32C7 ESTs 3078436 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor 260827 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma) 5668878 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1) 3666479 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2" 212198

Parametric p-value

Page 55: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Análisis (2):Construcción de un predictor

• Construímos predictores por 6 métodos distintos.

• Genes candidatos por class-comparison.

• Elegimos el que presente menor tasa de error de predicción (estimada por leave one out)

Page 56: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resultados (2i)

Array id Class label

Compound Diagonal Linear 1-Nearest 3-Nearest Nearest Support BayesianCovariate Discriminant Neighbor Neighbors Centroid Vector CompoundPredictor Analysis Machines Covariate

PredictorCorrect? Correct? Correct? Correct? Correct? Correct? Correct?

s1224 BRCA1 YES YES YES YES YES YES YESs1252 BRCA1 YES YES NO NO YES YES YESs1510 BRCA1 NO YES NO NO NO NO NOs1714 BRCA1 NO YES NO NO NO NO NOs1822 BRCA1 YES YES YES YES YES YES YESs1905 BRCA1 YES YES YES YES YES YES YESs1996 BRCA1 YES YES NO YES YES YES NAs1063 notBRCA1 YES YES YES YES YES YES YESs1281 notBRCA1 YES YES YES YES YES YES NAs1320 notBRCA1 NO YES YES YES YES YES YESs1321 notBRCA1 NO NO NO NO NO NO NOs1324 notBRCA1 YES YES YES YES YES YES YESs1486 notBRCA1 YES YES YES YES YES YES YESs1542 notBRCA1 YES YES YES YES YES YES YESs1572 notBRCA1 YES YES YES YES YES YES YESs1616 notBRCA1 YES YES YES YES YES YES YESs1649 notBRCA1 YES YES YES YES YES YES YESs1721 notBRCA1 YES YES YES YES YES YES YESs1787 notBRCA1 YES YES YES YES YES YES YESs1816 notBRCA1 YES YES YES YES YES YES YESs1900 notBRCA1 YES YES YES YES YES YES YESs1936 notBRCA1 YES YES YES YES YES YES YES

82% 95% 77% 82% 86% 86% 85%

Page 57: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resultados (2ii)

Performance of the Diagonal Linear Discriminant Analysis Classifier:

Class Sensitivity Specificity PPV NPVBRCA1 1 0.933 0.875 1notBRCA1 0.933 1 1 0.875

Final classifier: coeficients and criteria

That is, ∑iwi xi > threshold.The threshold for the Diagonal Linear Discriminant predictor is 91.124

1 2 3 …. 51 52Genes HK1A11 HV10D8 HV11A6 …. HV28G8 HV2B1Coeficients 2,57 3,31 2,79 …. 3,01 5,52

A sample is classified to the class BRCA1 if the sum is greater than the threshold

Page 58: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resumiendo…

El análisis de microarrays puede visualizarse como un proceso.

Es importante conocer Los métodos apropiados para cada problrma, los parámetros, el significado, las limitaciones de

cada paso.

Una aplicación adecuada del proceso proporciona información relevante como... una lista de genes diferencialmente expresados

(biomarcadores). un modelo con capacidad de predecir (firma)

Page 59: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Limitaciones del método

Críticas, consejos, consensos y “estado del arte”

Page 60: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Limitaciones de los microarrays

Page 61: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

An array of problems?

• Poca reproducibilidad entre estudios– Poca coincidencia entre las listas de genes– No reproducción de las predicciones en

nuevos conjuntos de test

• Falta de estándares• Falta de consenso en los métodos• El paso a la clínica siempre por llegar

• Mediados de la década: ¿Promesa o realidad?

Page 62: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Que no estamos tan mal...

Page 63: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Algunos consensos (Allison 2006)

• Diseño– Biological replication is essential – There is strength in numbers: power & sample size – Pooling biological samples can be useful

• Seleccion de genes diferencialmente expresados– Using FC alone as a differential expression test is not valid – 'Shrinkage' is a good thing – FDR is a good alternative to conventional multiple-testing approaches

• Clasificación y Predicción– Unsupervised classification is overused – Unsupervised classification should be validated using

resampling-– Supervised-classification requires independent cross-

validation

Page 64: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

No todos los estudios se hacen bien...

• Dupuy & Simon estudian 90 publicaciones. – Análisis detallado de los métodos usados en 42.

• Ecuentran algunos errores comunes– Objetivos pobremente definidos.– No hay control de la multiplicidad

104 genes 104 tests P(Falso+) muy alta– Ni se informa bien de la fiabilidad de un predictor.– No se utiliza un conjunto de test independiente.– Se abusa por doquier del análisis de clusters.

Page 65: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Aunque es posible hacerlo bien si...

• Se procura... (do’s)– Definir bien objetivos.– Combinar el p-valor y

el FC al seleccionar genes.

– Usar la FDR para el control de multiplicidad.

– Validar un predictor con un conjunto de prueba independiente.

– Contar con un estadístico

• Se evita... (don’t)– Basar la selección tan

sólo en “Fold Change”– Usar p-valores de 0.05– Usar métodos de cluster

si lo que se deseara es clasificar muestras.

– Violar el principio básico de la validación (no debe usarse el cjto de prueba antes de la validación).

... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).

Page 66: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resumiendo

• Los microarrays tienen algunas limitaciones –razonables e intrínsecas-

• Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible.

• Aún así el paso de la clínica al diagnóstico es más lento de lo que se esperaba.

¿Por qué?

Page 67: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

De la investigación básica a los diagnóstico basados en microarrays

¿Para cuando?

Page 68: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

La idea está clara...

Page 69: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Pero hay muy pocos kits de diagnóstico...

Page 70: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Algunas de las dificultades

• Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio.

• Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos.

• Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA.

• Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.

Page 71: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Estado de los diagnósticos basados en microarrays

Lleno: , Vacío:

Page 72: Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

Resumiendo

• Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico.

• Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor.

• Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo.

• No es improbable un futuro en el que el “lab-on-a-chip” forme parte de las herramientas de los clínicos.