57
Cálculo tamaño muestral en investigación clínica …. para no estadísticos "It is far better to foresee even without certainty than not to foresee at all" Henri Poincare in The Foundations of Science Enrique Granados 5 Octubre 2011

Calculo de tamaño muestral para no estadísticos

Embed Size (px)

DESCRIPTION

He intentado adjuntar en una presentación herramientas útiles y gratis para el cálculo de tamaño muestral precedido de unas pocas nociones teóricas sobre el tema. Si véis errores, por favor decidmelo.

Citation preview

Cálculo tamaño muestral en investigación clínica …. para no estadísticos

"It is far better to foresee even without certainty than not to foresee at all" Henri Poincare in The Foundations of Science

Enrique Granados5 Octubre 2011

Presentation title in footer | 00 Month 00002

Tan necesarios son los conocimientos clínicos como los estadísticos

Este maldito estadístico no me dice la N para mi

estudio

Esta maldita clínica no me dice que efecto

espera encontrar en su estudio

Presentation title in footer | 00 Month 00003

Importancia buen cálculo del tamaño muestral

TamaTamañño o insuficienteinsuficiente

TamaTamañño excesivoo excesivo

EconEconóómicamicaGasto de recursos Gasto de recursos sin obtener sin obtener conocimiento conocimiento (*)(*)

Gasto de mGasto de máás s recursos que los recursos que los necesariosnecesarios

EticaEtica

Riesgo para Riesgo para pacientes sin pacientes sin avance de avance de conocimiento conocimiento (*)(*)

¿¿EstEstáás s ““comprandocomprando”” la p a base de una N la p a base de una N muy grande?muy grande?11

(*): posibilidad de metanálisis posteriores1: Bacchetti, Am J Epidemiol 2005

Presentation title in footer | 00 Month 00004

El cálculo de tamaño muestral debe hacerse al comienzo del proceso de investigación

Objetivo primario yEndpoint primario

Cálculo de tamaño muestral

¿Excesivo para nuestros recursos? Sí

Descartar la idea

Reformular objetivo 1ario

Seguir con el resto de la sinopsis

No

Presentation title in footer | 00 Month 00005

Ingredientes para el cálculo de tamaño muestral

Una variable primaria– Si hay más de una variable primaria

habrá que coger el mayor tamaño muestral

Un test estadísticoUna hipótesis nula Una hipótesis de trabajo (alternativa) (con las asunciones del efecto esperado o deseado). Lo más complicado!!Una probabilidad de error tipo IUna probabilidad de error tipo IIUna estimación de las pérdidas…… y un buen software

Presentation title in footer | 00 Month 00006

Dos tipos de error

RealidadNo beneficio del

tratamiento

(H0 es cierta)

Existe beneficio del tratamiento

(HA es cierta)

Resultado del ensayo

No beneficio del tratamiento (se acepta H0 )

No hay errorError de tipo II

Falso negativo

Existe beneficio del tratamiento (se acepta HA )

Error de tipo IFalso positivo

No hay error

H0 (hipótesis nula): los dos grupos son iguales

HA (hipótesis alternativa): los dos grupos son distintos

Presentation title in footer | 00 Month 00007

Dos tipos de errorError alfa o tipo I: probabilidad de producir un falso positivo.

– Se rechaza la hipótesis nula , aunque esta es cierta– Error del exceso de credulidad– También llamado “nivel de significación del test”– Por convención se suele poner en el 5%. Más raro en el 1% o 10%

Error beta o tipo II: probabilidad de producir un falso negativo.– No se rechaza la hipótesis nula, a pesar de ser falsa– La potencia (1 - beta), representa la probabilidad de rechazar la Ho cuando

en realidad es falsa (decisión correcta)– Error del exceso de escepticismo– Por convención se suele poner en 10-20%

Convención: α=5%, β=20%. Se considera que el error tipo II es menos serio que el error tipo I. Preferimos pasarnos de “escépticos”.

Presentation title in footer | 00 Month 00008

Para un tamaño muestral dado, los esfuerzos por reducir un error conllevan un aumento del otro tipo de error

La única manera de minimizar ambos errores es aumentar el tamaño de la muestra

Presentation title in footer | 00 Month 00009

¿Qué error es más serio: el tipo I (crédulo) o el tipo II (escéptico)?

Depende de la aplicación a la vida real, no es un problema estadístico

P (Error tipo I) en los juicios:

Juicio penal: “Más allá de una duda razonable”. 12 de 12 jurados deben votar culpable unánimamanete. Como si fijáramos el nivel αen 0.001.

Juicios civilies: “Preponderancia de la evidencia”. 9 de 12 jurados deben votar culpable. Es como si fijásemos el nivel alfa en 0,1.

Presentation title in footer | 00 Month 000010

Un ruido en la noche en la sabana africana …

Yo creo que es …

Tigre Rama

En realidad es…

Tigre AcertasteError tipo II

Eres devorado

RamaError tipo I

Falsa alarma

Acertaste

Presentation title in footer | 00 Month 000011

Un ruido en la noche en la sabana africana …

Michael Shermer:

“Nuestro sistema cognitivo ha ido evolutivamente sesgándose para ser crédulos, para tolerar errores tipo I “

Presentation title in footer | 00 Month 000012

La existencia de Dios y los errores tipo I y II

Blaise Pascal1623-1662. Científico, filósofo y escritor francés.

“Prefiero equivocarme creyendo en un Dios que no existe, que equivocarme no creyendo en un Dios que existe. Porque si después no hay nada, evidentemente nunca lo sabré, cuando me hunda en la nada eterna; pero si hay algo, si hay Alguien, tendré que dar cuenta de mi actitud de rechazo.”

Presentation title in footer | 00 Month 000014

Si aumentamos el tamaño muestral, aumentamos la precisión pero no la exactitud

Precisión: dispersión (desviación estándar) del conjunto de valores obtenidos de mediciones repetidas.

– Cuanto menor es la dispersión mayor la precisión.

Exactitud (accuracy): cuán cerca del valor real se encuentra el valor medido. Cuanto menor es el sesgo más exacta es una estimación.

– El problema de las variables de confusión de los estudios observacionales NO se soluciona aumentando el tamaño muestral.

Alta precisión,Baja exactitud

Baja precisión,Alta exactitud

Presentation title in footer | 00 Month 000015

Reducción en la anchura del intervalo de confianza al aumentar el tamaño de la muestra

Jones, EMJ online 2009

Presentation title in footer | 00 Month 000016

Efecto de la reducción del intervalo de confidencia para demostrar una diferencia en las medias

Jones, EMJ online 2009

Presentation title in footer | 00 Month 000017

Effect size (tamaño del efecto)Es una manera de cuantificar la diferencia entre dos o más grupos

D de Cohen (tamaño del efecto estandarizado)1: la diferencia entre las medias dividido por la desviación estándar de la población. Ventaja no tiene unidades.

A menor d, mayor tamaño muestral se necesita

Es importante que esta diferencia esperada no sea alta de manerapoco realista, para no infraestimar el tamaño muestral requerido

El tamaño del efecto es un tema de juicio clínico: “¿Qué resultados estimas o esperas que aparezcan?”

1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences

Presentation title in footer | 00 Month 000018

A menor tamaño del efecto, más tamaño muestral se necesita

Jones, EMJ online 2009

Presentation title in footer | 00 Month 000019

Tamaños del efecto estandarizados para diversos tests estadísticos

Estos tamaños estandarizados facilitan el cálculo de tamaño muestral, pero no reemplazan la necesidad de buscar la bibliografía adecuada que lo sustente.

Cunningham, Evidence Based Midwifery 2007

Presentation title in footer | 00 Month 000020

Ejemplos de tamaños muestrales estimados para efectos pequeños, medianos y grandes

Cunningham, Evidence Based Midwifery 2007

•El tamaño puede ser de 788, 128 o 52 en función del efecto que vayamos a encontrar.•¿Cómo es capaz un CEIC de asegurar cual de los efectos es el correcto?!!!!

Presentation title in footer | 00 Month 000021

A favor y en contra de usar el tamaño del efecto estandarizado

A favor En contraNo necesitas realizar un piloto o

buscar datos históricos para determinar la desviación estándar.

Los estándar de “pequeño”, “medio” y “grande” se basan en una extensa revisión de la literatura de las ciencias sociales y por tanto son convenciones realísticas 1

Si no miras al numerador y denominador por separado estás obviando como de preciso es tu instrumento de medida.

1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences

Presentation title in footer | 00 Month 000022

La potencia (probabilidad de encontrar una diferencia predeterminada si existe) aumenta si…

La Diferencia entre el valor bajo la hipótesis nula y la observada es mayor

Si P( Error tipo I) = α es mayor

Si la desviación estándar es menor (precisión mayor de la medida)

Si aumenta el tamaño muestral

Si usas pruebas paramétricas (p.e. t de Student) que no paramétricas (U de Mann Whitney)

– Por eso a veces se intentan convertir los datos básicos a una distribución normal

Presentation title in footer | 00 Month 000023

La potencia (probabilidad de encontrar una diferencia predeterminada si existe) aumenta si…(II)

Se usan estudios cruzados en vez de paralelos– Siempre que los sujetos estén estables durante el lavado.

Los estudios de medidas repetidas (antes – después) tienen más potencia que los estudios de medidas no repetidas

El ratio del tamaño de las muestras de los grupos (N1 / N2) es 1

Si se usan contrastes de una cola que si se usan de dos.

Presentation title in footer | 00 Month 000024

¿Qué hacer si me sale una muestra demasiado grande?

Disminuir la precisión de la medida: aumentar el intervalo de confianza esperado

Revisar bibliografía: ¿existen datos publicados en que la variable se presente con una desviación estándar menor?

Disminuir la potencia si se puede

Aumentar la probabilidad de error tipo I (alfa) si se puede

Intentar cambiar el objetivo primario, buscar otros tests estadísticos

Ver si se puede usar contraste de una cola en vez de dos colas (en el caso que solo nos interese demostrar diferencias en un sentido)

Presentation title in footer | 00 Month 000025

¿Qué hacer si me sale una muestra demasiado pequeña?

Enhorabuena!! Tienes dinero para pagar la mayor muestra.

Aumentar la precisión de la medida: aumentar el intervalo de confianza esperado

Aumentar la potencia.– OJO: al aumentar la potencia podrás detectar diferencias

estadísticamente significativas entre la hipótesis nula y la hipótesis alternativa que sean irrelevantes clínicamente

– Importante conocer cual es el “la mínima diferencia clínicamente significativa”.

Disminuir la probabilidad de error tipo I (alfa) si se puede

Presentation title in footer | 00 Month 000026S.F.Kelsey/class2181/lecture 4-sample size 26

Ejemplos de estudios de una cola o de dos colas

I Fármaco A Eventos adversos / caro

Fármaco B No eventos adversos / barato– A más eficaz – A&B igual– B más eficaz

II X Intervención en nutrición- Sesiones en grupo

Y Intervención en nutrición- Sesiones individuales– X Reduce más la ingesta de sodio– X&Y Igual– Y Reduce más la ingesta de sodio

Presentation title in footer | 00 Month 000027

No rechazo H0Rechazo H0Una cola

.05

Zcrit

No rechazo H0Rechazo H0

.025

Zcrit

Rechazo H0

Zcrit

-1.961.96

-1.65

.025

Dos colas

Presentation title in footer | 00 Month 000028

Una sola cola

0

0.1

0.2

0.3

-3 -2 -1 0 1 2 3 4 5

critical t = 1.65175

DistribuciDistribucióón central H0n central H0 DistribuciDistribucióón no central H1n no central H1

Presentation title in footer | 00 Month 000029

Dos colas

0

0.1

0.2

0.3

-3 -2 -1 0 1 2 3 4 5

critical t = 1.96835

a2

ß

DistribuciDistribucióón central H0n central H0DistribuciDistribucióón no central H1n no central H1

Presentation title in footer | 00 Month 000030

Significación clínica o estadísticaLo importante es siempre la clínica!!!

Estadísticamente significativo, clínicamente NO significativo– “La p depende de la N”, “La significación estadística se puede comprar

con una N grande”– Ejemplos:

• Aumento de una semana en la supervivencia del cáncer• Aumento de 2-3 ovocitos en ciclos de FIV

– Insuficiente para obtener autorizaciones de comercialización

Estadísticamente NO significativo, clínicamente significativo– Ejemplo: Aparición de eventos adversos muy graves que modifican el

perfil riesgo / beneficio– Pueden llevar a la no aprobación o incluso a una posterior retirada de la

autorización de comercialización

Presentation title in footer | 00 Month 000031

Estudios de no-inferioridad frente a un control activo

Aceptables cuando no es ético un estudio frente a placebo y el nuevo medicamento sólo tiene ventajas en cuanto a efectos secundarios o comodidad o costes, pero la misma eficacia

En general requieren un tamaño muestral mayor

Fundamental establecer el margen de no inferioridad: diferencias entre el margen experimental y el control activo no son superiores a una cifra prefijada.

Herramientas específicas para el cálculo de tamaño muestral

Presentation title in footer | 00 Month 000033

Software libre para el cálculo de tamaño muestral

GP Power 3.1– Heinrich Heine University, Dusseldorf University– http://www.psycho.uni-

duesseldorf.de/abteilungen/aap/gpower3/download-and- register

PS Power and Sample size– Department Biostatistics, Vanderbilt University– http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize

ST Plan– MD Anderson Cancer Center– https://biostatistics.mdanderson.org/SoftwareDownload/Singl

eSoftware.aspx?Software_Id=41

Presentation title in footer | 00 Month 000034

Webs para el cálculo de tamaño muestral

http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp

http://stat.ubc.ca/~rollin/stats/ssize/

http://www.stat.uiowa.edu/~rlenth/Power/index.html

http://www.raosoft.com/samplesize.html

http://epitools.ausvet.com.au/content.php?page=SampleSize

http://statpages.org/index.html#Power

Presentation title in footer | 00 Month 000035

GP Power 3.1Permite tres tipos de análisis:

– A priori: calcula el tamaño muestral a partir de alfa, beta y el tamaño observable del efecto

– Post hoc: calcula la potencia a partir de alfa, el tamaño observable del efecto y el tamaño de la muestra.

• Para estudios piloto de detección de señales permite estimar la potencia a partir de un tamaño muestral pragmático.

– Compromise: calcula un ratio alfa / beta a partir del tamaño observable del efecto y el tamaño de la muestra

– Análisis de sensibilidad: calcula el tamaño del efecto a partir de la N (cuando sabemos que no tenemos recursos para aumentarla), alfa, y beta

Util para:– Medias: un grupo, un grupo antes y después, dos grupos independientes, muchos grupos

(ANOVA, ANCOVA)

– Proporciones: un grupo o dos

– Correlaciones y regresiones

– Tests paramétricos y no paramétricos

Presentation title in footer | 00 Month 000036

Ejemplo cálculo basado en diferencias de medias en dos grupos independientes

Presentation title in footer | 00 Month 000037

GP Power 3.1Posibilidad de hacer gráficos

Power (1-ß err prob)

Tota

l sam

ple

size

t tests - Means: Difference between two independent means (two groups)Tail(s) = Two, Allocation ratio N2/N1 = 1, a err prob = 0.05

200

400

600

800

1000

1200

0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95

Effect size d

= 0.2

= 0.25

= 0.3

Presentation title in footer | 00 Month 000038

PS Power and Sample SizePermite tres tipos de cálculo:

– Tamaño muestral– Potencia– Tamaño efecto detectable

Util para estudios de:– Supervivencia– T Test– Regresión– Proporciones– Mantel Haenszel

Sólo para estudios de dos colas

Presentation title in footer | 00 Month 000039

Ejemplo cálculo basado en diferencias de medias en dos grupos independientes

Presentation title in footer | 00 Month 000040

ST PLAN

Interfaz poco amigable

Util para:– Comparacion de medias

– Comparacion de proporciones

– Supervivencia

– Correlacion

Presentation title in footer | 00 Month 000041

Estudios de estimar una proporcionEjemplo: estudios de prevalencia de una enfermedad

Para la misma precisión de la medida, el tamaño muestral es mayor cuanto la proporción es más cercana al 50% (máxima indeterminación) est

Herramientas– http://www.cs.uiowa.edu/~rlenth/Power/– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_EstPrev.asp– http://epitools.ausvet.com.au/content.php?page=SampleSize

Presentation title in footer | 00 Month 000042

Estudios con dos proporcionesEl tamaño muestral aumenta:

– Si la diferencia entre ambas proporciones disminuye– Si la potencia aumenta.– Cuanto más cercanas estén las proporciones al 50%– Equivalencia > Superioridad > No inferiordad

P1 = 0.01 P1 = 0.05 P1 = 0.1 P1 = 0.2 P1 = 0.3 P1 = 0.4 P1 = 0.5 P1 = 0.6 P1 = 0.7 P1 = 0.8 P1 = 0.9 P1 = 0.95P2 = 0.99 5 5 6 7 9 12 15 21 30 50 121 333P2 = 0.95 5 6 7 8 11 14 19 27 43 88 474P2 = 0.9 6 7 8 10 13 17 25 38 72 219P2 = 0.8 7 8 10 13 19 28 45 91 313P2 = 0.7 9 11 13 19 29 49 103 376P2 = 0.6 12 14 17 28 49 107 408P2 = 0.5 15 19 25 45 103 408P2 = 0.4 21 27 38 91 376P2 = 0.3 30 43 72 313P2 = 0.2 50 88 219P2 = 0.1 121 474P2 = 0.05 333

Ejemplos de tamaños para un error alfa de 0,05 y un error beta de 0,8

Presentation title in footer | 00 Month 000043

Estudios con dos proporciones

Herramientas:– http://epitools.ausvet.com.au/content.php?page=SampleSize– GP Power– PS

Presentation title in footer | 00 Month 000044

Estudios de estimar una media de un solo grupo

El tamaño muestral debe justificarse mediante referencia a un intervalo de confianza (normalmente 95%) alrededor de una media de la variable de estudio (desviación estándar)

Herramientas:– http://epitools.ausvet.com.au/content.php?page=1Mean– http://stat.ubc.ca/~rollin/stats/ssize/n1.html– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_E

stMean.asp

Presentation title in footer | 00 Month 000045

Estudios de comparar medias en dos grupos

El tamaño muestral aumenta si:– La diferencia entre las medias es menor– La desviación estándar es mayor– Si aumentamos la potencia

Presentation title in footer | 00 Month 000046

Estudios de comparar medias en dos grupos

Herramientas:– http://epitools.ausvet.com.au/content.php?page=2Means1– http://stat.ubc.ca/~rollin/stats/ssize/n2.html

Presentation title in footer | 00 Month 000047

Normograma(*) para el cálculo de tamaño muestral para comparar medias mediante alfa, beta y tamaño del efecto (Gore & Altman 2001)

Jones, EMJ online 2009

*: Válido si siguen distribución normal

Presentation title in footer | 00 Month 000048

Estudios de variables de tiempos hasta un evento (uso de log-rank)

El tamaño muestral será mayor:–Cuanto menor sea la diferencia entre los tiempos de

supervivencia o más cercano esté el Hazard Ratio a 1.–Si el tiempo de reclutamiento es más pequeño–Si el tiempo de seguimiento es menor–Si el ratio N2 / N1 se aleja de 1

Herramientas:– http://hedwig.mgh.harvard.edu/sample_size/time_to_event/para_time.html

Presentation title in footer | 00 Month 000049

Estudios de concordancia (estadístico kappa)

Sim, Physical Therapy 2005

Presentation title in footer | 00 Month 000050

Estudios diagnósticos

Presentation title in footer | 00 Month 000051

Estudios diagnósticos

Herramientas:– http://department.obg.cuhk.edu.hk/researchsupport/

Sample_size_ROC.asp– http://araw.mede.uic.edu/cgi-alansz/testcalc.pl

Presentation title in footer | 00 Month 000052

Estudios diagnósticos con datos de prevalencia

Buderer, Acad Emerg Med 1996

Presentation title in footer | 00 Month 000053

Estudios diagnósticos con datos de prevalencia

Carley, Emerg Med J 2005

Presentation title in footer | 00 Month 000054

Estudios diagnósticos con datos de prevalencia

Carley, Emerg Med J 2005

Presentation title in footer | 00 Month 000055

Normograma para estudios diagnósticos

Buderer, Emerg Med J 2003

Presentation title in footer | 00 Month 000056

Conclusiones y mensajes (I)

Haz estos cálculos lo más pronto posible en la planificación de un estudio.

Si leemos un estudio con resultados negativos hay que analizar la potencia estadística de ese estudio.

Pon siempre los datos clínicos antes que los estadísticos tanto para interpretar los resultados como para planificar la muestra.

Haz estudios piloto: no pretendas responder todas las preguntas del mundo en un solo estudio.

Ojo con los diseños para estudiar los efectos en subgrupos porque necesitarás aumentar el tamaño muestral.

Presentation title in footer | 00 Month 000057

Conclusiones y mensajes (II)“¿“¿QuQuéé es un trabajador del conocimiento?:es un trabajador del conocimiento?:

–– Su funciSu funcióón es resolver problemas, mediante la creacin es resolver problemas, mediante la creacióón, n, distribucidistribucióón o aplicacin o aplicacióón de informacin de informacióón / conocimiento.n / conocimiento.

–– Son problemas no operativos, no existe una secuencia Son problemas no operativos, no existe una secuencia protocolizada de acciones que los resuelvan.protocolizada de acciones que los resuelvan.

–– Necesita gran variedad de talentos y habilidades: buscar y Necesita gran variedad de talentos y habilidades: buscar y evaluar crevaluar crííticamente informaciticamente informacióón; discriminar diferentes n; discriminar diferentes fuentes, evaluando los intereses que hay detrfuentes, evaluando los intereses que hay detráás de cada s de cada argumento; hacer preguntas y establecer hipargumento; hacer preguntas y establecer hipóótesis; desarrollar tesis; desarrollar ananáálisis numlisis numééricos complejos, tener ideas y puntos de vista ricos complejos, tener ideas y puntos de vista propios y expresarlos de manera argumentada, clara y concisa propios y expresarlos de manera argumentada, clara y concisa de forma oral y por escrito.de forma oral y por escrito.””

Jorge Juan Fernández, Las Reglas de Juego, 2010

Presentation title in footer | 00 Month 000058