34
Israel J. Thuissard David Sanz-Rosa 4 de marzo de 2016 MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y EXPERIMENTAL IV JORNADAS INVESTIGACIÓN COEM – UNIVERSIDADES

MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y …coem.org.es/sites/default/files/noticias/MANEJODEVARIABLESENDr... · Las variables numéricas llevan asociado al valor ... Spearman

Embed Size (px)

Citation preview

Israel J. ThuissardDavid Sanz-Rosa

4 de marzo de 2016

MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y

EXPERIMENTAL

IV JORNADAS INVESTIGACIÓN COEM – UNIVERSIDADES

Escuela de Doctorado e Investigación.Vicerrectorado de InvestigaciónUniversidad Europea de Madrid

• CEI Salud, Deporte y Ciencias de la Vida

• CEI Innovación Educativa

• CEI Valores y Sociedad Global

• CEI Sistemas Inteligentes y Energías Renovables

Biomedicina clásica y traslacional Ciencias de la salud basada en la evidencia Ejercicio y Salud Entrenamiento y nutrición Deportes individuales y colectivos.

El manejo de la información

Complicaciones:0 No1 Si

Grupo:1 Suero A2 Suero B

Sexo:1 Hombre6 Mujer

Raza:

1 Blanca2 Negra3 Hispánica4 Afroamericana5 Asiática6 Americano

Organización, Organización y

Organización

¿Porqué es importante definir bien

las variables en nuestra investigación?

¿Qué aporta la variable?

¿Cuánto cuesta recogerla?

¿Es válida y fiable?

Ausencia de errores al expresarlas

Correcto análisis estadístico

“Ames u odies la estadística, necesitas tener alguna comprensión sobre su

funcionamiento si quieres realizar una lectura crítica de un trabajo. Para

conseguirlo NO necesitas hacer un análisis estadístico. Lo que necesitas es saber

por qué se ha utilizado ese análisis estadístico y cómo interpretar los

resultados del análisis.”. Harris, M and Taylor, G (2009): Medical and Health.

Errores más comunes al expresar las

variables de estudio

Las variables numéricas llevan asociado al valor central calculado, un

valor estimado del error de la medida.

Las variables cualitativas deben expresarse en %.

La unidades de medida.

Los resultados de las variables numéricas y los errores o desviaciones

deben expresarse con las mismas cifras significativas.

Lambert et al. J. Clin Periodontol 2012; 39; 887-894

Tipos de Variables

Dependiendo del tipo de variables que estemos estudiando

existen un tipo de estadístico y de gráfico adecuado en cada

caso.

1.- Variables Cualitativas o Categóricas

a) Variables Cualitativas en Escala Nominal

b) Variables Cualitativas en Escala Ordinal

2.- Variables Cuantitativas o Numéricas

a) Variables Cuantitativas Discretas

b) Variables Cuantitativas Continuas

Bel et al. Australian Dental Journal. 1998; 43:5: 362-366.Hasselkvist et al. Journal of Dentistry 2016 In Press.

Maneras de expresar las variables cualitativas

Diagrama de frecuencias

• Discreta

• Continua

Variable cuantitativa

Variables cuantitativas

Media ± Desviación Estándard

Variables cuantitativas I

600 mm 470 mm 170 mm 430 mm 300 mm

http://www.tuveras.com/estadistica/calculadora.htm

Promedio=394 mm

Media ± Desviación Estándar (DE)

Variables cuantitativas I

600 mm 470 mm 170 mm 430 mm 300 mm

X= 394 mm

Desviación estándar= 164 mm

X + DE558

Con esto podemos decir que 2/3 partes de mi muestra está entre 558 y 229 mm.

X + DE229

http://www.tuveras.com/estadistica/calculadora.htm

1,70 m

La mediana de un conjunto de datos es un valor tal que el número de datos menores que él es igual al número de datos mayores que él.

Variables cuantitativas II

Mediana [Rango intercuartílico]

1,97 m1,88 m

2,05 m

1,82 m

1,75 m1,91 m

2,05 m1,97 m1,91 m1,88 m

1,82 m

1,75 m

1,70 m

Variables cuantitativas II

1,82 m

El RIC se calcula como la diferencia entre el tercer y el primer cuartil. Siendo el primer cuartil el que deja el 25% y el tercer cuartil el que deja el 75% de valores a la derecha.

2,05 m1,97 m1,91 m1,88 m

1,75 m

1,70 m

Tenemos n=7 valores- El primer cuartil está en la posición (n+1)/4=8/4=2 ; Q1=1,75- El tercer cuartil está en la posición (n+1)*3/4=24/4=6 ; Q3=1,97

Q1 Q3

RIC =1,97-1,75 = 0,22

50 %

25 %25 %

Mediana [Rango intercuartílico]; [RIC]

En base a la distribución de los datos

Pruebas no paramétricasPruebas estadísticas menos potentes que no necesitan ningún tipo de distribución especial

Para determinar si una distribución es paramétrica: Kolmogorov-Smirnov

¿Cuando expresar la variable

cuantitativa de una manera u otra?

Pruebas paramétricasDistribuciones conocidas (normales) y si la muestra es grande.

Independientes o apareados

Independientes: Procedentes de 2 muestras en lasque cada observación en una muestra no tiene que serconcordante con la observación de la otra

Datos apareados proceden de muestras donde cadaobservación realizada en una muestra presenta al menosotra observación concordante en la otra muestra

Autoapareamiento: cada individuo actúa como supropio control de comparación

Apareamiento artificial: consiste en reunir sujetoscon alguna característica común, como nivelsocioeconómico, edad, lugar de residencia…

Tipos de Datos

La misma característica se puede representar de manera diferente dependiendo de la escala de medida (enuna escala cuantitativa o categórica).

Ejemplo: El hábito de fumar

si / no …………………………………………………………… Categórica nominalalta, media, baja, no fumadora……………...........… Categórica ordinalnúmero de cigarrillos por día 0, 1, 2, 3, 4 ………......Cuantitativa discreta

¡Es conveniente registrar la variable utilizada en la forma en que nos dé másinformación!

P. ej.: si yo registro el número de cigarrillos por día esto me permitirá clasificarlosen fumadores y no fumadores, pero no a la inversa

Observaciones:

“Recoged tantas variables como sean necesarias y tan pocas como sea posible”

Estadística Inferencial:

Meng et al. J. Protst. Dent. 2010; 104; 122-132Persson et al. Den. Mat 2009; 25; 929-936

1. Estimación puntual

Consiste en el calculo de los estadísticos descriptivos para el conjunto de lamuestra seleccionada.

Fuente: metroscopia

2. Estimación por intervalos

Es el cálculo de un rango dentro del cual se encontrará el verdaderovalor de la población (media/mediana) con cierta probabilidad (nivel deconfianza).

Fuente: http://www.eleccionesgenerales2015.eu/

La Elección del test estadístico

Tipos de datos 2 categorías

(dicotómicas)> 2 categorías

NominalOrdinal

Cuantitativa no-normal

Cuantitativa normal

Nominal2 categorías (dicotómicas)

Nominal > 2 categorías

Ordinal

Cuantitativa no-normal

Cuantitativa normal

χ² χ²

χ²

χ² tendencias o

U de Mann-Whitney

U de Mann-Whitney

T de Student

Kruskal-Wallis Kruskal-WallisAnálisis de la

varianza ANOVA

Correlación de Spearman

Correlación de Spearman

Correlación de Spearman

Correlación de Spearman o

regresion lineal

Correlación de Spearman o

regresion lineal

Correlación de Spearman o

regresion lineal

Para determinar si una distribución es paramétrica: Kolmogorov-Smirnov

Calculadoras online

http://www.physics.csbsju.edu/stats/anova_NGROUP_NMAX_form.html

(ANOVA)

http://contchart.com/goodness-of-fit.aspx

(Bondad de ajuste para determinar normalidad en la variable a analizar. K-S)

http://www.socscistatistics.com/tests/Default.aspx

(para trabajar con variables no-paramétricas)

http://www.stat.ubc.ca/~rollin/stats/ssize/

(Poder estadístico. Especialmente adaptado para ensayos clínicos de dos

grupos y estudio de casos y controles pareado).

Ejemplos

T de Student para muestras independientes

Ejemplo

El contraste de hipótesis para muestras independientes divide los casos en dos

grupos y compara las medias de los grupos respecto a una variable. En

una situación ideal los sujetos deberían asignarse aleatoriamente a los grupos, de

forma que cualquier diferencia pueda atribuirse al efecto del tratamiento y no a

otros factores.

¿El promedio del desgaste dental (µm) difiere entre los 2 grupos?

(a un nivel de significación del 5%).

http://www.socscistatistics.com/tests/ttestdependent/Default2.aspx

Jóvenes 90 82 80 75 74 97 76 89 83 77

Adultos 94 96 93 88 79 90 86 89 81 90

Desgaste dental (µm)

Resolución -Ejemplo-

1) Formulación de la hipótesis y estadístico de la prueba

• Transversal (2 grupos distintos en un mismo momento)

• Variable independiente de tipo numérica.

H0: No existe una diferencia significativa entre la media de desgaste entre

los jóvenes y los adultos

H1: Existe una diferencia significativa entre la media de desgaste entre los

jóvenes y los adultos

Numéricamente hablando el

promedio de desgaste fue mayor en

los adultos que en los jóvenes, pero

la pregunta esta diferencia

es significativa, o es una diferencia

que se puede deber al azar.

Jovenes Adultos Jovenes Adultos

90 94 Promedio (x) 82,3 88,6

82 96 Varianza (S2) 57,34 29,38

80 93 D. estandar (S) 7,57 5,42

75 88 Tamaño (n) 10 10

74 79

97 90 Sp2 = ((57,34x(10-1)+29,38x(10-1)) / (10+10-2)

76 86 Sp2 = 43,36

89 89 T = (82,3-88,6) / (RAIZ((43,36/10)+(43,36/10))

83 81 T = -2,14

77 90 gl = 10+10-2= 18

Jovenes Adultos Jovenes Adultos

90 94 Promedio (x) 82,3 88,6

82 96 Varianza (S2) 57,34 29,38

80 93 D. estandar (S) 7,57 5,42

75 88 Tamaño (n) 10 10

74 79

97 90 Sp2 = ((57,34x(10-1)+29,38x(10-1)) / (10+10-2)

76 86 Sp2 = 43,36

89 89 T = (82,3-88,6) / (RAIZ((43,36/10)+(43,36/10))

83 81 T = -2,14

77 90 gl = 10+10-2= 18

http://www.socscistatistics.com/tests/ttestdependent/Default2.aspx

Resolución

http://www.socscistatistics.com/tests/ttestdependent/Default2.aspx

U de Mann Whitneypara muestras independientes

Ejemplo

El contraste de hipótesis para muestras independientes divide los casos en dos

grupos y compara las medianas de los grupos respecto a una variable. En

una situación ideal los sujetos deberían asignarse aleatoriamente a los grupos, de

forma que cualquier diferencia pueda atribuirse al efecto del tratamiento y no a

otros factores.

¿La mediana del área de contacto entre dientes(mm2) difiere entre

los 2 grupos?

(a un nivel de significación del 5%).

http://www.socscistatistics.com/tests/mannwhitney/default2.aspx

Jóvenes 90 82 80 75 74 97 76 89 83 77

Adultos 94 96 93 88 79 90 86 89 81 90

Desgaste dental (µm)

Resolución -Ejemplo-

1) Formulación de la hipótesis y estadístico de la prueba

• Transversal (2 grupos distintos en un mismo momento)

• Variable independiente de tipo numérica.

H0: No existe una diferencia significativa entre la mediana de desgaste entre

los jóvenes y los adultos

H1: Existe una diferencia significativa entre la mediana de desgaste entre los

jóvenes y los adultos

Numéricamente hablando la mediana

de desgaste fue mayor en los adultos

que en los jóvenes, pero la pregunta

esta diferencia es significativa, o es

una diferencia que se puede deber al

azar.

Jóvenes Adultos

Mediana 82,0 89,0[RIC] 14,0 10,0

http://www.socscistatistics.com/tests/mannwhitney/default2.aspx

Resolución

¿Cuál de los test estadísticos es el adecuado?

En base a la distribución de los datos

Pruebas no paramétricasU de Mann-Whitney

Para determinar si una distribución es paramétrica: Kolmogorov-Smirnov

Pruebas paramétricasT de Student

Jóvenes Adultos

En el Test de K-S, la hipótesis es que las variables son normales y se demuestra con un valor de p>0.05

¿Cuál de los test estadísticos es el adecuado?

En base a la distribución de los datos

Pruebas no paramétricasU de Mann-Whitney

Para determinar si una distribución es paramétrica: Kolmogorov-Smirnov

Pruebas paramétricasT de Student

MUCHAS GRACIAS POR SU ATENCIÓN

Chi-cuadrado de Pearson

Ejemplo Una muestra aleatoria de 200 familias se clasificó de acuerdo con el nivel

de educación del padre y el número de empastes que tenía:

El Ji-cuadrado de Pearson determina si las diferencias entre las frecuencias

observadas en la tabla de contingencia correspondiente al cruce de los valores de

las dos variables y las frecuencias esperadas.

A un nivel de significación de 0,05, ¿se puede afirmar que el tamaño

familiar depende del nivel de educación del padre?

Nº HijosEstudios

Primarios

Estudios

Medios

Estudios

superioresTotal

0-3 51 61 29 141

Más de 3 32 17 10 59

Total 83 78 39 200

Nivel Educativo

Resolución

a.1) Formulación de la hipótesis

Es posible realizar una prueba para las diferencias entre dos proporciones

seleccionadas de dos muestras independientes.

H0: “nivel de educación” y “número de empastes” independientes (las dos

variables son independientes)

H1: “nivel de educación” y “número de empastes” dependientes (las dos

variables están relacionadas)

http://www.quantpsy.org/chisq/chisq.htm

http://www.socscistatistics.com/tests/chisquare2/Default2.aspx

Resolución