Upload
ricarda-nolasco
View
241
Download
1
Tags:
Embed Size (px)
Citation preview
Regresión Linear Correlación de Pearson, r
Regresión MúltipleRegresión Logística
Regresión de Poisson
Propósitos de RL
• Evaluar si las dos variables están asociadas (r)
• Predecir en base a una variable, ¿qué se obtiene de la otra? (ARS)
• Evaluar grado de concordancia entre los valores de las dos variables (ARS)
Supuestos
1. Existencia (para cualquier valor de la variable X, Y es una variable al azar con una cierta probabilidad de distrib teniendo un promedio y varianza finitos)
2. Independencia (los valores de Y son estadísticamente independientes uno de otro).
3. Linearidad (el promedio de Y es una función linear de X)
4. Homocedasticidad (La varianza de Y es la misma para cualquier X)
5. Distribución normal (Para cualquier valor de X, Y tiene distribución normal)
Variables
• Dependiente: eje Y• Independiente: eje X
• Intervalares• Distribución normal
• Gráfico: PLOT DE DISPERSIÓN
• Pares de observaciones
Regresión linear
• La línea recta es descrita por ecuación:
• Y = 2 + 5X
Var dep Pendiente Var indep
FPLOT y = x+2Intercepto
-1,0 -0,5 0,0 0,5 1,0
x
-10
-8
-6
-4
-2
0
2
4
6
8
10
y
Relación entre presión sistólica mm/Hg vs. Edad (años)
20 30 40 50 60 70 80 90Edad en años
50
100
150
200
250P
resi
ó n m
m/H
g
X
Y
a = interceptob = pendiente
bxay
Stata 1010
015
020
025
0
20 40 60 80Edad (años)
95% CI Fitted valuesPresión Sistólica (mm / Hg)
Relación entre Presión sistólica y Edad
Relación fisuras vs. Año (C Holuigue, 2005).Año 2000: inicio del suplemento de ácido fólico en la harina.
Evolución de peso vs días en niños con fisuras (con y sin tratamiento ortopédico). (N: control: 40; Fisurados
con trat ortop: 32; Fisurados sin trat ortop: 20) Jara y Vergara, 2009, UM.
GRUPO
0 50 100 150 200
DIA
Control
0 50 100 150 200
DIA
Fisurado con Ortop
0 50 100 150 200
DIA
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
10,000
PE
SO
Fisurado sin Ortop
Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.
GRUPO
0 50 100 150 200
DIA
Control
0 50 100 150 200
DIA
Fisurado con Ortop
0 50 100 150 200
DIA
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
10,000
PE
SO
Fisurado sin Ortop
Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.
Fisurado sin OrtopFisurado con OrtopControl
GRUPO
0 50 100 150 200
DIA
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
10,000
PE
SO
Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.
FISURA
SE
XO
Paladar Fisurado
Hombres
FLP Unilateral FLP Bilateral
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
10,000
PE
SO
Control
0 50 100 150 200
DIA
Mujeres
0 50 100 150 200
DIA0 50 100 150 200
DIA0 50 100 150 200
DIA
2,000
3,000
4,000
5,000
6,000
7,000
8,000
9,000
10,000
PE
SO
Requisitos
• Las dos variables deben ser continuas
• Deben ser independientes una de la otra
• Deben tener distribución normal
Calcular
• Y = a + bXa = intercepto
b = pendiente
• Demostrar Ho: b = 0
• IC 95% de a; IC 95% de b
• Correlación de Pearson (r)
ANALISIS DE REGRESIÓNEdad vs. Presión sistólica en 33 pacientes.
Edad PS Edad PS Edad PS Edad PS22 131 33 99 49 133 56 14523 128 35 121 49 128 57 14124 116 40 147 50 183 58 15327 106 41 139 51 130 59 15728 114 41 171 51 133 63 15529 123 46 137 51 144 67 17630 117 47 111 52 128 71 17232 122 48 115 54 105 77 178
81 217
n = 33 x = 1542 y = 4575 xy = 223 144x2 = 79.176 y2 = 656.481 x = 46,73 y = 138,64
= 79.716 – (1542) 2 / 33 = 7662,6
= 656.481 – (4575) 2 / 33 = 22219,6
= 223144 – (1542)(4575)/33 = 9366,7
bxay
nxxxx /)()( 222
nyyyy /)()( 222
nyxxyyyxx /))(())((
Pendiente e intercepto
a: intercepto, en mm de Hg
b: pendiente, ps aumenta 1,22 mmHg por cada año de edad.
xy
a
añommHgb
22,154,81
54,81)73,46)(22,1(65,138
/22,16,7662
7,9366
71,06,22219
6,766222,1
)(
)(
66,18233
)223144)(22,1()4575)(54,81(656481
2
22
22
.
2
.
r
ny
y
nx
xb
s
sbr
S
n
xybyayS
y
x
xy
xy
Correlación de Pearsonr = 0,71 (Fuerza de la asociación entre las dos variables, puede
variar entre -1 y 1, entre más cerca a uno mejor dicha asociación
0,65 a 1 BUENA
0,4 a 0,649 REGULAR
< de 0,4 MALA.
r2 = 0.51
Karl Pearson, 1857-1936
¿Qué tan bueno es el modelo?
• r2= Proporción de la variación total en la variable y, dependiente, en este caso de la presión sistólica, que es explicada por la variación en la variable independiente x, o edad en este caso). O sea 51% de la variación en y es explicada por la variable x (edad).
Error estándar de b y a
47,106,7662
73,46
33
141,347
)(
1
2129,06,766241,347
)(
2
2
2
2.
2
2.
a
xya
b
xyb
SE
xx
x
nSSE
SE
xx
sSE
Intervalo de Confianza (95%) de la pendiente
b ± (t31, 0.05) (SEb) = 1,22 ± (1,96) (0,2129)
= 1,22 ± 0,417
Test de significancia para Ho b = 0
b - 0 1,22
t31 = ------------- = ------------- = 5,74 p<0,001
SEb 0,2129
Resultados con systatwg
Dep Var: PRESION N: 33 Multiple R: 0.718 Squared multiple R: 0.515
Adjusted squared multiple R: 0.500 Standard error of estimate: 18.639
Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT 81.517 10.465 0.000 . 7.789 0.000
EDAD 1.222 0.213 0.718 1.000 5.741 0.000
Analysis of Variance
Source Sum-of-Squares df Mean-Square F-ratio P
Regression 11449.926 1 11449.926 32.958 0.000
Residual 10769.710 31 347.410
-------------------------------------------------------------------------------
SSY - SSESSY = SSY - SSE: Suma de cuadrados de la reg.
nyyyy /)()( 222
Valor de F, en tabla de anova es para determinar si la b (pendiente) es significatvia
Resultados con Systat v. 12
Regression Coefficients B = (X'X)-1X'Y
Effect Coefficient Standard Error
Std.Coefficient
Tolerance t p-value
CONSTANT 81.517 10.465 0.000 . 7.789 0.000
EDAD 1.222 0.213 0.718 1.000 5.741 0.000
Qué escribir ? Y = 81,52 + 1,22Xr = 0,718r2 = 0,515
Dependent Variable PS
N 33
Multiple R 0.718
Squared Multiple R 0.515
Adjusted Squared Multiple R
0.500
Standard Error of Estimate
18.639
Nube ?Plot of Residuals against Predicted Values
100 110 120 130 140 150 160 170 180 190ESTIMATE
-50
-40
-30
-20
-10
0
10
20
30
40
50
RE
SI D
UA
L
20 30 40 50 60 70 80 90Edad en años
50
100
150
200
250
Pr e
sión
mm
/Hg
Valores observados (PS), Estimados y Residuales
Case PS ESTIMATE RESIDUAL1 131.000 108.410 22.5902 128.000 109.632 18.3683 116.000 110.854 5.1464 106.000 114.522 -8.5225 114.000 115.744 -1.7446 123.000 116.966 6.0347 117.000 118.189 -1.1898 122.000 120.634 1.3669 99.000 121.856 -22.85610 121.000 124.301 -3.30111 147.000 130.413 16.58712 139.000 131.635 7.36513 171.000 131.635 39.36514 137.000 137.747 -0.74715 111.000 138.970 -27.97016 115.000 140.192 -25.19217 133.000 141.415 -8.41518 128.000 141.415 -13.41519 183.000 142.637 40.36320 130.000 143.859 -13.85921 133.000 143.859 -10.85922 144.000 143.859 0.14123 128.000 145.082 -17.08224 105.000 147.527 -42.52725 145.000 149.971 -4.97126 141.000 151.194 -10.19427 153.000 152.416 0.58428 157.000 153.639 3.36129 155.000 158.528 -3.52830 176.000 163.418 12.58231 172.000 168.307 3.69332 178.000 175.642 2.35833 217.000 180.531 36.469
Cajas de dispersión de PS, Estimada y residual
50
100
150
200
250
PS
100
110
120
130
140
150
160
170
180
190
ES
TIM
AT
E
-50
-40
-30
-20
-10
0
10
20
30
40
50
RE
SID
UA
L
Regresión – Características de una relación (Wilkinson, 1996)
¿Existe?
¿Qué fuerza tiene?
¿Qué tamaño?
¿Qué dirección tiene?
¿Qué patrón tiene?
Existencia de la relación.
• El valor de p en la tabla de análisis de varianza de la regresión nos indica si el modelo es significativamente diferente del azar.
• Los test t y valores de p asociados con los coeficientes individuales nos indican si existe una relación entre cada variable independiente y la variable dependiente.
Fuerza de la asociación.
• Uno no está satisfecho con saber si existe una relación además quiere saber que tan fuerte es. Generalmente la vemos con el valor de R múltiple, el R múltiple al cuadrado, el R cuadrado ajustado, y el error estándar de la media. El mejor de todos es R cuadrado ajustado.
• R múltiple al cuadrado indica la proporción de varianza en la variable dependiente que puede ser explicada por la(s) variable(s) independiente(s).
Tamaño de la asociación
• A veces uno está interesado en el tamaño de los coeficientes de la regresión más que en demostrar que difieren de 0.
• Para esto simplemente ver los valores de los coeficientes.
Patrón de la asociación.
Los plots y los estadísticos basados en los valores residuales nos dan información acerca del patrón de la relación :
Es la relación linear? Presentan los plots algún valor “escapado”, o fuera de lugar (outlier”)? Existe indicación por los valores de Cook, residual estandarizado, o
Leverage de algún caso influyente? Están los residuales curvados o por otro lado presentan forma o
dirección irregular? En otras palabras deberá agregarse otras variables al modelo?
Los residuales están formando una banda horizontal a lo largo de todo el rango de la variable dependiente?, o sea están los residuales homoscedásticos?
Tienen los residuales una distribución normal?
Homocedasticidad: de -homo (igual) y scedastic: disperso
Análisis de Regresión Linear
MODEL CS = CONSTANT+LSMUFC
ESTIMATE
Dep Var: CS N: 30 Multiple R: 0.626 Squared multiple R: 0.392
Adjusted squared multiple R: 0.370 Standard error of estimate: 6.543
Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT -19.601 7.712 0.0 . -2.542 0.017
LSMUFC 5.987 1.409 0.626 1.000 4.248 0.000
Regresión Linear, comparación entre
dos grupos
CASO PA HB_GLI GRUPO$ GRUPO
1 91 9,8 Enalapril 1
2 104 7,4 Enalapril 1
3 107 7,9 Enalapril 1
4 107 8,3 Enalapril 1
5 106 8,3 Enalapril 1
6 100 9,0 Enalapril 1
7 92 9,7 Enalapril 1
8 92 8,8 Enalapril 1
9 105 7,6 Enalapril 1
10 108 6,9 Enalapril 1
11 98 9,5 Placebo 0
12 105 6,7 Placebo 0
13 100 7,0 Placebo 0
14 101 8,6 Placebo 0
15 99 8,7 Placebo 0
16 87 9,5 Placebo 0
17 98 9,0 Placebo 0
18 104 7,6 Placebo 0
19 106 8,5 Placebo 0
20 90 8,6 Placebo 0
Presión arterial (PA)y Hemoglobina Glicosilada(HB_GLI) en dosGrupos: con Enalapril (1)y Placebo (0)
80 90 100 110Presión Sanguínea arterial media (mmHg)
0
4
8
12C
on
cen
tra
ció
n to
tal d
e H
em
og
l ob
i na
glic
os i
l ad
a (
%)
PlaceboEnalapril
GRUPO
80 90 100 110Presión Sanguínea arterial media (mmHg)
6
7
8
9
10C
once
n tra
ción
tota
l de
Hem
o glo
b ina
glic
o sil a
d a (
%)
PlaceboEnalapril
GRUPO
Donde está la diferencia?
80 90 100 110Presión Sanguínea arterial media (mmHg)
6
7
8
9
10C
once
n tra
ción
tota
l de
Hem
o glo
b ina
glic
o sil a
d a (
%)
PlaceboEnalapril
GRUPO
Donde está la diferencia?
Caso PA HB GRUPO 1 91 9,8 Enalapril 2 104 7,4 Enalapril 3 107 7,9 Enalapril 4 107 8,3 Enalapril 5 106 8,3 Enalapril 6 100 9,0 Enalapril 7 92 9,7 Enalapril 8 92 8,8 Enalapril 9 105 7,6 Enalapril 10 108 6,9 EnalaprilPromedios: 101,2 8,37DS: 6,941 0,9615DS de la línea de regresión (Sres): 0,5485
Caso PA HB GRUPO11 98 9,5 Placebo 12 105 6,7 Placebo 13 100 7,0 Placebo 14 101 8,6 Placebo 15 99 6,7 Placebo 16 87 9,5 Placebo 17 98 9,0 Placebo 18 104 7,6 Placebo 19 106 8,5 Placebo 20 90 8,6 PlaceboPromedios: 98,8 8,17DS: 6,161 1,0914DS de la línea de regresión (Sres): 0,9866
2
))(1( 222
n
SbSnS xy
res
Resultado con Systat v. 11Análisis de regresión de cada grupo, Enalapril y Placebo
ENALAPRILDep Var: HB_GLIC N: 10 Multiple R: 0.843 Squared multiple R: 0.711 Adjusted squared multiple R: 0.675 Standard error of estimate: 0.548 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT 20.189 2.671 0.000 . 7.558 0.000PA -0.117 0.026 -0.843 1.000 -4.434 0.002
PLACEBODep Var: HB_GLIC N: 10 Multiple R: 0.523 Squared multiple R: 0.274 Adjusted squared multiple R: 0.183 Standard error of estimate: 0.987 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT 17.327 5.283 0.000 . 3.280 0.011PA -0.093 0.053 -0.523 1.000 -1.736 0.121
Resultado con Systat v. 11Comparando los dos grupos
Dep Var: HB_GLIC N: 20 Multiple R: 0.682 Squared multiple R: 0.464 Adjusted squared multiple R: 0.401 Standard error of estimate: 0.779 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT 18.659 2.774 0.000 . 6.727 0.000PA -0.106 0.028 -0.686 0.964 -3.797 0.001GRUPO1 0.455 0.355 0.232 0.964 1.283 0.217
Hipótesis nula
Las pendientes son iguales (bE = bP)
Los interceptos son iguales (aE = aP)
Las correlaciones son iguales (rE = rP)
Intervalo de confianza para la diferencia de dos pendientes
1. Calcular DS mezclada (pooled) residual según:
2. luego:
3. IC 95% =
4
)2()2(
21
222
211
nn
SnSnS resres
pool
222
211
21 )1(
1
)1(
1)(
xxpool SnSn
SbbSE
)( 212/121 bbSEtbb
Ecuación y correlación para los grupos PLACEBO y ENALAPRIL
Grupo PLACEBO:
Y=17,33 – 0,093X r = -0,523
Grupo ENALAPRIL:
Y=20,189 – 0,117X r = -0,843
Son las pendientes iguales?
098,0147,005774,012,2024,0
)(024,0
024,0093,0117,0
05774,0161,69
1
941,69
17982,0)(
7982,041010
987,0)210(548,0)210(
4
)2()2(
212/1
21
2221
21
222
211
a
bbSEt
bb
bbSE
S
S
nn
SnSnS
pool
pool
resrespool
Incluye 0 por lo tanto no hay dif significativa entre las pendientes
Análisis de Regresión Múltiple (RM)
MODEL CS = CONSTANT+BUFFER+VFS
ESTIMATE
Dep Var: CS N: 30 Multiple R: 0.033 Squared multiple R: 0.001
Adjusted squared multiple R: 0.0 Standard error of estimate: 8.540
Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)
CONSTANT 12.784 6.368 0.0 . 2.007 0.055
BUFFER 0.177 1.847 0.019 0.980 0.096 0.924
VFS -0.660 5.088 -0.025 0.980 -0.130 0.898
Analysis of Variance
Source Sum-of-Squares df Mean-Square F-ratio P
Regression 2.201 2 1.100 0.015 0.985
Residual 1969.166 27 72.932
-------------------------------------------------------------------------------
Regresión Logística
• Variable dependiente o de interés en el estudio: binaria (tiene infarto / no tiene inf.)
• En lugar de utilizar una combinación de variables exploratorias para predecir la variable dependiente como en RM, se predice una transformación de la variable dependiente
Variable binaria (0 / 1)
0 = No (No tuvo infarto)
1 = Si (Tuvo infarto)
El promedio de estos valores en una muestra en estudio es igual a la proporción de individuos con la característica.
0101111101
-------7/10=0,7
Modelo de regresión logística:
• Predecirá la proporción de sujetos con la característica de interés (o la probabilidad de un individuo de tener la característica) para cualquier combinación de las variables exploratorias en el modelo.
• Se utiliza una transformación de esta proporción ya que si no es imposible trabajar con valores fuera del rango de 0 a 1
Transformación
• Se llama logit (p) (p: proporción de individuos con la característica)
• p: proporción con infarto
• 1-p: proporción sin infarto
• Relación (odds): p / (1-p)
p
ppit e 1
log)(log
Hipertensión, tabaco, obesidad, ronquera(Norton y Dunn, 1985)
Fuma Obeso Ronca N Número de hombres con HipertensiónN (%)
0 0 0 60 5 (18)
1 0 0 17 2 (11)
0 1 0 8 1 (13)
1 1 0 2 0 (0)
0 0 1 187 35 (19)
1 0 1 85 13 (15)
0 1 1 51 15 (29)
1 1 1 23 8 (35)
Total 433 79 (18)
Análisis de RL de los datos de la tabla anterior
Parameter Estimates
Parameter Estimate Standard Error
Z p-value 95 % Confidence Interval
Lower Upper
1 CONSTANT -2.378 0.380 -6.254 0.000 -3.123 -1.633
2 FUMA -0.068 0.278 -0.244 0.807 -0.613 0.477
3 OBESIDAD 0.695 0.285 2.439 0.015 0.137 1.254
4 RONCA 0.872 0.398 2.193 0.028 0.093 1.651
Odds Ratio Estimates
Parameter Odds Ratio Standard Error
95 % Confidence Interval
Lower Upper
2 FUMA 0.934 0.260 0.542 1.612
3 OBESIDAD 2.004 0.571 1.146 3.505
4 RONCA 2.392 0.951 1.097 5.213
Receiver Operating Characteristic Curve
0.0 0.2 0.4 0.6 0.8 1.0
1 - Specificity
0.0
0.2
0.4
0.6
0.8
1.0
Se
nsi
tivity
Area under ROC Curve : 0.617
Análisis de RL de los datos de la tabla anterior SIN FUMAR
Parameter Estimates
Parameter Estimate Standard Error Z p-value 95 % Confidence Interval
Lower Upper
2 OBESIDAD 0.695 0.285 2.440 0.015 0.137 1.254
3 RONCA 0.865 0.397 2.182 0.029 0.088 1.643
Odds Ratio Estimates
Parameter Odds Ratio Standard Error
95 % Confidence Interval
Lower Upper
2 OBESIDAD 2.005 0.571 1.146 3.505
3 RONCA 2.376 0.943 1.092 5.170
Receiver Operating Characteristic Curve
0.0 0.2 0.4 0.6 0.8 1.0
1 - Specificity
0.0
0.2
0.4
0.6
0.8
1.0
Se
nsi
tivity
Area under ROC Curve : 0.609
ROC: Receiver Operating Curve
• Plot de la sensibilidad vs 1-especificidad para cada posible punto de corte, y unión de ellos.
• Si el “costo” de un resultado falso negativo es el mismo que del resultado de un falso positivo, la mejor zona de corte es aquella que maximiza la suma de la sensibilidad y especificidad, la cual es el punto más cerca al rincón superior izquierdo
Guía para análisis de regresión
Método Dependiente Independiente Propósito
Linear Continua Continua Describir extensión, dirección y fuerza de la relación entre dos variables.
Múltiple Continua Continua Describir extensión, dirección y fuerza de la relación entre varias variables independientes y una variable dependiente.
Logística Dicotómica Mezcla Determinar como una o más variables independientes están relacionadas a la probabilidad de ocurrencia de un posible resultado.
Poisson Discreta Mezcla Determinar como una o más variables independientes están relacionadas con el conteo de un posible resultado
Varianza Continua Nominales Describir relación entre una variable continua y una o más variables dependientes