REGRESION LINEAL SIMPLE
Se dispone de una muestra de observaciones formadas por pares de
variables: (x1, y1), (x2, y2) ....(xn, yn)
A través de esta muestra, se desea estudiar la relación existente
entre las dos variables X e Y.
Es posible representar estas observaciones mediante un gráfico de
dispersión, como el anterior.
También se puede expresar el grado de asociación mediante
algunos indicadores, que se verán a continuación.
MEDIDAS DE ASOCIACION DE VARIABLES
Covarianza entre las variables X e Y. Es una medida de la variación conjunta.
Se define como:
Puede tomar valores positivos o negativos.
xyii Sn
yyxxn
YX1
))((1
),cov(
Covarianza positiva, significa que ambas variables tienden a variar de la
misma forma, hay una asociación positiva.
Negativa, significa que si una aumenta, la otra tiende a disminuir, y vice versa.
Covarianza cercana a cero indica que no hay asociación entre las variables.
Ejemplo 1
DATOS DEL CLUB DE SALUD
Datos correspondientes a 20 empleados del club de salud de una empresa
X pulsasiones or minuto en reposo
Y tiempo en correr 1 milla ( reg)
Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"
obs X Y
1 67 481
2 52 292
3 56 357
4 66 396
5 65 345
6 80 469
7 77 425
8 65 393
9 68 346
10 66 401
11 70 267
12 59 368
13 58 295
14 52 391
15 64 487
16 72 481
17 57 374
18 59 367
19 70 469
20 63 252
Promedios: 64,3 382,8
Calcularemos la covarianza entre estas dos variables
Covarianza
Valores centrados y productos:
obs X-64,3 Y-382,8 prod
1 2,7 98,2 265,14
2 -12,3 -90,8 1116,84
3 -8,3 -25,8 214,14
4 1,7 13,2 22,44
5 0,7 -37,8 -26,46
6 15,7 86,2 1353,34
7 12,7 42,2 535,94
8 0,7 10,2 7,14
9 3,7 -36,8 -136,16
10 1,7 18,2 30,94
11 5,7 -115,8 -660,06
12 -5,3 -14,8 78,44
13 -6,3 -87,8 553,14
14 -12,3 8,2 -100,86
15 -0,3 104,2 -31,26
16 7,7 98,2 756,14
17 -7,3 -8,8 64,24
18 -5,3 -15,8 83,74
19 5,7 86,2 491,34
20 -1,3 -130,8 170,04
Promedio : 239,41
La covarianza entre las
variables X e Y es igual a 239,41
Coeficiente de correlación lineal.
La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a
partir de él es difícil juzgar si es grande o pequeña.
Se define la correlación, que es una medida de asociación lineal independiente de
las unidades de medida.
Es igual a la covarianza dividida por las desviaciones standard.
Coeficiente de correlación lineal.
La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir
de él es difícil juzgar si es grande o pequeña.
Se define la correlación, que es una medida de asociación lineal independiente de las
unidades de medida:
Es igual a la covarianza dividida por las desviaciones estándar:
yyxx
xy
ii
ii
SS
S
yyxx
yyxx
dsYdsX
YXYXcorr
22 )()(
))((
*
),cov(),(
El valor de la correlación entre cualquier par de variables es un
número entre -1 y 1. n valor alto de correlación no indica que
existe alguna relación de causa-efecto entre las variables.
Ejemplo (continuación)
Coeficiente de Correlación
Se deben calcular las desviaciones standard.
Para ello se deben elevar al cuadrado las observaciones centradas
y promediar, obteniéndose las varianzas.
Las desviaciones standard son las raíces cuadradas de éstas.
cuadrados de
obs X-64,3 Y-382,8
1 7,3 9643,2
2 151,3 8244,6
3 68,9 665,6
4 2,9 174,2
5 0,5 1428,8
6 246,5 7430,4
7 161,3 1780,8
8 0,5 104,0
9 13,7 1354,2
10 2,9 331,2
11 32,5 13409,6
12 28,1 219,0
13 39,7 7708,8
14 151,3 67,2
15 0,1 10857,6
16 59,3 9643,2
17 53,3 77,4
18 28,1 249,6
19 32,5 7430,4
20 1,7 17108,6
Promedios : 54,11 4896,46
(varianzas)
Las desviaciones standard son
dsX = 7,36 ds Y = 69,97
Para obtener las correlaciones se debe
dividir la covarianza por las desviaciones standard:
corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) = 0,465
El siguiente es un gráfico de dispersión que muestra estos datos.
Club de Salud
0
100
200
300
400
500
600
0 20 40 60 80 100
Pulsaciones por minuto
Tie
mp
o e
n r
eco
rre
r 1
mil
la
La interpretación del coeficiente de correlación puede ilustrarse
mediante los siguientes gráficos.
REGRESION LINEAL SIMPLE
Ahora asumiremos que si hay una relación de causalidad de la variable X
(causa) hacia la variable Y (efecto).
Además, se sabe que esa relación es de tipo lineal, dentro del rango de los
datos.
Estableceremos un modelo para explicar la causa (Y) en términos del efecto
(X), del tipo siguiente:
para i = 1,2,..., n
en que a y b son dos cantidades fijas (parámetros del modelo) y los
ei son cantidades aleatorias que representan las diferencias entre lo
que postula el modelo y lo que realmente se observa, y.
Por esa razón a los e los llamaremos "errores" o "errores aleatorios".
Se asume que tienen valor esperado 0 y desviación estándar común .
iii ebXaY
Ejemplo 2 Venta de automóviles
Se piensa que si aumentan el porcentaje de comisión pagada
al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)
obs X Y
1 3.6 11.28
2 5.2 14.74
3 5.3 18.46
4 7.3 20.01
5 5.0 12.43
6 5.2 15.37
7 3.0 9.59
8 3.1 11.26
9 3.2 8.05
10 7.5 27.91
11 8.3 24.62
12 6.1 18.80
13 4.9 13.87
14 5.8 12.11
15 7.1 23.68
Representación de los datos en un gráfico de dispersión:
Ganancias netas versus comisiones
0.00
5.00
10.00
15.00
20.00
25.00
30.00
0.0 2.0 4.0 6.0 8.0 10.0
comisión (%)
Gan
anci
as (M
M$)
Se puede apreciar la relación lineal existente entre ambas variables observadas.
Nuestro problema es estimar los parámetros a, b y para poder identificar el
modelo.
Para estimar a y b se utiliza el método de Mínimos cuadrados, que consiste en
encontrar aquellos valores de a y de b que hagan mínima la suma de los
cuadrados de las desviaciones de las observaciones respecto de la recta que
representa el modelo, en el sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma de
cuadrados se debe minimizar, para determinar a y b.
Estos segmentos representan los errores e del modelo. b se llama pendiente de la
recta que representa los datos y a se llama intercepto sobre el eje vertical.
xx
xy
i
ii
S
S
xx
yyxxb
2)(
))((
xbya
La solución está dada por las siguientes fórmulas:
Ejemplo 2 (continuación)
Calculamos los promedios de ambas variables y se las restamos a los valores.
Promedio de la X : 5.4
Promedio de la Y : 16.1Desviaciones respecto de las medias, sus cuadrados y productos:
obs X-5.4 Y-16.1 cuadrados prod.
1 -1.8 -4.9 3.1 23.7 8.6
2 -0.2 -1.4 0.0 2.0 0.2
3 -0.1 2.3 0.0 5.3 -0.2
4 1.9 3.9 3.7 14.9 7.4
5 -0.4 -3.7 0.1 13.8 1.4
6 -0.2 -0.8 0.0 0.6 0.1
7 -2.4 -6.6 5.6 42.9 15.6
8 -2.3 -4.9 5.2 23.8 11.1
9 -2.2 -8.1 4.7 65.6 17.6
10 2.1 11.8 4.5 138.5 25.0
11 2.9 8.5 8.6 71.8 24.8
12 0.7 2.7 0.5 7.0 1.9
13 -0.5 -2.3 0.2 5.2 1.1
14 0.4 -4.0 0.2 16.3 -1.7
15 1.7 7.5 3.0 56.8 13.0
sumas 0.0 0.0 39.6 488.3 126.1
Sxx Syy Sxy
Entonces utilizando las fórmulas de arriba,
b = 3.18 a = -0.96
El modelo, para estos datos, es
para i=1,2,.. 15
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su
pendiente es 3.18, o sea, si el porcentaje de comisión X aumenta en 1%, la
ganancia neta Y aumenta en 3.18 Millones de pesos.
iii eXY 18,396.0
Ganancias netas versus comisiones
-5.00
0.00
5.00
10.00
15.00
20.00
25.00
30.00
0.0 2.0 4.0 6.0 8.0 10.0
comisión (%)
Gana
ncia
s (M
M$)
Gráfico de los datos:
Ejemplo 2 (continuación)
La tabla siguiente contiene los valores de Y ajustados , para cada valor de X,
además de los valores de Y observados, a modo de comparación. Los ajustados se
obtienen por la fórmula.
obs X Y Yajust. dif
1 3.6 11.28 10.50 0.78
2 5.2 14.74 15.59 -0.85
3 5.3 18.46 15.91 2.54
4 7.3 20.01 22.28 -2.27
5 5.0 12.43 14.96 -2.52
6 5.2 15.37 15.59 -0.23
7 3.0 9.59 8.59 1.00
8 3.1 11.26 8.91 2.36
9 3.2 8.05 9.23 -1.18
10 7.5 27.91 22.92 5.00
11 8.3 24.62 25.46 -0.84
12 6.1 18.80 18.46 0.34
13 4.9 13.87 14.64 -0.77
14 5.8 12.11 17.50 -5.40
15 7.1 23.68 21.64 2.04
promedio 5.4 16.1 16.1 0.00
ii XY 18.396.0
Se puede observar que el promedio de los valores ajustados es igual al
promedio de los valores observados, y que el promedio de las diferencias es
cero.
Con la suma de los cuadrados de las diferencias 𝑦𝑖 − 𝑦 , es una estimación
de la varianza del error, 𝑆𝑌 .
Coeficiente de determinación.
Es una medida de bondad de ajuste del modelos de regresión lineal a los
datos.
Es deseable que los valores de Y ajustados al modelo, sean lo más parecidos
posible a los valores observados.
Una medida de lo parecido que son, es el coeficiente de correlación.
Se define el coeficiente de determinación, 𝑅2 , como el cuadrado del
coeficiente de correlación entre los valores de Y observados y los valores de
Y ajustados.
Sin embargo se puede demostrar que es igual a la siguiente expresión:
El rango de 𝑅2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los
puntos aparecen en un línea recta).
22
22
2
)()(
))((
yyxx
yyxx
SS
SR
ii
ii
yyxx
xy
Ejemplo 2 (continuación)
Más arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes
valores:
Sxx = 39.6 , Syy = 488.3 , Sxy = 126.1
Entonces el coeficiente de determinación es
que señala que el ajuste del modelo a los datos es bueno.
82.03.488*6.39
)1.126( 22 R
Errores de Y (llamado error de correlación), Intercepto y de la Pendiente
Error de Y
𝑆𝑌 = 𝑌𝑖−𝑌 2𝑛
𝑖=1
𝑛−2
Error del Intercepto
𝑆𝑎 = 𝑆𝑌1
𝑛+
𝑋 2
𝑋𝑖−𝑋 2𝑛𝑖=1
Error de la Pendiente
𝑆𝑏 =𝑆𝑌
𝑋𝑖−𝑋 2𝑛𝑖=1
Ejemplo 2 (continuación)
𝑌𝑖 − 𝑌 2𝑛
𝑖=1 = 87,0364 𝑆𝑦 =87,0364
15−2= 2,59
𝑆𝑏 =2,59
39,6=0,41
𝑆𝑎 = 2,591
15+
5,4 2
39,6 =2,32
La ecuación se colca así: (𝑌𝑖 ± 2,59) = 3,18 ± 0,41 𝑋 − (9,6 ± 2,32)
¿Cual será el valor de 𝑥𝑖 con su error para Y=12,43?
Investigar teoría de errores
Intervalo de confianza para la
pendiente
𝑏 ± 𝑡∝2, 𝑛−2
𝑆𝑏
Prueba con el estadístico t de Student
𝑡 = 𝑟𝑛 − 2
1 − 𝑟2
Para el ejemplo 2.
b = 3,18 y 𝑆𝑏 = 0,41 𝑡∝2, 𝑛−2
= 2,16
3,18±2,16𝑥0,41
El rango será: 4,31 a 2,29 α= 0,05
Para comprobar si hay relación
𝐻0: 𝜌 = 0
𝐻1: 𝜌 ≠ 0
Si tc > tcrítico , se rechaza la hipótesis nula para α= 0,05
𝑡𝑐 = 0,905(15−2)
(1−0,82)= 7,69
Como el 𝑡𝑐 > 𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 se rechaza
𝐻0
Conclusión: hay una buena relación
entre las variables