Upload
truongmien
View
218
Download
0
Embed Size (px)
Citation preview
3.1 - 1
Estadísticas Elemental Tema 3: Describir la relación entre
dos variables: Correlación y regresión
3.1 - 2
Relación entre dos variables
© 2010 Pearson Prentice Hall. All rights reserved
4-2
Al estudiar conjuntos de variables con más de una
variable, una pregunta fundamental debe ser si
podemos utilizar el valor de una variable para predecir
el valor de alguna otra variable.
Ejemplos:
• ¿Existe una relación entre la estatura y el peso?
• ¿Existe una relación entre la dosis de un
medicamento y el tiempo de recuperación?
• ¿Existe una relación entre la tasa de criminalidad y
los cambios en la población?
3.1 - 3
Ejemplo
x 78 85 92 100 85
y 89 93 99 100 84
Examinemos un conjunto de datos con dos variables: x, y
¿Cuál es el objetivo del análisis si los datos fueron
tomados en los siguientes contextos?
a) Puntuaciones obtenidas por individuos antes y
después de un modelo particular de enseñanza.
a) Puntuaciones en un examen de razonamiento
matemático y el salario de comienzo de un empleado.
a) Puntuaciones obtenidas en un examen de admisión
universitaria por hombres y mujeres.
3.1 - 4
Correlación
Una correlación existe entre dos variables cuando los valores de una variable están relacionados, de alguna forma, con los valores de la otra.
Ejemplo: A medida que aumenta la puntuación en el tercer examen parcial de un curso, la puntuación en el final muestra una tendencia a subir.
El propósito de un análisis de correlación lineal es para determinar si existe una relación lineal entre dos conjuntos de variables.
3.1 - 5 © 2010 Pearson Prentice Hall. All rights reserved
4-5
Tipos de variables en un
experimento
• Variable respuesta
• variable bajo estudio;
• aquella variable cuyos cambios se desean
estudiar
• variable dependiente en el estudio
• Variable explicativa o predictora
• se estudian los efectos que tiene la variable
explicativa sobre la variable respuesta
• variable que manipula el investigador
• variable independiente en el experimento
3.1 - 6 4-6
© 2010 Pearson Prentice Hall. All rights reserved
6
Diagrama de dispersión
• El primer paso para identificar el tipo de relación que
puede existir entre dos variables es hacer un dibujo.
• Datos de dos variables pueden ser representados
gráficamente mediante un diagrama de dispersión.
• Diagrama de dispersion es una gráfica formada
localizando en el plano-xy los pares ordenados que
corresponden a las variables bajo estudio.
• Los valores de las variables se expresan como pares
ordenados (x, y);
x → variable explicativa (plano horizontal)
y → variable respuesta (plano vertical)
EJEMPLO Construir e interpretar un diagrama de dispersión
Source: Penner, R., and Watts, D.G. “Mining Information.” The American Statistician, Vol. 45, No. 1, Feb. 1991, p. 6.
4-7 © 2010 Pearson Prentice Hall. All rights
reserved
Los investigadores deseaban
determinar si el tiempo que se
necesita para perforar en seco una
distancia de 5 pies de roca
incrementa con la profundidad a la
que se comienza la perforación.
• La profundidad a la que comienza
la perforación es la variable
explicativa, x
• el tiempo (en minutos) para
perforar 5 pies es la variable de
respuesta, y.
Dibuje un diagrama de dispersión de
los datos.
4-8
EJEMPLO … Diagrama de dispersión TI-84 (cont)
Oprimir y entrar
los datos Oprimir y
configurar la gráfica
Oprimir y 9
3.1 - 10 © 2010 Pearson Prentice Hall. All rights reserved
4-10
Correlación lineal
• Si a medida que los valores de la variable explicativa
aumentan los valores de la variable respuesta también
aumentan, entonces existe correlación positiva.
• Si a medida que los valores de la variable explicativa
aumentan los valores de la variable respuesta
disminuyen, entonces existe correlación negativa.
• Coeficiente de correlación lineal de una muestra (r)
es una medida de la fuerza y dirección de la relación
lineal entre dos variable cuantitativas (coeficiente de
correlación Pearson)
3.1 - 11 © 2010 Pearson Prentice Hall. All rights reserved
4-11
Coeficiente de correlación lineal de una muestra
3.1 - 12 © 2010 Pearson Prentice Hall. All rights reserved
4-12
Propiedades del Coeficiente de correlación lineal
Determine el coeficiente de
correlación lineal de la data
sobre perforación en rocas
utilizando la TI 84.
4-14 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO Coeficiente de correlación lineal
EJEMPLO ¿Existe una relación lineal?
Comente sobre el tipo de relación que existe entre la profundidad
a la cual se comienza a perforar y el tiempo que toma perforar 5
pies en la data sobre perforación en rocas. .
16 4-16 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO 2 ¿Existe una relación lineal?
Desde hace años, residentes de la ciudad de Nueva York han
estudiado la relación entre el alza en el costo de un pedazo de
pizza vendida en la calle y el costo de un viaje en el tren
subterráneo o autobus. La siguiente tabla presenta una muestra
aleatoria de estos costos.
Determine, manualmente, el coeficiente de correlación lineal
entre las variables. Comente sobre el tipo de relación que existe. .
17 4-17 © 2010 Pearson Prentice Hall. All rights
reserved
Año 1960 1973 1986 1995 2002 2003
Costo de un pedazo de pizza 0.15 0.35 1.00 1.25 1.75 2.00
Costo de un viaje en tren subterráneo o autobús
0.15 0.35 1.00 1.35 1.50 2.00
EJEMPLO ¿Existe una relación lineal?
Solución:
Para determinar el coeficiente de correlación, primero determina
las puntuaciones z de cada valor de las variables. .
18 4-18
x (Pizza) y (Tren) zx zy
0.15 0.15
0.35 0.35
1 1
1.25 1.35
1.75 1.5
2 2
Para determinar las puntuaciones z de cada valor de las
variables, necesitamos las medias y las desviaciones
estándares de las dos variables.
EJEMPLO ¿Existe una relación lineal?
19 4-19
x (Pizza) y (Tren) zx zy (zx)(zy)
0.15 0.15
0.35 0.35
1 1
1.25 1.35
1.75 1.5
2 2
x ̅= y ̅=
𝑠 = s =
𝑟 = 𝑧𝑥 ∙ 𝑧𝑦
𝑛 − 1
EJEMPLO ¿Existe una relación lineal?
Solución (continuación):
Interpretar el coeficiente de correlación.
.
20 4-20
3.1 - 21 © 2010 Pearson Prentice Hall. All rights reserved
• Regresión lineal simple es una técnica de análisis de datos que intenta identificar un patrón lineal en los datos.
• En la regresión lineal, se utilizan todos los datos para calcular una línea recta que se puede usar para predecir valores de la variable respuesta usando la variable explicativa.
Regressión lineal
3.1 - 22 © 2010 Pearson Prentice Hall. All rights reserved
• Dado dos variables que forman una colección de pares ordenados, la linea de regresión es la ecuación lineal que algebraicamente describe la relación entre las dos variables.
• La gráfica de la línea de regresión se conoce como la línea de mejor ajuste o la línea de mínimos cuadrados.
Regressión lineal
3.1 - 23
(a) Encuentre una ecuación lineal que relaciona x (la variable explicativa) con y, (la variable de respuesta) usando métodos algebraicos.
Usando la siguente muestra:
Primeramente,
debemos obtener un
diagrama de
dispersión para
examinar la
asociación de las
variables.
3.1 - 24
(a) Encuentre una ecuación lineal que relaciona x (la variable explicativa) con y, (la variable de respuesta) usando métodos algebraicos.
Use la siguente muestra:
24 4-24
Modelo: 𝑦 = mx + b donde
• x, 𝑦 representan las
variables estudiadas
• m es la pendiente de
modelo
• b es el intercepto en y
del modelo.
𝑚 =𝑦2 − 𝑦1
𝑥2 − 𝑥1
3.1 - 25
(b) Traza la gráfica de la ecuación sobre el diagrama de dispersión
(c) Use la ecuación para predecir y if x = 3.
4-25
Use la siguente muestra (cont.) :
3.1 - 26
} (3, 5.2)
La diferencia entre el valor observado de la variable respuesta y el valor estimado por el modelo de regresión, se conoce como error, o residual.
Ejemplo: residual = observado en y – estimado en y = 5.2 – 4.75 = 0.45
4-26
Valores residuales
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7
La línea de regresión por mínimos cuadrados es la línea que minimiza los residuales.
(3, 0.45)
EJEMPLO Predecir peso del oso negro americano
Los datos muestran la longitud y el
peso de 10 osos blancos
americanos. Se quiere poder usar
el largo para predecir el peso.
(a) Construir un diagrama de
dispersión
(b) Encuentre la ecuación de la
línea de regresión por mínimos
usando la calculadora TI 84.
(c)Interprete la pendiente y el
intercepto en y del modelo.
4-27
4-28
Interpretación de la pendiente: • La pendiente de la línea de regresión es 1.69417. • Su interpretación es que para cada cm adicional de longitud,
el peso aumenta aproximadamente 1.69 kg, en promedio. Interpretación del intercepto en y: • El intercepto en y de la línea de regresión es -142. 471. • Para interpretar el intercepto en y, nos hacemos dos
preguntas: 1. ¿Es 0 un valor razonable para la variable explicativa? 2. ¿Existe alguna observación cerca de x=0 en el conjunto?
• Un valor de 0 NO es razonable en este problema ya que una longitud de 0 implica que el oso no existe.
• No podemos interpretar físicamente el intercepto en y en este problema.
Interpretación de la pendiente y el intercepto
en y de la línea de regresión
EJEMPLO Determinar el modelo de regresión lineal
Los siguientes datos son una
muestra de la altura de arboles y el
diámetro de su tronco
(a)Encuentre la línea de regresión
por mínimos cuadrados.
(b)Dibuje la línea de regresión por
mínimos cuadrados sobre el
diagrama de dispersión de los
datos.
(c)Interprete la pendiente y el
intercepto del modelo
(d)Predecir la altura de un árbol si
el diámetro de su tronco es 10
pulgadas.
4-29
Altura
del
arbol
(pies)
Diametro
del tronco
(pulg)
y x
35 8
49 9
27 7
33 6
60 13
21 7
45 11
51 12
EJEMPLO Determinar el modelo de regresión lineal
La siguiente tabla contiene datos
sobre el precio de la oferta ganadora
para 12 automóviles en eBay en julio
de 2002 y el millaje de cada uno.
.
a) Use la salida de la calculadora TI
84 que se presenta arriba para
determinar si existe una
asociación lineal entre precio y
millaje? Comente sobre la relación
entre las variables.
b) Determine un modelo linear para
la data. 4-30
c) Determine el valor
residual para el auto #7.
31
Ejemplo: • Según datos recopilados por El Resumen Estadístico de
Los Estados Unidos, la correlación entre el porcentaje de la población femenina con grados de bachillerato y el porcentaje de nacimientos a madres solteras desde 1990 es 0.940.
Cierto o Falso: Un porcentaje mayor de féminas con bachillerato causa un porcentaje mayor de madres solteras. • ¡Falso!
© 2010 Pearson Prentice Hall. All rights reserved
4-31
Diferencia entre correlación y
relación causal
32
Una correlación entre dos variables indica que los valores de las variables están asociados de alguna forma. Sin embargo la asociación matemática no implica, necesariamente, que una de las variables es una causa directa de la otra.
4-32
Diferencia entre correlación y relación causal
Ejemplo: Según datos recopilados por El Resumen Estadístico de Los Estados Unidos, la correlación entre el porcentaje de la población femenina con grados de bachillerato y el porcentaje de nacimientos a madres solteras desde 1990 es 0.940. Indique si el siguiente enunciado es cierto o falso: Un porcentaje mayor de féminas con bachillerato causa un porcentaje mayor de madres solteras.
33
El efecto de variables ocultas sobre dos variables puede provocar una correlación alta sin que haya una relación causal. Ejemplo: Se ha encontrado que la relación entre la venta de helado y la taza de criminalidad tiene una correlación positiva alta. Justificación • A medida que aumentan las temperaturas ambientales.
tanto la venta de helados como la criminalidad aumenta. • La variable “temperatura ambiental” afecta tanto la venta
de helado como la alza en criminalidad. • La variable “temperatura ambiental” se conoce como una
variable oculta.
4-33
Variables ocultas (“lurking variables”)
Si la línea de regresión por mínimos cuadrados se utiliza para hacer predicciones basadas en los valores de la variable explicativa que son mucho más grande o mucho más pequeño que los valores observados, decimos que el investigador está trabajando fuera del alcance del modelo. Nunca usamos una línea de regresión por mínimos cuadrados para hacer predicciones fuera del alcance del modelo, porque no podemos estar seguros de que la relación lineal sigue existiendo.
4-34
Usando el modelo de regresión