34
3.1 - 1 Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión

Estadísticas Elemental Tema 3: Describir la relación … · asociación lineal entre precio y millaje? Comente sobre la relación entre las variables. b) Determine un modelo linear

Embed Size (px)

Citation preview

3.1 - 1

Estadísticas Elemental Tema 3: Describir la relación entre

dos variables: Correlación y regresión

3.1 - 2

Relación entre dos variables

© 2010 Pearson Prentice Hall. All rights reserved

4-2

Al estudiar conjuntos de variables con más de una

variable, una pregunta fundamental debe ser si

podemos utilizar el valor de una variable para predecir

el valor de alguna otra variable.

Ejemplos:

• ¿Existe una relación entre la estatura y el peso?

• ¿Existe una relación entre la dosis de un

medicamento y el tiempo de recuperación?

• ¿Existe una relación entre la tasa de criminalidad y

los cambios en la población?

3.1 - 3

Ejemplo

x 78 85 92 100 85

y 89 93 99 100 84

Examinemos un conjunto de datos con dos variables: x, y

¿Cuál es el objetivo del análisis si los datos fueron

tomados en los siguientes contextos?

a) Puntuaciones obtenidas por individuos antes y

después de un modelo particular de enseñanza.

a) Puntuaciones en un examen de razonamiento

matemático y el salario de comienzo de un empleado.

a) Puntuaciones obtenidas en un examen de admisión

universitaria por hombres y mujeres.

3.1 - 4

Correlación

Una correlación existe entre dos variables cuando los valores de una variable están relacionados, de alguna forma, con los valores de la otra.

Ejemplo: A medida que aumenta la puntuación en el tercer examen parcial de un curso, la puntuación en el final muestra una tendencia a subir.

El propósito de un análisis de correlación lineal es para determinar si existe una relación lineal entre dos conjuntos de variables.

3.1 - 5 © 2010 Pearson Prentice Hall. All rights reserved

4-5

Tipos de variables en un

experimento

• Variable respuesta

• variable bajo estudio;

• aquella variable cuyos cambios se desean

estudiar

• variable dependiente en el estudio

• Variable explicativa o predictora

• se estudian los efectos que tiene la variable

explicativa sobre la variable respuesta

• variable que manipula el investigador

• variable independiente en el experimento

3.1 - 6 4-6

© 2010 Pearson Prentice Hall. All rights reserved

6

Diagrama de dispersión

• El primer paso para identificar el tipo de relación que

puede existir entre dos variables es hacer un dibujo.

• Datos de dos variables pueden ser representados

gráficamente mediante un diagrama de dispersión.

• Diagrama de dispersion es una gráfica formada

localizando en el plano-xy los pares ordenados que

corresponden a las variables bajo estudio.

• Los valores de las variables se expresan como pares

ordenados (x, y);

x → variable explicativa (plano horizontal)

y → variable respuesta (plano vertical)

EJEMPLO Construir e interpretar un diagrama de dispersión

Source: Penner, R., and Watts, D.G. “Mining Information.” The American Statistician, Vol. 45, No. 1, Feb. 1991, p. 6.

4-7 © 2010 Pearson Prentice Hall. All rights

reserved

Los investigadores deseaban

determinar si el tiempo que se

necesita para perforar en seco una

distancia de 5 pies de roca

incrementa con la profundidad a la

que se comienza la perforación.

• La profundidad a la que comienza

la perforación es la variable

explicativa, x

• el tiempo (en minutos) para

perforar 5 pies es la variable de

respuesta, y.

Dibuje un diagrama de dispersión de

los datos.

4-8

EJEMPLO … Diagrama de dispersión TI-84 (cont)

Oprimir y entrar

los datos Oprimir y

configurar la gráfica

Oprimir y 9

3.1 - 9

Tipos de Relaciones en un

Diagrama de Dispersión

4-9

3.1 - 10 © 2010 Pearson Prentice Hall. All rights reserved

4-10

Correlación lineal

• Si a medida que los valores de la variable explicativa

aumentan los valores de la variable respuesta también

aumentan, entonces existe correlación positiva.

• Si a medida que los valores de la variable explicativa

aumentan los valores de la variable respuesta

disminuyen, entonces existe correlación negativa.

• Coeficiente de correlación lineal de una muestra (r)

es una medida de la fuerza y dirección de la relación

lineal entre dos variable cuantitativas (coeficiente de

correlación Pearson)

3.1 - 11 © 2010 Pearson Prentice Hall. All rights reserved

4-11

Coeficiente de correlación lineal de una muestra

3.1 - 12 © 2010 Pearson Prentice Hall. All rights reserved

4-12

Propiedades del Coeficiente de correlación lineal

3.1 - 13 © 2010 Pearson Prentice Hall. All rights reserved

4-13

Tipos de correlación

Determine el coeficiente de

correlación lineal de la data

sobre perforación en rocas

utilizando la TI 84.

4-14 © 2010 Pearson Prentice Hall. All rights

reserved

EJEMPLO Coeficiente de correlación lineal

4-15

EJEMPLO Coeficiente de correlación lineal TI-84 (cont.)

EJEMPLO ¿Existe una relación lineal?

Comente sobre el tipo de relación que existe entre la profundidad

a la cual se comienza a perforar y el tiempo que toma perforar 5

pies en la data sobre perforación en rocas. .

16 4-16 © 2010 Pearson Prentice Hall. All rights

reserved

EJEMPLO 2 ¿Existe una relación lineal?

Desde hace años, residentes de la ciudad de Nueva York han

estudiado la relación entre el alza en el costo de un pedazo de

pizza vendida en la calle y el costo de un viaje en el tren

subterráneo o autobus. La siguiente tabla presenta una muestra

aleatoria de estos costos.

Determine, manualmente, el coeficiente de correlación lineal

entre las variables. Comente sobre el tipo de relación que existe. .

17 4-17 © 2010 Pearson Prentice Hall. All rights

reserved

Año 1960 1973 1986 1995 2002 2003

Costo de un pedazo de pizza 0.15 0.35 1.00 1.25 1.75 2.00

Costo de un viaje en tren subterráneo o autobús

0.15 0.35 1.00 1.35 1.50 2.00

EJEMPLO ¿Existe una relación lineal?

Solución:

Para determinar el coeficiente de correlación, primero determina

las puntuaciones z de cada valor de las variables. .

18 4-18

x (Pizza) y (Tren) zx zy

0.15 0.15

0.35 0.35

1 1

1.25 1.35

1.75 1.5

2 2

Para determinar las puntuaciones z de cada valor de las

variables, necesitamos las medias y las desviaciones

estándares de las dos variables.

EJEMPLO ¿Existe una relación lineal?

19 4-19

x (Pizza) y (Tren) zx zy (zx)(zy)

0.15 0.15

0.35 0.35

1 1

1.25 1.35

1.75 1.5

2 2

x ̅= y ̅=

𝑠 = s =

𝑟 = 𝑧𝑥 ∙ 𝑧𝑦

𝑛 − 1

EJEMPLO ¿Existe una relación lineal?

Solución (continuación):

Interpretar el coeficiente de correlación.

.

20 4-20

3.1 - 21 © 2010 Pearson Prentice Hall. All rights reserved

• Regresión lineal simple es una técnica de análisis de datos que intenta identificar un patrón lineal en los datos.

• En la regresión lineal, se utilizan todos los datos para calcular una línea recta que se puede usar para predecir valores de la variable respuesta usando la variable explicativa.

Regressión lineal

3.1 - 22 © 2010 Pearson Prentice Hall. All rights reserved

• Dado dos variables que forman una colección de pares ordenados, la linea de regresión es la ecuación lineal que algebraicamente describe la relación entre las dos variables.

• La gráfica de la línea de regresión se conoce como la línea de mejor ajuste o la línea de mínimos cuadrados.

Regressión lineal

3.1 - 23

(a) Encuentre una ecuación lineal que relaciona x (la variable explicativa) con y, (la variable de respuesta) usando métodos algebraicos.

Usando la siguente muestra:

Primeramente,

debemos obtener un

diagrama de

dispersión para

examinar la

asociación de las

variables.

3.1 - 24

(a) Encuentre una ecuación lineal que relaciona x (la variable explicativa) con y, (la variable de respuesta) usando métodos algebraicos.

Use la siguente muestra:

24 4-24

Modelo: 𝑦 = mx + b donde

• x, 𝑦 representan las

variables estudiadas

• m es la pendiente de

modelo

• b es el intercepto en y

del modelo.

𝑚 =𝑦2 − 𝑦1

𝑥2 − 𝑥1

3.1 - 25

(b) Traza la gráfica de la ecuación sobre el diagrama de dispersión

(c) Use la ecuación para predecir y if x = 3.

4-25

Use la siguente muestra (cont.) :

3.1 - 26

} (3, 5.2)

La diferencia entre el valor observado de la variable respuesta y el valor estimado por el modelo de regresión, se conoce como error, o residual.

Ejemplo: residual = observado en y – estimado en y = 5.2 – 4.75 = 0.45

4-26

Valores residuales

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

La línea de regresión por mínimos cuadrados es la línea que minimiza los residuales.

(3, 0.45)

EJEMPLO Predecir peso del oso negro americano

Los datos muestran la longitud y el

peso de 10 osos blancos

americanos. Se quiere poder usar

el largo para predecir el peso.

(a) Construir un diagrama de

dispersión

(b) Encuentre la ecuación de la

línea de regresión por mínimos

usando la calculadora TI 84.

(c)Interprete la pendiente y el

intercepto en y del modelo.

4-27

4-28

Interpretación de la pendiente: • La pendiente de la línea de regresión es 1.69417. • Su interpretación es que para cada cm adicional de longitud,

el peso aumenta aproximadamente 1.69 kg, en promedio. Interpretación del intercepto en y: • El intercepto en y de la línea de regresión es -142. 471. • Para interpretar el intercepto en y, nos hacemos dos

preguntas: 1. ¿Es 0 un valor razonable para la variable explicativa? 2. ¿Existe alguna observación cerca de x=0 en el conjunto?

• Un valor de 0 NO es razonable en este problema ya que una longitud de 0 implica que el oso no existe.

• No podemos interpretar físicamente el intercepto en y en este problema.

Interpretación de la pendiente y el intercepto

en y de la línea de regresión

EJEMPLO Determinar el modelo de regresión lineal

Los siguientes datos son una

muestra de la altura de arboles y el

diámetro de su tronco

(a)Encuentre la línea de regresión

por mínimos cuadrados.

(b)Dibuje la línea de regresión por

mínimos cuadrados sobre el

diagrama de dispersión de los

datos.

(c)Interprete la pendiente y el

intercepto del modelo

(d)Predecir la altura de un árbol si

el diámetro de su tronco es 10

pulgadas.

4-29

Altura

del

arbol

(pies)

Diametro

del tronco

(pulg)

y x

35 8

49 9

27 7

33 6

60 13

21 7

45 11

51 12

EJEMPLO Determinar el modelo de regresión lineal

La siguiente tabla contiene datos

sobre el precio de la oferta ganadora

para 12 automóviles en eBay en julio

de 2002 y el millaje de cada uno.

.

a) Use la salida de la calculadora TI

84 que se presenta arriba para

determinar si existe una

asociación lineal entre precio y

millaje? Comente sobre la relación

entre las variables.

b) Determine un modelo linear para

la data. 4-30

c) Determine el valor

residual para el auto #7.

31

Ejemplo: • Según datos recopilados por El Resumen Estadístico de

Los Estados Unidos, la correlación entre el porcentaje de la población femenina con grados de bachillerato y el porcentaje de nacimientos a madres solteras desde 1990 es 0.940.

Cierto o Falso: Un porcentaje mayor de féminas con bachillerato causa un porcentaje mayor de madres solteras. • ¡Falso!

© 2010 Pearson Prentice Hall. All rights reserved

4-31

Diferencia entre correlación y

relación causal

32

Una correlación entre dos variables indica que los valores de las variables están asociados de alguna forma. Sin embargo la asociación matemática no implica, necesariamente, que una de las variables es una causa directa de la otra.

4-32

Diferencia entre correlación y relación causal

Ejemplo: Según datos recopilados por El Resumen Estadístico de Los Estados Unidos, la correlación entre el porcentaje de la población femenina con grados de bachillerato y el porcentaje de nacimientos a madres solteras desde 1990 es 0.940. Indique si el siguiente enunciado es cierto o falso: Un porcentaje mayor de féminas con bachillerato causa un porcentaje mayor de madres solteras.

33

El efecto de variables ocultas sobre dos variables puede provocar una correlación alta sin que haya una relación causal. Ejemplo: Se ha encontrado que la relación entre la venta de helado y la taza de criminalidad tiene una correlación positiva alta. Justificación • A medida que aumentan las temperaturas ambientales.

tanto la venta de helados como la criminalidad aumenta. • La variable “temperatura ambiental” afecta tanto la venta

de helado como la alza en criminalidad. • La variable “temperatura ambiental” se conoce como una

variable oculta.

4-33

Variables ocultas (“lurking variables”)

Si la línea de regresión por mínimos cuadrados se utiliza para hacer predicciones basadas en los valores de la variable explicativa que son mucho más grande o mucho más pequeño que los valores observados, decimos que el investigador está trabajando fuera del alcance del modelo. Nunca usamos una línea de regresión por mínimos cuadrados para hacer predicciones fuera del alcance del modelo, porque no podemos estar seguros de que la relación lineal sigue existiendo.

4-34

Usando el modelo de regresión