64
Estad´ ıstica Grado en Nutrici´ on Humana y Diet´ etica Tema 2: Modelos de regresi´ on estad´ ıstica Francisco M. Oca˜ na Peinado http://www.ugr.es/local/fmocan Departamento de Estad´ ıstica e Investigaci´ on Operativa Francisco M. Oca˜ na Peinado (UGR) TEMA 2 Curso 2017/2018 1 / 64

Estad stica Grado en Nutrici on Humana y Diet eticafmocan/NHD/TEMA2.pdf · Tema 2: Modelos de regresion estad stica 1 Introduccion 2 Asociacion y causalidad 3 Criterio de m nimos

Embed Size (px)

Citation preview

EstadısticaGrado en Nutricion Humana y Dietetica

Tema 2: Modelos de regresion estadıstica

Francisco M. Ocana Peinadohttp://www.ugr.es/local/fmocan

Departamento de Estadıstica e Investigacion Operativa

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 1 / 64

Tema 2: Modelos de regresion estadıstica

1 Introduccion

2 Asociacion y causalidad

3 Criterio de mınimos cuadrados

4 Regresion polinomica

5 Regresion no polinomica

6 Prediccion: interpolacion y extrapolacion

7 Problemas

8 Bibliografıa

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 2 / 64

Introduccion

Orıgenes del termino Regresion

Galton y Pearson a finales del siglo XIX: trabajaron con mas de 1.000 registrospara establecer relaciones entre alturas de padres e hijos

Galton establecio la ley de regresion universal: Cada peculiaridad en un hombrees compartida por sus descendientes, pero en media, en un grado menor

Conclusion de Pearson

Altura del hijo = 85 cm + 0.5 · Altura del padre (aprox.)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 3 / 64

Introduccion

Objetivo en regresion

Obtener una funcion matematica sencilla que describa el comportamiento esperadode una variable (denominada variable dependiente o variable explicada) dados losvalores de otra u otras variables (denominadas variables independientes o explica-tivas)

Tipos de regresion

Segun el numero de variables independientes:

Regresion simple: con una unica variable independiente

Ej: Expresar el colesterol en funcion del consumo de grasas

Regresion multiple: con varias variables independientes

Ej: Expresar el colesterol en funcion del consumo de grasas y de la edad

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 4 / 64

Introduccion

Tipos de regresion simple

Segun el papel que juega cada variable:

Regresion de Y sobre X , se representa como Regresion Y /X , si Y es lavariable dependiente y X es la variable independiente ⇒ Y = f (X )

Regresion de X sobre Y , se representa como Regresion X/Y , si X es lavariable dependiente e Y es la variable independiente ⇒ X = g(Y )

Regresion simple Y /X

El problema es obtener una funcion matematica que exprese Y en funcion de X apartir de n pares de observaciones (x1, y1), . . . , (xn, yn)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 5 / 64

Asociacion y causalidad

Asociacion y causa-efecto

La asociacion entre dos variables (X e Y ) no implica necesariamente que una sea lacausa de la otra, debiendo venir la demostracion de su causalidad de otras fuentesno matematicas

Causas de asociacion entre variables

A que el valor de X sea realmente la causa del valor de Y

A que ambas variables X e Y , se influyen mutuamente

A que ambas variables X e Y , dependen de una causa comun

A que exista una dependencia entre X e Y fruto de la casualidad (dependenciaal azar o correlacion espuria)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 6 / 64

Correlacion no implica causalidad

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 7 / 64

Correlacion no implica causalidad

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 8 / 64

Correlacion no implica causalidad

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 9 / 64

¿Como seleccionar el tipo de funcion deregresion?

Aspecto clave en regresion simple

Seleccion del tipo de funcion matematica a utilizar:

Regresion Y /X donde Y = f (X ) ⇒ ¿Como seleccionar f ?

Funciones de regresion a estudiar

Polinomicas:

Polinomio de grado 1 (Recta)Polinomio de grado 2 (Parabola)

No polinomicas: Exponencial, Potencial, Logarıtmica, Hiperbolica yMichaeliana

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 10 / 64

¿Como seleccionar el tipo de funcion deregresion?

Diagrama de dispersion

Importante: Representar graficamente un conjunto de datos antes de analizar-los

Muy conveniente construir el conocido como diagrama de dispersion o nubede puntos

Representacion en R2, del conjunto de puntos {(xi , yi )}i=1,2,...,n

Observar la tendencia de los puntos y pensar que tipo de funcion puede recogerbien esa tendencia

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 11 / 64

Diagramas de dispersion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 12 / 64

¿Como calcular los coeficientes de f ensentido optimo?

Criterio de mınimos cuadrados (CMC)

Idea: De entre todas las posibles funciones de un determinado tipo, se deseahallar los coeficientes de tal forma que el ajuste de la funcion a los datos seael mejor posible

CMC: Calcular la combinacion de los coeficientes de regresion que hagamınima la suma de los cuadrados de las diferencias entre los valores observadosy la funcion de regresion

Minimizar la siguiente cantidad:

n∑i=1

[yi − f (xi )]2 =n∑

i=1

e2i

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 13 / 64

Criterio de mınimos cuadrados

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 14 / 64

Varianza residual

Varianza residual

Necesidad de evaluar la bondad del ajuste:

s2e =

1

n

n∑i=1

[yi − f (xi )]2 =1

n

n∑i=1

e2i

s2e acotada y no negativa

0 ≤ s2e ≤ s2

y

s2e permite hacer comparativa entre varias funciones de regresion

Inconveniente: Medida absoluta y no permite decidir a partir de que valoreses suficientemente pequena o grande para admitir que se tiene un buen o unmal ajuste.

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 15 / 64

Comparar funciones de regresion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 16 / 64

Regresion polinomica

Regresion polinomica

Regresion simple Y /X de tipo polinomica:

y = f (x) = a0 + a1x + a2x2 + a3x3 + . . . + apxp

Casos a estudiar:

p = 1 ⇒ Regresion lineal:

y = f (x) = a0 + a1x

p = 2 ⇒ Regresion parabolica:

y = f (x) = a0 + a1x + a2x2

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 17 / 64

Regresion lineal

Regresion lineal

Regresion lineal simple Y /X : y = f (x) = a + bx

Interpretacion coeficientes:

a, ordenada en el origen: representa el valor que toma la variable dependientecuando la independiente toma el valor 0

b, pendiente de la recta: incremento en la variable dependiente cuando lavariable independiente aumenta una unidad

¿Como calcular a y b?

Aplicando C.M.C. ⇒ Minimizar:

n∑i=1

[yi − f (xi )]2 =n∑

i=1

[yi − a− bxi ]2 = F (a, b)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 18 / 64

Regresion lineal

CMC en regresion lineal

Sistema de ecuaciones normales

F ′a = −2n∑

i=1

[yi − a− bxi ] = 0⇔

⇔n∑

i=1

[yi − a− bxi ] = 0⇔n∑

i=1

yi − na− bn∑

i=1

xi = 0

F ′b = −2n∑

i=1

[yi − a− bxi ]xi = 0⇔

⇔n∑

i=1

[yi − a− bxi ]xi = 0⇔n∑

i=1

xiyi − an∑

i=1

xi − bn∑

i=1

x2i = 0

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 19 / 64

Regresion lineal

CMC en regresion lineal

Solucion del sistema b =sxys2x

a = y − bx

Resumen

Recta Y /X y = a + bx ⇒ b =sxys2x

a = y − bx

Recta X/Y x = c + dy ⇒ d =sxys2y

c = x − dy

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 20 / 64

Regresion lineal

Propiedades de las rectas de regresion

El punto de corte de las dos rectas de regresion es el punto (x , y),denominado centro de gravedad

Ambas rectas tienen pendientes de igual signo, que es el signo de la sxy , porlo que las 2 rectas seran crecientes en el caso de dependencia directa entrelas variables, o decrecientes en el caso de dependencia inversa

En caso de independencia entre las variables, (sxy = 0), las ecuaciones de larecta quedarıan reducidas a las rectas x = x y la recta y = y

En el caso de que r = ±1 (habrıa dependencia lineal exacta), las dos rectasde regresion estarıan superpuestas (serıan coincidentes), y recıprocamente

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 21 / 64

Regresion lineal

Calculo de s2e en regresion lineal

s2e =

1

n

n∑i=1

[yi − f (xi )]2

Desarrollandon∑

i=1

[yi − f (xi )]2 se tiene que:

s2e = s2

y −s2xy

s2x

= s2y − r 2s2

y = s2y (1− r 2)

por lo que:

s2e = s2

y (1− r 2)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 22 / 64

Regresion lineal

Coeficiente de determinacion

Coeficiente de determinacion, R2: cuadrado del coeficiente de correlacion⇒ r 2 = R2

Solventar los inconvenientes de s2e

0 ≤ R2 ≤ 1 , es adimensional y frecuentemente aparece expresado enporcentaje

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 23 / 64

Regresion lineal

R2: Interpretacion

A partir de s2e = s2

y (1− R2), se tiene que:

(i) R2 = 1− s2e

s2y

(ii) s2e ≤ s2

y

Cuanto menor sea la correlacion lineal, entonces:

n∑i=1

e2i elevada ⇒ s2

e elevada ⇒ s2e∼= s2

y ⇒ R2 ∼= 0

Cuanto mayor sea la correlacion lineal, entonces:

n∑i=1

[yi − f (xi )]2 pequena ⇒ s2e pequena ⇒ s2

e

s2y

∼= 0 ⇒ R2 ∼= 1

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 24 / 64

Regresion lineal

R2: Interpretacion

Cuanto mas se acerca a 1 mejor es el ajuste lineal, y cuanto mas se acerque a 0, peor esla bondad del ajuste. Si R2 toma sus valores extremos:

R2 = 1, se tendra que s2e = 0 ⇒ todos los puntos estan sobre la recta. Habrıa una

relacion funcional perfecta.

R2 = 0, se tendra que s2e = s2

y ⇒ la recta no explica nada de la variacion total dela variable Y .

Consideraciones acerca de R2

R2 unicamente mide el grado de ajuste, pero no implica que la recta tenga buencaracter predicitivo

R2 proximo a 1 puede ser una recta con poder predictivo inadecuado

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 25 / 64

Regresion lineal

Consideraciones acerca de R2

X1 Y1 X2 Y2 X3 Y3 X4 Y4

10 8.04 10 9.14 10 7.46 8 6.588 6.95 8 8.14 8 6.77 8 5.76

13 7.58 13 8.74 13 12.74 8 7.719 8.81 9 8.77 9 7.11 8 8.84

11 8.33 11 9.26 11 7.81 8 8.4714 9.96 14 8.1 14 8.84 8 7.046 7.24 6 6.13 6 6.08 8 5.254 4.26 4 3.1 4 5.39 19 12.5

12 10.84 12 9.13 12 8.15 8 5.567 4.82 7 7.26 7 6.42 8 7.915 5.68 5 4.74 5 5.73 8 6.8

Ajuste y valor de R2

En los 4 casos R2 = 0.6655 Recta y = 0.5 + 3x

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 26 / 64

Cuarteto de Anscombe

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 27 / 64

Regresion parabolica

Funcion de regresion parabolica

Regresion Y /X y = f (x) = a0 + a1x + a2x2

CMC en regresion parabolica

Resolver el sistema para hallar a0, a1, a2:

na0 + a1

n∑i=1

xi + a2

n∑i=1

x2i =

n∑i=1

yi

a0

n∑i=1

xi + a1

n∑i=1

x2i + a2

n∑i=1

x3i =

n∑i=1

xiyi

a0

n∑i=1

x2i + a1

n∑i=1

x3i + a2

n∑i=1

x4i =

n∑i=1

x2i yi

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 28 / 64

Regresion no polinomica

Funciones de regresion a estudiar

Exponencial: f (x) = y = aebx (a > 0 , yi > 0)

Potencial: f (x) = y = axb (a > 0 , xi > 0 , yi > 0)

Logarıtmica: f (x) = y = a + blnx (xi > 0)

Hiperbolica: f (x) = y = a + bx (xi 6= 0)

Michaeliana: f (x) = y =ax

x + b(xi 6= 0 , yi 6= 0)

Linealizacion

Minimizarn∑

i=1

[yi− f (xi )]2 conduce a sistemas irresolubles por metodos directos, por

lo que se linealizaran las diferentes ecuaciones

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 29 / 64

Regresion exponencial

Funcion de regresion a ajustar

y = aebx (a > 0 , yi > 0)

0

50

100

150

200

250

300

0 5 10 15 20 25 30 35

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 30 / 64

Regresion exponencial

Linealizacion

y = aebx ⇒ lny︸︷︷︸y∗

= ln(aebx) = lna︸︷︷︸A

+bx ⇒ y∗ = A + bx

Por tanto:

Se resuelve la regresion lineal y∗/X :

b =sxy∗

s2x

A = y∗ − bx

Se deshace el cambio que afecto al coeficiente a:

lna = A⇒ a = eA

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 31 / 64

Regresion potencial

Funcion de regresion a ajustar

y = axb (a > 0 , xi > 0 , yi > 0)

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

0 5 10 15 20 25 30 35

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 32 / 64

Regresion potencial

Linealizacion

y = axb ⇒ lny︸︷︷︸y∗

= ln(axb) = lna︸︷︷︸A

+b lnx︸︷︷︸x∗

⇒ y∗ = A + bx∗

Por tanto:

Se resuelve la regresion lineal y∗/x∗ :

b =sx∗y∗

s2x∗

A = y∗ − bx∗

Se deshace el cambio que afecto al coeficiente a:

lna = A⇒ a = eA

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 33 / 64

Regresion logarıtmica

Funcion de regresion a ajustar

y = a + blnx (xi > 0)

0

2

4

6

8

10

12

14

16

0 5 10 15 20 25 30 35

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 34 / 64

Regresion logarıtmica

Linealizacion

y = a + blnx ⇒ y = a + b lnx︸︷︷︸x∗

⇒ y = a + bx∗

Por tanto:

Se resuelve la regresion lineal Y /x∗ :

b =sx∗y

s2x∗

a = y − bx∗

Los cambios no afectaron a los coeficientes a y b

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 35 / 64

Regresion hiperbolica

Funcion de regresion a ajustar

y = a + bx (xi 6= 0)

5,75

6

6,25

6,5

6,75

7

7,25

7,5

7,75

8

8,25

0 5 10 15 20 25 30 35

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 36 / 64

Regresion hiperbolica

Linealizacion

y = a +b

x⇒ y = a + b

1

x︸︷︷︸x∗

⇒ y = a + bx∗

Por tanto:

Se resuelve la regresion lineal Y /x∗ (en este caso x∗ =1

x):

b =sx∗y

s2x∗

a = y − bx∗

Los cambios no afectaron a los coeficientes a y b

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 37 / 64

Regresion Michaelis-Menten

Funcion de regresion a ajustar

y =ax

x + b(xi 6= 0 yi 6= 0)

2

2,5

3

0

0,5

1

1,5

0 2 4 6 8 10 12

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 38 / 64

Regresion Michaelis-Menten

Linealizacion

y =ax

x + b⇒ 1

y︸︷︷︸y∗

=x + b

ax=

1

a︸︷︷︸A

+b

a︸︷︷︸B

1

x︸︷︷︸x∗

⇒ y∗ = A + Bx∗

Por tanto:

Se resuelve la regresion lineal y∗/x∗ :

B =sx∗y∗

s2x∗

A = y∗ − Bx∗

Se deshacen los cambios que afectaron a los coeficientes a y b:

b = aB a =1

A

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 39 / 64

Prediccion

Prediccion: interpolacion y extrapolacion

Consiste en determinar, a partir de la funcion de regresion seleccionada, elvalor de la variable dependiente para un valor dado de la variable independiente

Una de las mas importantes aplicaciones de la regresion

2 tipos:

Cuando la estimacion se hace para un valor de la variable independientesituado dentro de su rango observado se demonina interpolacionCuando la estimacion se hace para un valor de la variable independientesituado fuera de su rango observado se demonina extrapolacion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 40 / 64

Riesgo al extrapolar

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 41 / 64

Ejercicio 13

Cant. Sal Tension Arterial Cant. Sal Tension Arterial

4.1 115.1 4.6 118.14.4 115.2 4.4 115.35.1 118.5 4.4 116.15.2 120.9 4.5 116.13.2 112.9 2.6 109.93.3 113.1 2.9 111.63.3 113.7 5.5 1223.9 113.8 2.3 109.13.9 114.3 3.2 111.64.5 116.8 3.2 112.3

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 42 / 64

Ejercicio 13

(a) Si el objetivo del estudio es expresar matematicamente la tension arterial enfuncion de la cantidad de sal consumida, identifique el papel de las variablesen el analisis de regresion

(b) Estudie la posible correlacion existente entre ambas variables

(c) Determine por mınimos cuadrados la recta que mejor se ajuste a las obser-vaciones dadas y la varianza residual. Obtenga e interprete el coeficiente dedeterminacion

(d) Compare la regresion lineal con las regresiones estudiadas de tipo no polinomico.Razone si existe alguna funcion no polinomica que mejore a la regresion lineal

(e) Obtenga una estimacion de la tension arterial para un paciente con cantidadde sal consumida diaria de 4.8 gramos

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 43 / 64

Ejercicio 13: papel de las variables

La variable dependiente es la variable objetivo en la investigacion, sera la Tensionarterial, siendo la variable independiente la Cantidad de sal consumida.

Por tanto, y siguiendo la notacion del caso de regresion de Y /X , se tendrıa que:

Y ≡ Tension arterial X ≡ Cantidad de sal consumida

El estudio sera por ello en el sentido siguiente:

Y = f (X )⇒ Tension arterial = f (Cantidad de sal consumida)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 44 / 64

Ejercicio 13: diagrama dispersion

114,5

116,5

118,5

120,5

122,5

TE

NS

IÓN

AR

TE

RIA

L

106,5

108,5

110,5

112,5

114,5

2 2,5 3 3,5 4 4,5 5 5,5

TE

NS

IÓN

AR

TE

RIA

L

CANTIDAD DE SAL

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 45 / 64

Ejercicio 13: calculo de r

Se calcula el coeficiente de correlacion lineal:

Para el calculo de r , se necesitan los valores de sxy y las dos varianzas s2x y s2

y .Para el calculo de las varianzas, tambien es necesario el calculo de las medias. Losresultados son:

sxy = 2.7683 s2x = 0.7559 s2

y = 10.7785 x = 3.925 y = 114.85

por lo que r = 0.9698.

La interpretacion serıa que existe fuerte correlacion lineal directa entre lasvariables, puesto que el valor obtenido sea acerca al valor maximo de lacorrelacion directa, que es el valor 1.

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 46 / 64

Ejercicio 13: rectas de regresion

Recta Y /X : y = a + bx . Teniendo en cuenta los resultados del anterior apartadose tiene que:

b =2.7683

0.7559= 3.6623 a = y − bx = 100.4754

La mejor recta de entre todas las posibles para expresar la Tension arterial enfuncion de la Cantidad de sal es:

Tension arterial = 100.4754 + 3.6623 · Cantidad de sal consumida

R2 se obtiene como el cuadrado del coeficiente de correlacion r , por lo que se

tiene que R2 = 0.9406

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 47 / 64

Ejercicio 13: interpretacion de R2

Interpretacion de R2

La recta de regresion calculada se ajusta en un porcentaje del 94.06% a losdatos observados

R2 = 94.06% representa el porcentaje de la variabilidad de la Tensionarterial que es explicado por la variable Cantidad de sal consumida

La varianza residual s2e en el caso de la regresion lineal se calcula como:

s2e = s2

y (1− R2) = 10.7785(1− 0.9406) = 0.6403

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 48 / 64

Ejercicio 13: regresion potencial

Se ajustan las funciones no polinomicas y se calculan sus varianzas residuales. Enel caso de la regresion potencial:

y = axb ⇒ lny︸︷︷︸y∗

= ln(axb) = lna︸︷︷︸A

+b lnx︸︷︷︸x∗

⇒ y∗ = A + bx∗

xi yi y∗i x∗

i x∗2

i x∗i y

∗i

4.1 115.1 4.7458 1.411 1.9909 6.690634.4 115.2 4.7467 1.4816 2.1952 7.03275.1 118.5 4.7749 1.6292 2.6544 7.77955.2 120.9 4.795 1.6487 2.7181 7.9053

......

......

......

......

......

......

3.2 112.3 4.7212 1.1632 1.3529 5.4914

94.8644 26.825 37.0629 127.3637

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 49 / 64

Ejercicio 13: regresion potencial

A partir de los datos de la tabla se calculan las medidas estadısticas en laregresion y∗/x∗:

x∗ = 1.3413 y∗ = 4.7432 sx∗y∗ = 0.0064 s2x∗ = 0.0541

Se determinan los coeficientes de la funcion potencial, A y b:

b =Sx∗y∗

s2x∗

=0.0064

0.0541= 0.1167

A = y∗ − bx∗ = 4.7432− 0.1167 · 1.3413 = 4.5866

por lo que la funcion potencial ajustada es:

a = eA = e4.5866 = 98.1585⇒ y = 98.1585x0.1167

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 50 / 64

Ejercicio 13: regresion potencial

Calculo de s2e : se calculan las predicciones y las diferencias al cuadrado entre las

observaciones y los valores predichos.

xi yi f (xi ) [yi − f (xi )]2

4.1 115.1 115.7422 0.41244.4 115.2 116.7006 2.25195.1 118.5 118.7302 0.05305.2 120.9 118.9997 3.6110

......

......

......

......

3.2 112.3 112.4402 0.0197

19.3237

Se obtiene que s2e = 0.9661, por lo que se concluye que el ajuste potencial no

mejora al lineal

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 51 / 64

Trabajo autonomo

El alumno debe obtener los restantes ajustes no polinomicos, y sus varianzasresiduales asociadas:

Exponencial: y = 101.3289e0.0318x con s2e = 0.6078

Logarıtmica: y = 96.8531 + 13.4181 lnx con s2e = 1.0226

Hiperbolica: y = 127.2038− 45.9388/x con s2e = 1.6403

Michaelis-Menten: y =128.6402x

x + 0.4499con s2

e = 1.4906

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 52 / 64

Ejercicio 13: prediccion

Para llevar a cabo la estimacion, se usara la funcion exponencial, que es la quemejor representa la tendencia de las observaciones.

Para X = 4.8, se tiene que el valor predicho de Y es:

y(4.8) = 101.3289e0.0318·4.8 = 118.0435 mm. Hg

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 53 / 64

Ajuste lineal y exponencial

y = 3,6623x + 100,4754

114,5

116,5

118,5

120,5

122,5

TEN

SIÓ

N A

RTE

RIA

L

y = 101,3289e0,0318x

106,5

108,5

110,5

112,5

114,5

2 2,5 3 3,5 4 4,5 5 5,5

TEN

SIÓ

N A

RTE

RIA

L

CANTIDAD DE SAL

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 54 / 64

Ejercicio 14

Paıs Tasa Mort. Cancer Mama Grasa animal Grasa vegetalJapan 5.2 38.1 41.8Greece 14.3 57.9 88Spain 14.1 64.2 64.9

Poland 14 91.3 25.2Portugal 14.5 48 54.7Finland 14.9 107.8 25.5

Italy 18.5 70.1 65.8Ireland 26.9 106.8 34.7Austria 18.7 101.9 70.3

United Kingdom 28.1 97 44.3Netherlands 26.5 127.1 55.6

Belgium 26 125.3 52.4Denmark 24.5 132.2 36.3

New Zealand 24 129.2 26.8Switzerland 23.1 109.7 47.5

Israel 23.5 45.8 61.4Canada 23.5 102.3 50.9

United States 21.8 101.1 65.7Germany 20.2 99.9 45France 18.3 108.5 46.3Sweden 18.3 110.4 41.8Norway 19 91.5 52.9

Australia 18.3 73.6 27.9Chile 11.8 27.8 26.3

Venezuela 9.1 32.7 32.1

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 55 / 64

Diagrama de dispersion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 56 / 64

Diagrama de dispersion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 57 / 64

Ejercicio 14

(a) A partir de los graficos, comente cual es la relacion que existe entre el consumo degrasas de origen y animal y vegetal y la tasa de mortalidad por cancer de mama.¿En que casos tendrıa sentido plantear el analisis de regresion?

(b) Obtenga y comente las medidas estadısticas apropiadas que validen las conclusionesdel apartado anterior.

(c) En el caso de la regresion con las variables consumo de grasa animal y tasa demortalidad por cancer de mama, obtenga la ecuacion de la recta que relacionaambas variables, ası como las medidas de bondad de ajuste.

(d) ¿En que medida la variacion existente entre paıses en la tasa de mortalidad de cancerde mama es explicada por el consumo de grasa animal?

(e) Estudie si serıa preferible una funcion de tipo exponencial a la lineal calculada en elapartado (c).

(f) Si se sabe que en China el consumo de grasa animal al dıa per capita es de 47gramos, realice una estimacion de la tasa de mortalidad de cancer de mama.

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 58 / 64

Ejercicio 14: soluciones

Soluciones:

(b) r = 0.7287 cuando se estudia la asociacion entre la tasa de mortalidad decancer de mama y el consumo de grasa animal. r = 0.09001 cuando se estudiala asociacion entre la tasa de mortalidad de cancer de mama y el consumo degrasa vegetal

(c) y = 7.2303 + 0.1346x con R2 = 53.1126% y s2e = 15.4239

(d) En un porcentaje del 53.1126%

(e) y = 8.3369e0.0088x con s2e = 16.318

(f) y(47) = 13.5607

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 59 / 64

Ejercicio 15

Paıs Consumo Fruta y Verdura % de Muertes por cancer colonAustria 413 2.5Belgium 343 3Bulgaria 280 3.4

Czech Republic 309 2.9Denmark 316 3.1Estonia 359 2.9Finland 256 3.9France 342 3.1

Germany 442 2.9Greece 425 2.6

Netherlands 300 3Hungary 371 3.2Ireland 350 3Iceland 196 4.8

Italy 452 2.1Luxembourg 425 2.7

Norway 259 3.4Poland 577 2.3

Portugal 305 3.5Romania 298 3.2

Spain 275 3.7Slovakia 280 3Sweden 237 3

United Kingdom 258 3.3

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 60 / 64

Diagrama de dispersion

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 61 / 64

Ejercicio 15

(a) A partir del diagrama de dispersion, comente cual es la relacion que existe entre elporcentaje de muertes debidas a cancer de colon y el consumo de fruta y verdura.¿Tendrıa sentido el analisis de regresion en este caso? Razone las respuestas.

(b) Obtenga y comente las medidas estadısticas apropiadas que validen las conclusionesdel apartado anterior.

(c) Obtenga la ecuacion de la recta que exprese la relacion existente entre el porcentajede muertes debidas a cancer de colon y el consumo de fruta y verdura, ası como lasmedidas de bondad de ajuste.

(d) ¿En que medida la variacion existente entre paıses en la el porcentaje de mortalidadpor cancer de colon es explicada por el consumo de fruta y verdura?

(e) Estudie si serıa preferible una funcion de tipo potencial o logarıtmica a la linealcalculada en el apartado (c).

(f) Si se sabe que en Canada el consumo de fruta y verdura al dıa per capita es de600 gramos, obtenga una estimacion del porcentaje de muertes por cacer de colon.Comente la fiabilidad de dicha estimacion.

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 62 / 64

Ejercicio 15: soluciones

Soluciones:

(b) r = −0.784033 indica correlacion lineal en sentido inverso en un grado mod-eradamente alto.

(c) y = 4.7835 + 0.0005x con R2 = 61.4708% y s2e = 0.1103

(d) En un porcentaje del 61.4708%

(e) y = 89.013x−0.5822 con s2e = 0.0859

y = 13.7139− 1.8329 lnx con s2e = 0.0926

(f) y(600) = 2.14748

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 63 / 64

Bibliografıa

Alvarez R. (2007): Estadıstica aplicada a las Ciencias de la Salud. Dıaz delos Santos, Madrid (2007). (Capıtulo XIX)

Martın-Andres A. y Luna del Castillo J.D. (2004): Bioestadıstica para lasciencias de la Salud. Norma, Madrid. (Capıtulo XII)

Milton J.S. (2007): Estadıstica para Biologıa y Ciencias de la Salud. 3a

edicion ampliada. McGraw-Hill Interamericana, Madrid. (Capıtulo XI)

Pena D. (2002): Regresion y Diseno de Experimentos. Alianza Editorial,Madrid.

Valderrama M.J. (2011): Biometrıa. Ediciones Sider, Granada. (Capıtulo II)

Francisco M. Ocana Peinado (UGR) TEMA 2 Curso 2017/2018 64 / 64