View
3
Download
0
Category
Preview:
Citation preview
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Estadística Bayesiana
Modelos de regresión
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2017-1
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaModelo de regresión lineal
Modelo de regresión lineal
El objetivo es describir el comportamiento de una variable
respuesta y en función de k variables predictoras x1, · · · , xk .Se de�ne el valor de la media de yi como:
E (Yi |β,X) = β0 + β1xi1 + · · ·+ βkxik i = 1, · · · , n
Si xi = (1, xi1, · · · , xik) y β = (β0, · · · , βk)T entonces:
E (Yi |β,X) = xiβ y Var (Yi |β,X) = σ2
Se asume que los errores son independientes con distribución
normal cuya media es cero y varianza σ2.
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Modelo de regresión lineal bayesianoValidación del modelo
Modelo de regresión lineal bayesiano
Se asume a priori una distribución no informativa:
f(β, σ2
)∝ 1
σ2
La distribución condicional para β dado σ2:
β|σ2, y ∼ N(β, σ2Vβ
)donde:
β =(XTX
)−1
XTy Vβ =(XTX
)−1
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Modelo de regresión lineal bayesianoValidación del modelo
Modelo de regresión lineal bayesiano
Se puede probar que:
σ2|y ∼ χ2 − inversa de escala(n − k − 1, s2
)donde:
s2 =1
n − k − 1
(y − Xβ
)T (y − Xβ
)La distribución predictiva posterior es:
f (y |y) =
¨f(y |β, σ2
)f(β, σ2|y
)dβdσ2
El proceso de estimación bayesiano del modelo de regresión se
realiza usando el proceso de simulación.
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Modelo de regresión lineal bayesianoValidación del modelo
Validación del modelo
Uno de los métodos para validar el modelo usa la distribución
predictiva posterior.
Se simulan varias muestras y1, · · · , yn de la distribución
predictiva posterior con los mismos vectores de variables
independientes usados para simular la data.
Se observará la posición relativa de yi con respecto a la
distribución de los valores simulados de yi .
Si yi se encuentra hacia alguno de los extremos signi�ca que es
un outlier potencial.
Se puede resumir cada distribución predictiva usando los
cuantiles 5 y 95 para luego unir sus valores con una línea.
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Modelo de regresión lineal bayesianoValidación del modelo
Validación del modelo
Un segundo método para validar el modelo está basado en el
uso de los residuales bayesianos.
Se sabe que:
εi ∼ N(0, σ2
)donde εi = yi − xiβ
La probabilidad a priori que yi sea un outlier es:
Pr(|εi | > kσ) = 2Φ(−k)
donde Φ es la función de distribución acumulada de la normal
estándar.
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliaria
Modelo de regresión lineal bayesianoValidación del modelo
Validación del modelo
La probabilidad posterior que yi sea un outlier es:
pi = Pr(|εi | > kσ|y) =
ˆ(1− Φ(z1) + Φ(z2))f (σ2|y)dσ2
Las funciones z1 y z2 son:
z1 =(k − εi/σ)√
1− hiiz2 =
(−k − εi/σ)√1− hii
donde εi = yi − xi β y hii es el i−ésimo valor leverage.
Las probabilidades posteriores pueden ser gra�cadas con cada
una de las variables independientes para detectar la presencia
de outliers.
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
La empresa inmobiliaria Omega desea hallar un modelo de
regresión para Y = precio de un departamento en función de
las variables: X1 = área construída (metros cuadrados), X2 =
distancia al centro comercial (cientos de metros) y X3=
antiguedad (años).
Omega quiere estimar el precio promedio de los departamentos
para las siguientes combinaciones:
Combinación Area Distancia Antiguedad
A 200 8 0
B 150 8 0
C 200 10 1
D 150 10 1
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Matriz de dispersión
> library(LearnBayes)> attach(Departamentos)> pairs(Departamentos)
Estimación por mínimos cuadrados
> modelo1 <- lm(Precio ~ Area + Distancia + Antiguedad, x=T,y=T)> modelo1Coe�cients:(Intercept) Area Distancia Antiguedad75.7293 0.2847 0.9182 -3.3766
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Figura 1: Matriz de dispersión
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Simulación de la distribución conjunta posterior
> theta <- blinreg(modelo1$y, modelo1$x, 5000)> par(mfrow=c(2,2))> hist(theta$beta[,2], main="Area", xlab=expression(beta[1]))> hist(theta$beta[,3], main="Distancia",xlab=expression(beta[2]))> hist(theta$beta[,4], main="Antiguedad",xlab=expression(beta[3]))> hist(theta$sigma^2, main="Varianza",xlab=expression(sigma^2))
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Figura 2: Histograma para los parámetros simulados a posteriori
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Estimación puntual para los parámetros
> apply(theta$beta, 2, median)X(Intercept) XArea XDistancia XAntiguedad76.2935948 0.2837807 0.9171693 -3.4235057
Combinación de las variables predictivas
> xA <- c(1, 200, 8, 0)> xB <- c(1, 150, 8, 0)> xC <- c(1, 200, 10, 1)> xD <- c(1, 150, 10, 1)> X <- rbind(xA, xB, xC, xD)
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Simulación del precio promedio
> media.precio <- blinregexpected(X, theta)> par(mfrow=c(2,2))> hist(media.precio[,1],main="xA",xlab="Precio")> hist(media.precio[,2],main="xB",xlab="Precio")> hist(media.precio[,3],main="xC",xlab="Precio")> hist(media.precio[,4],main="xD",xlab="Precio")
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Figura 3: Histograma para el precio promedio simulado
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Simulación de la distribución predictiva del precio
> pred.precio <- blinregpred(X,theta)> par(mfrow=c(2,2))> hist(pred.precio[,1],main="xA",xlab="Precio")> hist(pred.precio[,2],main="xB",xlab="Precio")> hist(pred.precio[,3],main="xC",xlab="Precio")> hist(pred.precio[,4],main="xD",xlab="Precio")
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Figura 4: Histograma de la distribución predictiva del precio
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Distribución predictiva para validar el modelo
> pred.precio.X <- blinregpred(modelo1$x,theta)> cuantil.pred.precio.X <- apply(pred.precio.X, 2, quantile,c(0.05,0.95))
Probabilidades posteriores
> prob.outlier <- bayesresiduals(modelo1, theta, k=2)
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Ejemplo: Empresa inmobiliaria
Grá�cos para validar el modelo
> par(mfrow=c(2,2))> obsv <- 1:length(Precio)> matplot(rbind(obsv,obsv), cuantil.pred.precio.X, type="l",lty=1, col=1, xlab="Observaciones",ylab="Precio")> points(obsv, Precio, pch=19)> plot(Area,prob.outlier)> plot(Distancia,prob.outlier)> plot(Antiguedad,prob.outlier)
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
IntroducciónModelo de regresión lineal bayesiano
Ejemplo: Empresa inmobiliariaEjemplo: Empresa inmobiliaria
Empresa inmobiliaria
Figura 5: Grá�cos para validar el modelo
Ms Carlos López de Castilla Vásquez Estadística Bayesiana
Recommended