6
 ESTADISTICA II Lic. MARTINEZ SANCHEZ, EDGAR REGRESION LINEAL SIMPLE INTRODUCCION El obj eti vo de este capítu lo, es est udi ar la aso cia ció n ent re dos vari abl es con oci da tambi én como aso ciación simpl e, sol o en for ma descr ipt iva. Este cap ítulo con tie ne la apli cación de los métod os descriptivos a muestras bivariantes cuantitativas, es decir muestras donde, en cada unidad estadística se observan dos características cuantitativas medible s X e Y por ejemplo, salarios y gastos mensuales. La primera forma del estudio de la asociación entre las variables Xe Y es denominada regresión, que consiste en determinar la relación funcional lineal recta de regresión! entre ellas, con el fin de predecir el valor de la variable en base a la otra. La variable que va a predecir se denomina variable dependiente y la variable que es la base de la predicción se denomina variable independiente. La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en determinar la variación conjunta de las dos variables , su grado o nivel de relación, y su sentido positivo o negativo!. La medida del nivel de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación se denomina coeficiente de determinación. En este capítulo reali"aremos un estudio descriptiva de la regresión lineal en el sentido que, la ecuación de regresión lineal que se calcula ser# v#lida, solo si $ay la seguridad de que e%iste un alto grado o nivel de correlación entre las variables medido por el coeficiente de determinación. DATOS Y GRAFICA DE DISPERSION Los datos de la regresión simple Los n dat os en parejas (  x 1 , y 1 ) , (  x 2 , y 2 ) , …, (  x n , y n )  son valores de la variable bidimensional X&Y!, dond e los  x 1  son los valores de la variable independiente X y los  y 1  son los valores de la variable independiente Y. Los métodos estadísticos descriptivos ya E'()*+*-' -/- L /E*+, L *esviación est#ndar, etc. 'on v#lidos en cada una de las dos variables. La estadística descriptiva nueva aquí es la covarian"a que mide la dispersión o variabili dad conjunta de los valores de las variabl es X,Y! con respecto a las medias  x ,   y .  dem#s, es posible, construir distribución de frecuencias conjunta de dos variables. 'i los datos de X se tabulan en r intervalos& +, y los datos de Y se tabulan en s intervalos& 0, se tendr# una distribución conjun ta de frecuencias que consiste de los intervalos +,0!, y frecuencia f. La grafia de dispersión Es frecuentemente posible visuali"ar el tipo de relación e%istente entre las dos variables X,Y! anali"ando la gr #fica en el pl an o cartesiano de los datos (  x 1 , y 1 ) , denominada gra fic a de dis per sión, o XY dispersión. La grafica indica la tendencia de la relación e%istente entre las dos variables. La orrela ión trata de establecer la relación o dependencia que e%iste entre las dos variables que intervienen en una distri!" ión !idimensional . Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables est#n correlacionadas o que $ay orrela ión entre ellas.

Regresion Lineal Martinez

Embed Size (px)

Citation preview

ESTADISTICA II Lic. MARTINEZ SANCHEZ, EDGARREGRESION LINEAL SIMPLEINTRODUCCIONEl objetivo de este captulo, es estudiar la asociacin entre dos variables conocida tambin como asociacin simple, solo en forma descriptiva. Este captulo contiene la aplicacin de los mtodos descriptivos a muestras bivariantes cuantitativas, es decir muestras donde, en cada unidad estadstica se observan dos caractersticas cuantitativas medibles X e Y por ejemplo, salarios y gastos mensuales.La primera forma del estudio de la asociacin entre las variables Xe Y es denominada regresin, que consiste en determinar la relacin funcional lineal (recta de regresin) entre ellas, con el fin de predecir el valor de la variable en base a la otra. La variable que va a predecir se denomina variable dependiente y la variable que es la base de la prediccin se denomina variable independiente.La segunda forma del estudio de la asociacin entre las variables X e Y, es denominada correlacin, que consiste en determinar la variacin conjunta de las dos variables, su grado o nivel de relacin, y su sentido (positivo o negativo). La medida del nivel de relacin se denomina coeficiente o ndice de correlacin. El cuadrado del ndice de correlacin se denomina coeficiente de determinacin.En este captulo realizaremos un estudio descriptiva de la regresin lineal en el sentido que, la ecuacin de regresin lineal que se calcula ser vlida, solo si hay la seguridad de que existe un alto grado o nivel de correlacin entre las variables medido por el coeficiente de determinacin.DATOS Y GRAFICA DE DISPERSIONLos datos de la regresin simpleLos n datos en parejas son valores de la variable bidimensional (X;Y), donde los son los valores de la variable independiente X y los son los valores de la variable independiente Y.Los mtodos estadsticos descriptivos ya ESTUDIADOS COMO LA MEDIA, LA Desviacin estndar, etc. Son vlidos en cada una de las dos variables. La estadstica descriptiva nueva aqu es la covarianza que mide la dispersin o variabilidad conjunta de los valores de las variables (X,Y) con respecto a las medias .Adems, es posible, construir distribucin de frecuencias conjunta de dos variables. Si los datos de X se tabulan en r intervalos; I, y los datos de Y se tabulan en s intervalos; J, se tendr una distribucin conjunta de frecuencias que consiste de los intervalos (I,J), y frecuencia f. La grafica de dispersinEs frecuentemente posible visualizar el tipo de relacin existente entre las dos variables (X,Y) analizando la grfica en el plano cartesiano de los datos , denominada grafica de dispersin, o XY dispersin. La grafica indica la tendencia de la relacin existente entre las dos variables.Lacorrelacintrata de establecer la relacin o dependencia que existe entre las dos variables que intervienen en unadistribucin bidimensional.Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que haycorrelacinentre ellas.

Tipos de correlacin1Correlacin directaLa correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.

2Correlacin inversaLa correlacin inversa se da cuando al aumentar una de las variables la otra disminuye.La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.

3Correlacin nulaLa correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Grado de correlacinElgrado de correlacinindica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:1.Correlacin fuerteLa correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.

2.Correlacin dbilLa correlacin ser dbil cuanto ms separados estn los puntos de la recta.

3.Correlacin nula

LA COVARIANZALacovarianzade una variable bidimensional es la media aritmtica de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.Lacovarianzase representa porsxyoxy.

COEFICIENTE DE CORRELACIN LINEALElcoeficiente de correlacin lineales el cociente entre lacovarianzay el producto de lasdesviaciones tpicasde ambas variables.Elcoeficiente de correlacin linealse expresa mediante la letrar.

PROPIEDADES1. Elcoeficiente de correlacinno vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara.2. El signo delcoeficiente de correlacines el mismo que el de lacovarianza.Si la covarianza es positiva, la correlacin es directa.Si la covarianza es negativa, la correlacin es inversa.Si la covarianza es nula, no existe correlacin.3.Elcoeficiente de correlacin lineales un nmero real comprendido entre 1 y 1.1 r 14.Si elcoeficiente de correlacin linealtoma valores cercanos a 1 la correlacin esfuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.5.Si elcoeficiente de correlacin linealtoma valores cercanos a 1 la correlacin esfuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.6.Si elcoeficiente de correlacin linealtoma valores cercanos a 0, la correlacin esdbil.7.Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables haydependencia funcional.RECTA DE REGRESIONLarecta de regresines la que mejor se ajusta a lanube de puntos.Larecta de regresinpasa por el puntollamadocentro de gravedad.Recta de regresin de Y sobre XLa recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X.Lapendientede la recta es el cociente entre la covarianza y la varianza de la variable X.

Recta de regresin de X sobre YLarecta de regresinde X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.Lapendientede la recta es el cociente entre la covarianza y la varianza de la variable Y.

COEFICIENTE DE VARIACION Y PUNTUACIONES TIPICASElcoeficiente de variacines la relacin entre ladesviacin tpicade una muestra y sumedia.Elcoeficiente de variacinse suele expresar enporcentajes:

Elcoeficiente de variacinpermite comparar lasdispersionesde dos distribuciones distintas, siempre que susmediasseanpositivas.PUNTUACIONES TPICASPuntuaciones diferencialesLaspuntuaciones diferencialesresultan derestarlesa laspuntuaciones directas la media aritmtica.xi= XiXPuntuaciones tpicasLaspuntuaciones tpicasson el resultado dedividirlaspuntuaciones diferencialesentre ladesviacin tpica. Este proceso se llamatipificacin.Laspuntuaciones tpicasse representan porz.

LA VARIANZALavarianzaes lamedia aritmtica del cuadrado de las desviaciones respecto a la mediade una distribucin estadstica.La varianza se representa por.

LA DESVIACION ESTANDAR O TIPICALadesviacin estndar o tpicaes laraz cuadrada de la varianza.Es decir, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin.Ladesviacin tpicase representa por.Ladesviacin tpicase representa por.

COEFICIENTE DE DETERMINACIONDenotado por se define como el cociente de la suma de cuadrados de regresin sobre la suma de cuadrados total.

PROBLEMAS DE APLICACIN1. Un centro comercial sabe en funcin de la distancia, en kilmetros, a la que se site de un ncleo de poblacin, acuden los clientes, en cientos, que figuran en la tabla:N de clientes (X)876421

Distancia (Y)151925233440

1.Calcular el coeficiente decorrelacin lineal.2.Si el centro comercial se sita a 2 km, cuntos clientes puede esperar?3.Si desea recibir a 500 clientes, a qu distancia del ncleo de poblacin debe situarse?2. A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y), determinar larecta de regresinde Y sobre X, el coeficiente de correlacin lineale interpretarlo.Horas (X)807983847860828579848062

Produccin (Y)300302315330300250300340315330310240

3. Una compaa desea hacer predicciones del valor anual de sus ventas totales en cierto pas a partir de la relacin de stas y la renta nacional. Para investigar la relacin cuenta con los siguientes datos:X189190208227239252257274293308316

Y402404412425429436440447458469469

X representa la renta nacional en millones de euros e Y representa las ventas de la compaa en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:1Larecta de regresinde Y sobre X.2Elcoeficiente de correlacin lineale interpretarlo.3Si en 2001 la renta nacional del pas fue de 325 millones de euros. Cul ser la prediccin para las ventas de la compaa en este ao?