analisis de Correlacion y Regresion

Embed Size (px)

DESCRIPTION

correlacion y regression

Citation preview

Captulo13 Secciones

Anlisis de

Introduccin

correlacin y13.1Correlacin lineal.

13.2 Regresin lineal.

regresin13.3Regresin no lineal (funciones

13.4intrnsecamente lineales).

Regresin multilineal.

Antecedentes

Intervalos de confianza Pruebas de hiptesisFunciones lineal, exponencial, potencial, logartmica, recproca y polinomial.

Objetivos

Proporcionar elementos para

Construir e interpretar diagramas de dispersin

Calcular e interpretar, en el contexto propio, el coeficiente de correlacin r de Pearson

Hacer e interpretar inferencias sobre el coeficiente de correlacin r de Pearson entre dos variables

Calcular e interpretar la recta de regresin por mnimos cuadrados para una muestra de puntos dados

Hacer inferencias sobre la estimacin y los parmetros de la recta de regresin.

Identificar y transformar en lineales las funciones intrnsecamente lineales ms comunes.

Calcular e interpretar la regresin multilineal.

Introduccin

En los cursos de geometra, lgebra y otros que el lector haya tomado, generalmente la relacin entre las variables es de tipo determinista; es decir, dado un valor de una de las variables, el valor de la otra variable se determina automticamente y, podra decirse, sin error. Ejemplos tpicos son las frmulas geomtricas y expresiones del tipo C = 400 + 0.10k , donde C es el costo de renta de una automvil y k los kilmetros recorridos.

En estadstica estamos interesados en relaciones entre variables aleatorias y, por lo tanto, una de las variables no queda determinada por completo por otra u otras variables. As, expresiones como P = 5E 190 que dan la relacin entre el peso P de un hombre (en libras) y

1

El anlisis de regresin puede tambin dar lugar a una funcin del tipo

y = f (x, z,v)

para describir la relacin entre varias variables (ver seccin 13.4)

su estatura E (en pulgadas) para una cierta poblacin, son relaciones estadsticas en donde se espera obtener slo estimaciones.

Las relaciones estadsticas se obtienen mediante una primera fase de exploracin conocida como anlisis de correlacin. Consiste en analizar los datos muestrales para saber el grado de asociacin o correlacin entre dos o ms variables de una poblacin. El grado de correlacin se expresa como un nmero comprendido entre -1 y +1 y se le conoce como coeficiente de correlacin.Como corresponde a un estudio exploratorio, el anlisis de correlacin no es un fin en s mismo sino que su objetivo es establecer la pertinencia de la segunda fase o anlisis de regresin. Este da lugar a una funcin y = f (x) que describe estadsticamente la asociacin o relacin entre las variables en estudio y, por tanto, su fin no es calcular sin error sino obtener predicciones del valor de una variable, para un valor dado de la otra variable.Debido a que los clculos para el coeficiente de correlacin y los parmetros que definen la funcin se basan en una muestra aleatoria, se espera que varen de una muestra a otra (tal como la media vara de una muestra a otra). Esto plantea preguntas de significancia del coeficiente de correlacin, de los parmetros de la funcin y de los valores de prediccin obtenidos con ella. Tales preguntas son respondidas mediante intervalos de confianza y pruebas de hiptesis; esto es, mediante anlisis inferencial.

Ventana al conocimiento 1

Un disco Secchi es un disco de 8 pulgadas con cuadrantes pintados de blanco y negro alternativamente. Se ata a una cuerda marcada en centmetros. Se sumerge en el agua (de lagos, ros o mares) hasta no ser visible al observador. La lectura observada en la cuerda es conocida como profundidad Secchi y es una medida de la transparencia del agua. La transparencia del agua se ve afectada por el color, las algas y sedimentos suspendidos. Las algas son pequeas plantas acuticas cuya abundancia est asociada a la cantidad de nutrientes, especialmente fsforo y nitrgeno. Los lagos y los ros se monitorean regularmente, tomando muestras en puntos elegidos aleatoriamente, para establecer la calidad del agua. En cada una de las muestras se determina la profundidad Secchi y algunos parmetros como clorofila a, nitrgeno total, carbn orgnico, fsforo total, slidos totales suspendidos, conductividad especfica y densidad total. Los resultados (variables) as obtenidos son de naturaleza aleatoria.

http://dipin.kent.edu/images/Secchi%20Disk.jpg

2

13.1 Correlacin lineal

Se empieza el estudio de correlacin con el caso ms sencillo, el de la correlacin lineal entre dos variables aleatorias cuantitativas X y Y (en adelante se manejarn como x y y respectivamente, por ser la notacin ms comn en la literatura). Lo datos muestrales suelen reducirse a parejas y la forma estndar para designarlas es:

(x1, y1 ), (x2 , y2 ), K , (xn , yn )

Se tiene entonces una muestra de n datos (parejas) donde x1 denota el primer valor de la variable aleatoria x y y1 denota el primer valor de la variable aleatoria y. En correlacin es indistinto a qu variable se le llame x y a qu variable se le llame y; de hecho, si hay correlacin entre x y y en ese orden, la hay tambin entre y y x en ese orden.

No obstante lo anterior y dado que generalmente el proceso no termina en la correlacin sino que se pasa al anlisis de regresin, se designar como x a aquella variable que pueda verse como un predictor potencial y cuyo valor pueda algunas veces ser seleccionado por el investigador. En cierto sentido podra verse como una variable explicativa. La otra variable sera denotada como y y sera aquella variable que pueda verse como respuesta. Algunos autores, tomando los nombres de las relaciones deterministas, usan los trminos variable independiente y dependiente para x y y respectivamente.Dicho lo anterior y con el fin de contextualizar el estudio de la correlacin lineal, se recurre a una situacin real.

Situacin de estudio: cigarrillos

La Comisin de Comercio Federal de Estados Unidos evala anualmente distintas marcas de cigarrillos de acuerdo con su contenido de alquitrn, nicotina y monxido de carbono. La Asociacin de Mdicos de Estados Unidos juzga peligrosas cada una de estas sustancias para la salud del fumador. Estudios anteriores han demostrado que un aumento en el contenido de alquitrn y nicotina de un cigarrillo est acompaado de un incremento en el monxido de carbono emitido en el humo del cigarrillo. La tabla siguiente muestra los valores para 25 marcas de cigarrillos comunes en Estados Unidos.

3

Tabla 13.1 Contenido de sustancias peligrosas para la salud en cigarrillos.

MarcaPesoAlquitrnNicotinaCO

(g)(mg)(mg)(mg)

Alpine0.985314.10.8613.6

Benson&Hedges1.093816.01.0616.6

BullDurham1.165029.82.0323.5

CamelLights0.92808.00.6710.2

Carlton0.94624.10.405.4

Chesterfield0.888515.01.0415.0

GoldenLights1.02678.80.769.0

Kent0.922512.40.9512.3

Kool0.937216.61.1216.3

L&M0.885814.91.0215.4

LarkLights0.964313.71.0113.0

Marlboro0.931615.10.9014.4

Merit0.97057.80.5710.0

MultiFilter1.124011.40.7810.2

NewportLights0.85179.00.749.5

Now0.78511.00.131.5

OldGold0.918617.01.2618.5

PallMallLight1.039512.81.0812.6

Raleigh0.957315.80.9617.5

SalemUltra0.91064.50.424.9

Tareyton1.007014.51.0115.9

True0.98067.30.618.5

ViceroyRichLight0.96938.60.6910.6

VirginiaSlims0.949615.21.0213.9

WinstonLights1.118412.0.8214.9

Fuente: http://www.amstat.org/publications/jse/jse_data_archive.html

Un estudio de correlacin empieza seleccionando las variables de inters. As, si se desea analizar la relacin entre los miligramos de alquitrn y los miligramos de CO emitidos por los cigarrillos, puede tomarse los miligramos de alquitrn como la variable predictiva, x y los miligramos de CO como la variable respuesta, y. Ordenando los datos respecto a x y separando las columnas relevantes al estudio del resto de la informacin, se obtiene la tabla 13.2.

4

Tabla 13.2 Datos ordenados respecto al Alquitrn

MarcaAlquitrn: xCO: y

(mg)(mg)

Now11.5

Carlton4.15.4

SalemUltra4.54.9

True7.38.5

Merit7.810

CamelLights810.2

ViceroyRichLight8.610.6

GoldenLights8.89

NewportLights99.5

MultiFilter11.410.2

WinstonLights1214.9

Kent12.412.3

PallMallLight12.812.6

LarkLights13.713

Alpine14.113.6

Tareyton14.515.9

L&M14.915.4

Chesterfield1515

Marlboro15.114.4

VirginiaSlims15.213.9

Raleigh15.817.5

Benson&Hedges1616.6

Kool16.616.3

OldGold1718.5

BullDurham29.823.5

Ordenados los datos, el recorrido simultneo de las columnas x y y de arriba abajo puede en algunas ocasiones proporcionar informacin preliminar. En la tabla 13.2, por ejemplo, se aprecia una relacin entre ambas variables que se expresa as:

Relacin observada entre x y y:

Al aumentar x aumenta y

Debe precisarse, sin embargo, que a diferencia de x, el aumento de y no es estricto; en algunos casos, al pasar de una marca a otra, el CO disminuye para despus aumentar. La expresin al aumentar x aumenta y describe ms bien un patrn de comportamiento global de las parejas en estudio.

El siguiente paso consiste en graficar las parejas de datos (x1, y1),(x2 , y2 ),K,(xn , yn ) en un sistema cartesiano, resultando un diagrama de puntos bivariable conocido como diagrama de dispersin. El diagrama de dispersin correspondiente a las parejas de la tabla 13.2 se da en la figura 13.1.

5

Figura 13.1 Diagrama de dispersin del Alquitrn-CO.

El diagrama de dispersin permite visualizar las parejas y establecer algn patrn de comportamiento grfico. En la figura 13.1 se confirma la relacin al aumentar x aumenta y; adems, se resaltan algunos aspectos de inters, como el que los valores extremos (encerrados en crculos) pudieran ser atpicos, dada la dimensin de los huecos entre stos y los racimos ms cercanos (ver captulo 3 del libro para la definicin y empleo de los trminos racimos, huecos y valores atpicos). No obstante el valor de la informacin anterior, hay, sin embargo, un aspecto visual importante:

La disposicin de los puntos sigue un patrn grfico lineal

Los diagramas de dispersin de la figura 13.2 pueden ser descritos tambin con la expresin al aumentar x aumenta y; no obstante, su patrn grfico no corresponde al tipo lineal sino al de otras curvas.

Figura 13.2 Grficas de dispersin no lineales en las que al aumentar x aumenta y

6

Un comportamiento global descrito por la expresin al aumentar x aumenta y (en lo que resta de esta seccin nos referiremos al tipo lineal) suele describirse como una correlacin o asociacin positiva de y respecto a x (vea figura 13.3 a). En caso contrario, esto es, si al aumentar x disminuye globalmente y siguiendo un patrn grfico lineal (vea figura 13.3 b), se dice que hay una correlacin o asociacin negativa de y respecto a x.

Por otro lado, si el diagrama de dispersin es del tipo mostrado en el inciso c) de la figura 13.3, el recorrido de izquierda a derecha en el eje x no muestra asociacin o relacin de ningn tipo entre los valores de x y y ya que, al aumentar x igualmente aumenta y disminuye y. Un diagrama de estas caractersticas, es indicativo de que no hay relacin (correlacin) entre las variables en estudio.

Figura 13.3 Distintos tipos de correlacin o asociacin de datos

En el caso de variables aleatorias es poco probable tener una correlacin lineal perfecta; sin embargo, para fines de anlisis, resulta til e importante considerarla. En los incisos a) y b) de la figura 13.4 se muestra una correlacin lineal positiva y una negativa perfectas respectivamente. Como se observa, los puntos estn distribuidos a lo largo de lneas rectas.

Figura 13.4 Correlacin lineal positiva y negativa perfectas.

La no relacin puede tambin manejarse mediante una serie de puntos a lo largo de una lnea recta horizontal (ver figura 13.5). El significado algebraico de esto es que y es independiente de x o, en trminos estadsticos, que no hay correlacin entre x y y.

7

Figura 13.5 No asociacin

Una consideracin importante que se desprende de esto es que:

Las relaciones deterministas vistas en otros cursos, pueden verse como correlaciones perfectas y por tanto como un caso particular de las relaciones estadsticas.

Las descripciones de correlacin lineal vistas hasta ahora son de tipo cualitativo. Para avanzar a una descripcin cuantitativa se procede a dividir el diagrama de dispersin en cuatro regiones, dibujando lneas paralelas a los ejes por un punto central. El punto central puede ser el de las medianas o el de las medias; en este captulo se considerar el punto central correspondiente a las medias (x, y) , llamado tambin centroide (en el captulo 3 del libro podr encontrarse un anlisis detallado empleando como punto central las medianas ( ~x, ~y )).

Calculando las medias de las columnas x y y de la tabla 13.2 se obtiene x =12.216 y y = 12.528 . Colocando el punto central (12.2, 12.5) en el diagrama de la figura 13.1 y trazando paralelas a los ejes por ese punto se llega a la figura 13.6.

Figura 13.6 Divisin del diagrama de dispersin en cuatro regiones.

Cualquier punto ubicado en la regin I o III apoya una correlacin positiva; cualquier punto en la regin II o IV apoya en cambio una correlacin negativa. Tomando en cuenta que se trabaja con muestras de n puntos o datos, puede llamarse n(I) al nmero de puntos en la regin

8

I y de igual forma n(II), n(III) y n(IV) el nmero de puntos de las regiones II, III y IV respectivamente.

Con estos elementos, se puede definir un nmero c que permita establecer tipo y grado de correlacin o asociacin entre las variables en estudio, de la siguiente manera (Peter Holmes,

Correlation: From Picture to Formula, Teaching Statistics volume 23, Num. 3, Autumn 2001 p p. 67-70):

c =n(I) + n(III) n(II) n(IV)(13.1)

n

A la clase de nmeros a que pertenece c se les conoce genricamente como coeficientes de correlacin. Analizando la definicin 13.1 pueden verse algunas de las ideas generales con que se construyen tales coeficientes.

Propiedades del coeficiente de correlacin c.

a) Si todos los puntos estn en I y III, entonces c =1. b) Si todos los puntos estn en II y IV, entonces c = 1.

c) Si los puntos estn repartidos equitativamente en las cuatro regiones, entonces c = 0 . d) Si todos los puntos estn en tres o cuatro regiones, entonces c estar entre -1 y +1: si

los puntos estn predominantemente en I y III, entonces c ser positivo, pero si los puntos estn predominantemente en II y IV, entonces c ser negativo.

Se contina el anlisis de la situacin de los cigarrillos, calculando el coeficiente de correlacin c empleando la figura 13.6 o, en caso de duda, la tabla 13.2:

n = 25; n(I) = 13; n(II) = 1; n(III) = 10; n(IV) = 1

c = 13 +10 11 = 0.84 25

El signo positivo de c (implcito en 0.84), indica que los puntos estn ubicados predominantemente en el primer y tercer cuadrantes y por tanto que se tiene una correlacin o asociacin positiva entre x y y.Considerando que los valores extremos de c son -1 y +1, la magnitud (valor absoluto) de c puede usarse como un indicador del grado o fuerza de la correlacin entre las variables: el grado es fuerte entre ms cercana se encuentre la magnitud de c a 1 y dbil entre ms cercana se encuentre a cero. Podra decirse entonces que la magnitud de c para los cigarrillos indica un grado de correlacin fuerte entre las variables. Resumiendo:

De acuerdo al valor numrico del coeficiente de correlacin c, hay una correlacin positiva fuerte entre los miligramos de alquitrn y los miligramos de CO en los cigarrillos.

9

Actividad 13.1 Empleando la expresin 13.1 demostrar que c = 0 para el caso de una serie de puntos a lo largo de una lnea recta horizontal

Con el fin de avanzar en el estudio de los coeficientes de correlacin se recurre a una situacin distinta a la vista pero tambin en un contexto real.

Situacin de estudio: maratn

Un maratn es una prueba atltica de resistencia con categora olmpica que consiste en correr a pie la distancia de 42195 metros. Forma parte del programa olmpico en la categora masculina desde 1896, y en 1984 se incorpor la categora femenina.

Muchas ciudades importantes del mundo organizan anualmente maratones. Uno de los ms prestigiados es el de Nueva York. Se listan a continuacin los tiempos de los y las ganadoras del Maratn de Nueva York y las temperaturas medias registradas durante el periodo 1978-1998.

Tabla 13.3 Tiempos de los ganadores del maratn de Nueva York

AoT (F)t Hombres (min)t Mujeres (min)

197875132.200152.500

El origen de la

197980131.700147.550

palabra maratn se

198050129.683145.700

encuentra en la gesta

198154128.217145.483

del soldado griego

198252129.483147.233

Filpides, quien en el

198359128.983147.000

ao 490 a. C. muri

198479134.883149.500

de fatiga tras haber

198572131.567148.567

corrido unos 40 km

198665131.100148.100

desde Maratn hasta

198764131.017150.283

Atenas para anunciar

198867128.333148.117

la victoria sobre el

198956128.017145.500

ejrcito Persa. En

199073132.650150.750

honor a la hazaa de

199157129.467147.533

Filpides se cre una

199251129.483144.667

competencia con el

199373130.067146.400

nombre de

199470131.350147.617

"maratn", que fue

199562131.000148.100

incluida en los juegos

199649129.900148.300

de 1896 de Atenas.

199761128.200148.717

199855128.750145.283

Fuente: The Effects of Temperature on Marathon Runners Performance de David Martin y John Buoncristiani (Chance, vol. 12,

num 4).

Resulta plausible considerar que pudiera haber una relacin entre las temperaturas (variable predictiva) en que se realiza la prueba y los tiempos de los ganadores (variable respuesta). Para analizar esta hiptesis puede empezarse ordenando los datos de acuerdo a las

10

temperaturas. Se omiten los tiempos de los hombres dejando solamente la informacin relevante al estudio (ver tabla 13.4).

Tabla 13.4 Tabla ordenada de menor a mayor considerando la temperatura

Observe que laAoT (F)t Mujeres (min)

temperatura199649148.300

media pueda198050145.700

repetirse en199251144.667

algunas198252147.233

ocasiones (i.e.198154145.483

73o F ) y que, sin199855145.283

embargo, le198956145.500

correspondan199157147.533

tiempos198359147.000

distintos. Esto199761148.717

es comn en199562148.100

parejas de datos198764150.283

estadsticos.198665148.100

198867148.117

199470147.617

198572148.567

199073150.750

199373146.400

197875152.500

198479149.500

197980147.550

Al recorrer simultneamente las columnas de T y t de arriba abajo, no logra apreciarse una asociacin entre las variables. Construyendo el diagrama de dispersin con las temperaturas en el eje horizontal y los tiempos de las ganadoras en el eje vertical, se llega a la figura 13.7.

Figura 13.7 Diagrama de dispersin temperatura vs. tiempo

11

El diagrama tampoco es muy revelador del tipo de asociacin, por lo que se obtiene el punto central y se trazan por ste las lneas de divisin.

Punto central: T = 63.048 ; t =147.757 .

Figura 13.8 Diagrama de dispersin con lneas de divisin

La divisin permite distinguir que la distribucin de los puntos se da predominantemente en las regiones I y III y por tanto considerar una correlacin positiva entre las variables. Los puntos, sin embargo, se encuentran muy dispersos respecto a lo que pudiera ser un patrn grfico lineal, por lo que se esperara un grado de asociacin dbil. Con el fin de tener medidas numricas se calcula el coeficiente de correlacin c:

n = 21; n(I) = 7; n(II) = 3; n(III) = 8; n(IV) = 3

c = 7 +8 3 3 = 0.42857 21

El signo positivo de c indica la preponderancia de los puntos en las regiones I y III confirmando la asociacin positiva; la magnitud de c (0.42857), sin embargo, refleja un grado de correlacin dbil ya que se encuentra ms bien cercana a cero.Pudiera pensarse que la magnitud de c indica la dispersin de los puntos de un diagrama, sin embargo, puede no resultar as en todos los casos, ya que por ejemplo en las dos grficas de la figura 13.9 se obtiene c =1 , el grado mximo de correlacin. Esta falla de la magnitud del coeficiente c a diferenciar el grado de dispersin en ambos diagramas, sugiere construir un coeficiente de correlacin que, por ejemplo, deje el grado mximo de asociacin exclusivamente a los casos en que se tienen las correlaciones lineales positiva y negativa perfectas. Asimismo, que refleje que el diagrama de dispersin del inciso b) corresponde a una

12

correlacin de mayor grado que la correlacin que guardan los puntos del diagrama del inciso a).

Figura 13.9 Correlacin positiva dbil y fuerte

El cientfico Ingls Karl Pearson desarroll un coeficiente de correlacin que cumple con los requisitos mencionados y es uno de los ms ampliamente usados en ingeniera y ciencias.

Karl Pearson

(Londres 27 de marzo de 1857-Londres, 27 de abril de 1936) fue un prominente cientfico, matemtico, historiador y pensador britnico, que estableci la disciplina de la estadstica matemtica. Desarroll una intensa investigacin sobre la aplicacin de los mtodos estadsticos en la biologa y fue el fundador de la bioestadstica.

Coeficiente de correlacin de Pearson

El desarrollo del nuevo coeficiente de correlacin puede plantearse asignndole peso a los puntos (xi , yi ) en funcin de su ubicacin respecto a las lneas de divisin que se trazan por el centroide. A medida que el punto (xi , yi ) se aleja de las lneas, su peso sera mayor (ver figura 13.10). Despus de todo, los puntos cerca de las lneas podran cambiar de signo fcilmente (recuerde que son valores aleatorios), mientras que los puntos ms alejados de las lneas pueden establecer con mayor fuerza la correlacin.

Figura 13.10 Pesos de los puntos del diagrama de dispersin.

Para la asignacin del peso a un punto (xi , yi ) , se empieza calculando las diferencias xi x y yi y (vea figura 13.10). La magnitud del producto (xi x)( yi y) da una medida de la cercana o lejana de (xi , yi ) a las lneas de divisin.

13

sx

xi x

Los signos de xi x y yi y dependen de la regin en que se encuentre (xi , yi ) (vea Tabla 13.5). El signo del producto (xi x) ( yi y) es positivo para puntos (xi , yi ) de las regiones I y III, reforzando la idea de asociacin positiva. El signo negativo del producto para puntos de las regiones II y IV hara lo propio con la asociacin negativa.

Tabla 13.5 Signos de las diferencias y del producto

Diferencias y productoIIIIIIIV

xi x++

++

yi y

++

(xi x) ( yi y)

Por tanto, se obtiene un primer acercamiento al coeficiente de correlacin buscado, r en adelante, sumando los productos (xi x) ( yi y) correspondiente a los n puntos de la muestra:

r = n (xi x)( yi y)

i=1

El resultado es un nmero real cuyo signo indicara la preponderancia de los puntos de las regiones I y III o la preponderancia de los puntos de las regiones II y IV y, como se desea, una magnitud indicativa de la fuerza de correlacin entre las variables x y y.La suma de los productos, sin embargo, no dara un valor entre -1 y +1, ya que dependera de:

a) La magnitud y unidades de las variables x y y. b) El nmero n de puntos de la muestra.Para ver mejor a qu se refiere el inciso a), se calcula r para los cigarrillos, resultando 617.0988mg 2 (se sugiere verificar). La magnitud resultante no slo no est entre -1 y +1 sino que adems pudo resultar mayor si se hubiesen usado gramos o ms pequea si se hubiesen usado miligramos. Una condicin razonable a imponer es que r no dependa de las unidades utilizadas para medir las variables.Lo anterior puede resolverse expresando cada diferencia en trminos de desviaciones

estndar:y yi y , donde sx y s y son las desviaciones estndar de los valores de x y

sy

de y, respectivamente. Como sx y s y tienen las mismas unidades que sus variables asociadas,

14

se elimina el aspecto unidades y, adicionalmente, se estandariza cada diferencia. Con esto, r toma la forma siguiente:n(x) ( y)

xiy

r = i

sxsy

i=1

No obstante la estandarizacin, r sigue dependiendo del nmero n de puntos. As, en una asociacin positiva, si los puntos fueran duplicados sin cambio en la naturaleza de la asociacin, el valor de r aproximadamente se duplicara. En los cigarrillos, por ejemplo, los primeros 12 puntos de la tabla 13.2, calculando las medias y desviaciones estndar correspondientes, dan un valor de r igual a 10.38, mientras que utilizando todos los datos se obtiene r igual a 22.98. Para solucionar esto se divide entre n 1 (las razones para dividir entre n 1 y no entre n son las mismas que en el clculo de la desviacin estndar). Con esto se obtiene un tipo de promedio que, como se ver en el ejemplo 13.1, toma los valores extremos -1 y 1 y cumple las propiedades requeridas. La expresin para r toma la forma:

Actividad 13.2

Justifica la equivalencia den(x) ( y)

xiy

i

ss

=xy

i 1

y

n(xi )( yi )

xy

i=1

sx sy

n(xi )( yi )

1xy

i=1

r =(13.2)

n 1sx sy

Con el fin de llegar a una expresin equivalente a la 13.2 que resulte prctica para los clculos directos o su programacin, se desarrolla algebraicamente el numerador para llegar a:

n(xi )( yi ) = nxi yi 1nxi nyi

xy

i=1i=1n i=1i=1

Sustituyendo en el denominador las desviaciones estndar por sus expresiones prcticas

n21n2n21n2

xixiyiyi

n

correspondientessx =i=1i=1y sy =i=1n i=1y simplificando se

n 1n 1

tiene finalmente:

r =nnxi yi nxi nyi(13.3)

i=1i=1i=1

nn2nn2

n xi2 xi nyi2 yi

i=1i=1i=1i=1

La expresin 13.3 (o equivalentes) se conoce como el coeficiente de correlacin lineal producto momentos de Pearson.

15

Por ltimo y con el fin de emplear en forma prctica la magnitud de r como un indicador del grado de correlacin o asociacin entre las variables, se da la tabla 13.6.

Tabla 13.6 Correlacin lineal entre dos variables

Valores de rTipo y grado de

correlacin

-1Negativa perfecta

1 < r 0.8Negativa fuerte

0.8 < r < 0.5Negativa moderada

0.5 r < 0Negativa dbil

0No existe

0 < r 0.5Positiva dbil

0.5 < r < 0.8Positiva moderada

0.8 r 0H1 : 0

Paso 2. Eleccin del estadstico de prueba. En este caso lo proporciona una conversin de la distribucin de los valores muestrales r a una distribucin t de Student mediante su estandarizacin:

t = r , sr

donde sr es la desviacin estndar muestral de los valores de r, calculada de la siguiente manera:

sr =1 r2

Sustituyendo se tienen 2

t =r, con gl = n 2 (13.4)

r 2

1

n 2

En este paso 2, en resumen, se calcula el valor de t con los datos muestrales usando la expresin 13.4, obtenindose el valor observado t0 .

Paso 3. Se fija un valor de y se calculan los valores crticos de la distribucin t de Student con n 2 grados de libertad. Con esto quedan establecidos los intervalos de rechazo y aceptacin de acuerdo al modelo estadstico del paso 1.

22

Figura 13.11 Representacin grfica de los modelos estadsticos

Paso 4.

Enfoque tradicional. Si el valor observado t0 cae en la regin de rechazo, se rechaza H 0 tenindose una correlacin lineal. Si por el contrario, el valor observado t0 cae en la regin de aceptacin, se acepta H 0 y no hay una correlacin lineal.

Enfoque del valor p. Al igual que en el captulo 12 del libro, se emplea el valor p en forma prctica para ayudar a tomar una decisin; esto es, comparndolo con de acuerdo a:Si valor p , rechazar H 0Si valor p > , aceptar H 0

Se ilustra a continuacin el mtodo con el caso de los cigarrillos.

Ejemplo 13.5 Aplicar la prueba de hiptesis de dos colas al valor del coeficiente de correlacin r obtenido en el ejemplo 13.2 para el caso de los cigarrillos.

Solucin

Enfoque tradicional. El modelo estadstico es: H 0 : = 0 (no existe correlacin lineal)

H1 : 0 (existe correlacin lineal)

Con r = 0.95749 y n = 25 , el valor observado de acuerdo a la expresin 13.4 es:

t0 =0.95749=15.9185

10.957492

25 2confianza = 0.05 y gl = 25 2 = 23 , se obtienen como valores crticos a

Tomandoel nivel de

t(0.025,23) = 2.069

Como el valor observado queda fuera de la regin de aceptacin dada por [2.069,2.069], se rechaza H 0

tenindose una correlacin lineal.

El clculo del valor p mediante una tabla de distribucin t de Student resulta imprctico, por lo que el enfoque del valor p generalmente requiere de un programa. Se muestra en el ejemplo 13.6 el uso del programa 13.1 del libro para tal fin.

Ejemplo 13.6 Aplicar la prueba de hiptesis de dos colas al valor del coeficiente de correlacin obtenido en el ejemplo 13.2 para el caso de las corredoras del maratn. Utilice el programa 13.1 del libro

Solucin

23

Al iniciar el programa 13.1 se ver la siguiente interfase (despus de hacer clic en la opcin Pruebas de hiptesis del men principal):

Al hacer clic en Coeficiente de correlacin r de Pearson, se obtiene:

Al hacer clic en el botn Leer Datos con la opcin Archivo activada, se abrir una ventana que le permitir navegar en su computadora para seleccionar el archivo de inters. Seleccione el archivo Maraton.dat. Si el archivo no est disponible, cree usted los datos con la opcin Teclado (el lector interesado podr encontrar al final del captulo instrucciones para crear un archivo). Una vez que se ha ledo el archivo se ver la interfase de la siguiente manera:

Se hace clic en el botn Calcular para obtener:

24

Como se ve en esta ltima interfase, se obtiene el valor del coeficiente de correlacin y, de manera predeterminada la Hiptesis nula correspondiente a una prueba de dos colas y Nivel de significancia en 0.05. Dado que este es el modelo y el nivel deseado, se hace clic en el botn Ejecutar con lo que se obtiene:

25

Enfoque clsico. El valor to = 3.25553 cae fuera de la regin de aceptacin (franja verde acotada por

2.09302 ) por lo que se rechaza la hiptesis nula favorecindose la hiptesis alterna: existe correlacin entre las variables.

Enfoque del valor p. Se compara el valor p con . Como 0.00416 < 0.05 se rechaza la hiptesis nula. El valor p, sin embargo, permite continuar el anlisis. Por ejemplo, de acuerdo a la definicin de valor p como el nivel de significancia menor que llevara al rechazo de la hiptesis nula (ver captulo 12 del libro), ninguno de los valores preestablecidos de llevara a aceptar la hiptesis nula. Comprubelo haciendo clic en 0.01 para nivel de significancia y luego en Ejecutar. Puede tambin corroborar la definicin de valor p activando la opcin Otro de Nivel de significancia y escribiendo un valor menor que 0.00416. La ejecucin dar como resultado la aceptacin de la hiptesis nula. Esto significa que para aceptar la hiptesis nula se requerira un valor de extremadamente pequeo (en comparacin con el menor valor de los recomendados: 0.01), dando mayor confianza (no certidumbre) en rechazar la hiptesis nula.

En conclusin, el programa 13.1 permite abordar ambos enfoques pero no slo como un instrumento de clculo y de visualizacin, sino tambin de exploracin y anlisis.

Comentario : En algunos textos modernos, en las revistas cientficas y en artculos de investigacin se reporta simplemente el valor p para que el analista o lector pueda concluir con cualquier nivel de significancia especificado.

Actividad 13.5 Aplique una prueba de hiptesis al coeficiente de correlacin r obtenido en el caso de los cigarrillos. Use igual a 0.05 y 0.01. Sugerencia. Utilice el programa 13.1 del libro.

Pruebas de una cola

En los ejemplos anteriores se aplic una prueba de dos colas. En general, los ejemplos y problemas de este captulo implicarn nicamente pruebas de dos colas, pero puede presentarse una prueba de una cola para una declaracin de correlacin lineal positiva o una declaracin de correlacin lineal negativa. El programa 13.1 permite cualquiera de estas pruebas.

Intervalos de confianza para

Una vez que se encuentra el valor de r para una muestra de n pares de puntos, por ejemplo 0.60, y la prueba de hiptesis resulta significativa, se puede pensar en estimar . La opcin ms recomendable es mediante un intervalo de confianza. El procedimiento es similar a los vistos en el captulo 11 para la media y la proporcin. Por ello se plantea como el proyecto 13.1 al final del captulo.

Precauciones sobre correlacin

El coeficiente de correlacin r es una herramienta matemtica para medir la fuerza de una relacin lineal entre dos variables. Como tal, no tiene implicaciones de causa o efecto. El hecho de que dos variables tiendan a aumentar o disminuir juntas no significa que el cambio

26

en una cause un cambio en la otra. En estadstica, cuando r indica una correlacin lineal significativa entre x y y, se considera que cambios en los valores de y tienden a responder a cambios en los valores de x de acuerdo a un modelo lineal.

Una correlacin significativa entre x y y se debe algunas veces a otras variables, llamadas variables o factores de confusin. Una variable o factor de confusin es una variable que no es predictiva ni variable respuesta; no obstante, puede ser responsable de cambios en x y y. El siguiente ejemplo ilustra de manera amena esto.

Ejemplo 13.7 La cigea blanca es un pjaro sorprendentemente comn en muchas partes de Europa. La tabla siguiente muestra datos geogrficos y demogrficos de 17 pases Europeos.PasreaCigeas (parejasPoblacinTasa nacimientos

(km2)con cras)(106)(103/ao)

Albania287501003.283

Austria838603007.687

Blgica3052019.9118

Bulgaria11100050009.0117

Dinamarca4310095.159

Francia54400014056774

Alemania357000330078901

Grecia132000250010106

Holanda41900415188

Hungra93000500011124

Italia301280557551

Polonia3126803000038610

Portugal92390150010120

Rumania237500500023367

Espaa504750800039439

Suiza412901506.782

Turqua77945025000561576

Construyendo el diagrama de dispersin y las lneas de divisin se tiene:

La grfica del nmero de parejas de cigeas con cras versus el nmero de nacimientos en cada pas sugiere una posible correlacin! entre ambas variables.

27

Calculando el coeficiente de correlacin de Pearson: r = 0.62 , cuya significancia estadstica puede medirse con una prueba de hiptesis de dos colas:

H0 : = 0

H1 : 0

El valor observado es: t0 = 3.062 .

Tomando el nivel de significancia = 0.05 y gl =17 2 =15 , se obtiene como valores crticos at(0.025,15) = 2.131

El valor observado queda fuera de la regin de aceptacin y se rechaza H 0 , tenindose una correlacin

lineal.

El lector desprevenido podra pensar que se trata de una demostracin estadstica de que las cigeas traen a los bebs. Una explicacin plausible a esta correlacin es la existencia de un factor comn a ambas variables que, no obstante no tener nada en comn entre ellas, produce una aparente correlacin. El factor podra ser el rea. A mayor rea, mayor tasa de nacimientos y mayor nmero de cigeas.http://score.kings.k12.ca.us/lessons/wwwstats/lurking.variables.html

Ventana al conocimiento. 2

En 1880 el cientfico Ingls Sir Francis Galton introdujo el concepto de correlacin, as como el uso de la lnea de regresin en sus estudios de investigaciones genticas. He aqu algunas de sus conclusiones en el memorable artculo Regression towards Mediocrity in Hereditary Stature. By Francis Galton, FRS, &c. Journal of the Anthropological Institute of Great Britain 1886, 246 Anthropological Miscellanea.

Han pasado ya algunos aos desde que realic una serie extensa de experimentos sobre el producto de semillas de diferentes tamaos pero de las mismas especies... El resultado de estos experimentos parece indicar que las semillas producidas no tendan a parecerse en tamao a las semillas de origen, sino a ser ms mediocres que ellas a ser ms pequeas que los padres, si los padres eran muy grandes; a ser ms grandes que los padres, si los padres eran pequeos.

Ms tarde busqu evidencia antropolgica, considerando el caso de las semillas como un medio que arrojara luz sobre la herencia en el hombre... Un anlisis de los datos confirm completamente y, fue ms all de las conclusiones que obtuve con las semillas. La siguiente grfica ilustra lo anterior.

28

El mtodo de regresin lineal por mnimos cuadrados tambin puede emplearse con una variable aleatoria y la otra determinista o ambas deterministas (caso comn en ingeniera y ciencias.

13.2 Regresin lineal

El paso siguiente en el anlisis de dos variables aleatorias x y y consiste en encontrar la funcin lineal y = b0 + b1x que sirva para modelar la relacin entre ellas. Este proceso es llamado regresin lineal y a la lnea resultante recta de regresin. Para ilustrarlo se considera de nuevo el caso de los cigarrillos.

Tomando el diagrama de dispersin de la figura 13.1, pero con una lnea recta trazada arbitrariamente por entre los puntos se obtiene la figura 13.12.

Figura 13.12 Trazo de una lnea recta cualquiera por entre los puntos del diagrama de dispersin.

La finalidad de la recta es representar algebraicamente a los datos, es decir, con una ecuacin del tipo y = b0 + b1x . Se deseara entonces que la recta trazada representara los datos muestrales de la mejor manera posible. La mejor representacin puede interpretarse de diferentes formas: la recta que toque ms puntos; aquella recta que permita tener igual nmero de puntos arriba y debajo de ella; la recta que pase por el punto central (x, y) ; etc. Tales criterios, sin embargo, son subjetivos y generalmente no conducen a una recta nica. Uno de los criterios formales ms ampliamente usado es el del ajuste por mnimos cuadrados (en el captulo 3 se estudi el criterio que da lugar a la recta de ajuste mediana). Se presenta a continuacin el criterio de ajuste por mnimos cuadrados, mediante una serie de pasos grficos, de modo que se capte intuitivamente la idea que lo sustenta.

29

Considere para el primer paso el diagrama de dispersin de la figura 13.12. Enseguida se trazan lneas verticales desde cada uno de los puntos a la recta trazada arbitrariamente (ver figura 13.13). Se dan las distancias verticales de algunos de estos puntos a la recta (el clculo de tales distancias en este momento es irrelevante ya que slo tienen fines ilustrativos del mtodo).

Figura 13.13 Trazo de lneas verticales de los puntos a la recta

Luego se toma cada una de las verticales trazadas como el lado de un cuadrado. A cada cuadrado le corresponde un rea igual a lado lado; por ejemplo, la distancia del punto correspondiente a Now (1, 1.5) a la recta es 2.94 y su rea es 8.64, mientras que la distancia de Salem Ultra (4.5, 4.9) es 1.62 y su rea es 2.62. En el caso de la marca Bull Durham el rea es 5.52 como se ve en la figura 13.14.

Figura 13.14 Construccin de los cuadrados y clculo de sus reas.

El siguiente paso consiste en sumar las reas de los cuadrados generados por cada uno de los 25 puntos.

30

Si se traza arbitrariamente otra recta por entre los puntos se generara otro juego de 25 cuadrados, cuya suma dara un rea total seguramente distinta a la del caso inicial. Con estas consideraciones el escenario queda listo para enunciar el criterio para seleccionar una recta de ajuste:

La recta de ajuste por mnimos cuadrados es aquella que pasa por entre los puntos de la muestra, de tal modo que produce el rea total mnima.

El criterio as establecido da lugar a una recta nica. Su deduccin o, dicho de otra forma, la deduccin del clculo de la ordenada al origen b0 y la pendiente b1 es un proceso tcnico que se puede consultar en el Apndice G del libro. Las expresiones resultantes para dichos parmetros son:

nn( x i )2nn

yixixi yi

b0 =i =1i =1i =1i =1(13.5)

n)2n2

n( x ixi

i =1i =1

nnn

nxi yiyixi

b=i =1i =1i =1(13.6)

1n2n2

n( xi )xi

i =1i =1

La recta de ajuste por mnimos cuadrados o recta de regresin queda entonces

nn2nnnnn

yi( xi)xiyi xi nxi yi yixi

y =i=1i=1i=1i=1+i=1i=1i=1x (13.7)

n2n2n2n2

n( xi )xin( xi )xi

i=1i=1i=1i=1

Los valores que da la recta de regresin (13.7) correspondientes a x1 , x2 ,K, xn son, en general, diferentes a los valores observados y1 , y2 ,K, yn , por lo que suelen denotarse como y1 , y2 ,K, yn y llamarse valores ajustados o estimados. De la misma manera, cualquier otro valor calculado con la recta para un valor arbitrario de la variable x se denota como y .

31

Por ltimo, dado que b0 y b1 se obtuvieron a partir de una muestra de n puntos y no de la poblacin, son estimaciones de los parmetro poblacionales correspondientes 0 y 1 . La letra griega empleada se pronuncia beta.

Actividad 13.6 Examina en equipo las expresiones 13.3, 13.5 y 13.6. Encuentra algunos elementos comunes? Descrbalos verbalmente y en forma escrita.

Clculos para encontrar la recta de regresin

Directos. En los clculos para los parmetros b0 y b1 de la recta de regresin se emplean los

valores de las sumatorias, a excepcin de n yi2 , que se emplean para el clculo del

i=1

coeficiente de correlacin r de Pearson.

As, en el caso de los cigarrillos (ver ejemplo 13.2) se tiene:

nxi = 305.4 ; nyi = 313.2 ; nxi2 = 4501.2 ; nxi yi = 4443.15

i =1i =1i =1i =1

Al sustituir los valores de las sumatorias y de n (25) en las ecuaciones 13.5 y 13.6:

b =(313.2)(4501.2) (305.4)(4443.15)= 2.74327755

025(4501.2) (305.4)2

b =25(4443.15)(313.2)(305.4)= 0.80097597

25(4501.2) (305.4)2

1

La ecuacin de la recta de ajuste por mnimos cuadrados para la muestra de marcas de cigarrillos queda entonces:

y = 2.74327755 + 0.800975997x

Al graficar la recta de ajuste en el diagrama de dispersin de la figura 13.12 pero conservando la recta trazada arbitrariamente (en gris) para comparacin, se tiene:

32

Figura 13.15 Recta de regresin y recta arbitraria.

Programa 13.2. El clculo de los parmetros puede hacerse mediante el programa 13.2. En la ltima interfase mostrada en el ejemplo 13.3, se tienen los valores de los parmetros como:

Se dispone tambin del diagrama de dispersin y de la representacin grfica de la recta de regresin.

Ejemplo 13.8 Empleando la ecuacin de la recta de regresin para los cigarrillos, calcular los valores yi

correspondientes a las xiy comparar con los valores observados yi .

Solucin

Valores de COValores de CO

AlquitrnObservadosAjustadosAlquitrnObservadosAjustados

xyyxyy

11.53.5413.71313.72

4.15.46.0314.113.614.04

4.54.96.3514.515.914.36

7.38.58.5914.915.414.68

7.8108.99151514.76

810.29.1515.114.414.84

8.610.69.6315.213.914.92

8.899.7915.817.515.40

99.59.951616.615.56

11.410.211.8716.616.316.04

1214.912.351718.516.36

12.412.312.6829.823.526.61

12.812.613.00

Comentarios. Los valores yi rara vez coinciden con sus correspondientes valores observados yi . Esto es el

resultado de tener una lnea que pasa por entre los puntos no por los puntos. La tcnica garantiza, sin

nembargo, que la suma ( yi yi )2 es mnima respecto a cualquier otra lnea recta que pase por entre los

i=1

puntos. La diferencia ( yi yi ) es conocida como error, desviacin o residual. La suma de estos valores y de sus cuadrados es utilizada ampliamente en anlisis subsecuentes.

33

Material

opcional

Exploracin del mtodo de ajuste por mnimos cuadrados con el programa 4.1

El programa 4.1 permite, una vez que se han ledo los datos (puntos), tener el diagrama de dispersin y una recta que une los puntos extremos. Puede luego manipularse la recta (en negro) y observar el rea total (ver ventana suma de cuadrados) de cada recta que se vaya formando. Se sugiere explorar visualmente con varias rectas hasta encontrar aquella que minimice el rea y luego comparar con la recta de ajuste por mnimos cuadrados o de regresin que da tambin el programa. Se muestra a continuacin una etapa en la exploracin para encontrar la recta en el caso de los cigarrillos.

Figura 13.16. Interfase que muestra una etapa en la exploracin de la mejor recta

Obtencin de la recta de regresin y del coeficiente de correlacin con Excel

Material

Para ilustrar el procedimiento se usar la tabla 13.2. Primero se capturan los datos en una hoja

opcional

de clculo de Excel. Por ejemplo en las celdas A1:C27, como se ve en la figura siguiente.

34

Figura 13.17 Interfase con la tabla de datos en Excel

Despus se sealan las celdas B3:C27 y se invoca al asistente para grficos que se

encuentra en la barra de herramientas Estndar . Seleccionar XY (Dispersin) en Tipo de grfico y Dispersin en Subtipo de grfico y hacer clic en el botn Finalizar (ver figura 13.13)

Figura 13.18 Interfase del asistente para grficos de Excel

El resultado despus de estas operaciones es:

35

Figura 13.19 Interfase con la grfica resultante.

Hay diversas opciones para presentacin de la grfica: Se puede sealar la Leyenda que dice Serie 1 y usar la tecla Supr para eliminarla. Hacer clic en alguna de las lneas de divisin, con lo que se sealarn todas, y usar nuevamente la tecla Supr para eliminarlas. Hacer doble clic en el sombreado del rea de graficacin, con lo que aparecer el cuadro de dilogo Formato del rea de trazado. Del lado derecho (rea) hacer clic en Ninguna y luego en Aceptar. Cambiar la escala en ambos ejes, haciendo doble clic sobre cada uno de ellos. Por ejemplo, si se hace doble clic sobre el eje x aparecer el cuadro de dilogo Formato de ejes. Despus de hacer clic en la ficha Escala, se ver as:

Figura 13.20 Interfase del formato de ejes.

En el eje x dejar Mnimo 0 y Mximo 30, como se muestra en la figura anterior. Repetir lo mismo para el eje y dejando Mnimo 0 y Mximo 25. El resultado debe ser:

36

Figura 13.21 Diagrama de dispersin elaborado por Excel.

Ahora proceder a solicitar la lnea de regresin. Despus dar clic en el grfico, hacer clic en el men Grfico y luego en Agregar lnea de tendencia.

Figura 13.22 Interfase del men Grfico de Excel

Aparecer el cuadro de dilogo de esta opcin. Seleccionar Lineal en Tipo de tendencia o regresin. Cambiar a la ficha Opciones y seleccionar el cuadro Presentar ecuacin en el grfico y el cuadro Presentar el valor de R cuadrado en el grfico. Por ltimo, hacer clic enAceptar. El resultado es:

30

25y = 0.801x + 2.7433

20R2 = 0.9168

15

10

5

0

05101520253035

Figura 13.23 Diagrama de dispersin y recta de regresin con el coeficiente de correlacin.

Excel emplea R para el coeficiente de correlacin y lo da al cuadrado. Ms adelante se explica el nombre, sentido y uso del coeficiente al cuadrado.

Se recomienda utilizar la tecnologa para obtener la recta de regresin (programa 4.1, programa 13.2 (ver ejemplo 13.9), Excel o una calculadora que disponga del programa de regresin lineal). En caso que se quieran realizar paso a paso, se sugiere organizarlos como se mostr anteriormente en el ejemplo 13.2.

37

Prediccin de valores utilizando la recta de regresin

Una vez que se tiene la representacin analtica de los puntos, se pueden llevar a cabo distintas actividades, siendo una de las ms importantes la prediccin. Para ver como se realiza y se emplea, se recurre a un ejemplo.

38

Ejemplo 13.9 Considere que se elabora un cigarrillo con un contenido de alquitrn igual a 24 mg y se desea estimar (sin realizar la medicin qumica) la cantidad de CO que se desprende en su consumo.SolucinLa estimacin de la cantidad de CO se obtiene sustituyendo 24 en la ecuacin de la recta de regresin encontrada y calculando el valor de y:

y = 0.80097597 24 + 2.74327755 = 21.9667008

La cantidad de CO es 22.0 mg. En la figura adjunta se muestra grficamente la estimacin.

La estimacin es un valor que naturalmente indica un referente de lo que puede esperarse e incluso para calcular un intervalo de confianza.

La prediccin puede verificarse empleando el programa 13.2 del libro. En el ejemplo 13.3 se dieron los primeros pasos. Lo siguiente es escribir 24 en la ventana correspondiente a Valor de x y hacer clic en Calcular. El resultado es:

Efecto de los valores extremos o atpicos sobre la recta de regresin

En algunos casos, se tienen valores que se desvan considerablemente del patrn que siguen los dems puntos. Puede tratarse de valores extremos, influyentes y/o atpicos (ver captulo 3

39

del libro). Este tipo de puntos influencian los resultados de la recta de regresin, por lo que se recomienda realizar los clculos con y sin dichos puntos. As, si en el caso de los cigarrillos se elimina el punto correspondiente a BullDurham y se encuentra la ecuacin de la nueva recta, se tiene y =1.4129 +0.9281x . Las grficas de las rectas de regresin con todos los puntos y sin BullDurham se muestra en la figura 13.24

Figura 13.24 Efecto de BullDurham sobre la recta de regresin.

Resulta interesante observar cmo un solo punto modifica la ordenada al origen y la pendiente de la recta de regresin. Por ello es conveniente analizar este tipo de puntos, primero para ver si no se trata de algn error de medicin y segundo para establecer si se tiene un valor atpico (ver problemas 13.26 y 13.27).

Coeficiente de determinacin y error estndar de estimacin

Como se vio en el ejemplo 13.8, los valores estimados yi no coinciden con los valores observados yi correspondientes. Con el fin de analizar estas desviaciones, considrese un diagrama de dispersin y la correspondiente lnea de regresin (ver figura 13.25). Se ha adicionado al diagrama una lnea horizontal y = y , a la que se llamar lnea base; su finalidad es servir de referente para el anlisis de las desviaciones. A fin de cuentas y es el valor representativo de los valores de esa variable.

40

Figura 13.25 Anlisis de la desviacin total.

Considere un punto cualquiera (xi , yi ) . La desviacin (o diferencia) del valor yi respecto a la lnea base se representa por yi y y se conoce como desviacin total.

La desviacin total puede dividirse en dos partes:

1. La desviacin explicada yi y que expresa la desviacin del valor yi a la lnea base. Podra decirse que la lnea de regresin explica esa parte de la desviacin: Imagine un punto que puede desplazarse sobre la lnea base (ver figura 13.26); al mover el punto a la derecha, la desviacin, representada por las lneas en gris, aumenta (tome en cuenta que son valores negativos); llega a cero en la interseccin con la recta de regresin y sigue aumentando al avanzar a la derecha.

Figura 13.26 Desviacin explicada yi y .

41

La desviacin no explicada

yi yi recibe tambin los nombres de desviacin aleatoria o residual.

2. La desviacin no explicada yi yi que indica la desviacin del valor yi de la lnea de regresin. Suponga ahora un punto mvil que se desplaza sobre la recta de regresin (ver figura 13.27). Al desplazarse sobre sta, la desviacin de los puntos de la muestra a la recta de regresin no siguen un patrn ya que su distribucin es aleatoria: su posicin (arriba o debajo de la recta) as como su magnitud son aleatorios. En resumen, hay factores aleatorios y de otro tipo que la recta no explica en forma alguna.

Figura 13.27 Aleatoriedad de los puntos respecto a la recta de regresin.

Para analizar algebraicamente las desviaciones considrese la siguiente relacin:

Actividad 13.7

Demostrar que la suma de las desviaciones totales sobre todos los puntos muestrales, da cero:

n ( yi y)2 = 0

i=1

yyy y

iy=y+i

i

(Desviacin total)=(Desviacin explicada)+(Desviacin no explicada)

Elevando al cuadrado ambos miembros y sumando sobre todos los puntos (para ver la justificacin de elevar al cuadrado se sugiere realizar la actividad 13.7):

n( yi )2 = n (( y i ) +( yi yi ))2

yy

i=1i=1

Desarrollando algebraicamente el lado derecho:

42

n( yi )2 = n( yi )2 +n( yi yi )2

yy

i=1i=1i=1

La simplificacin en el lado derecho se debe a que el trmino 2n( yi )( yi yi ) es cero

y

i=1

(ver problema 13.22).

Como se incluye a todos los puntos de la muestra, el trmino variacin resulta ms

apropiado que el de desviacin.

n( yi )2= n( yi )2+n( yi yi )2

yy

i=1i=1i=1

Variacin=Variacin+Variacin no (13.8)

totalexplicada

explicada

Dividiendo entre la variacin total ambos lados de la ecuacin 13.8.

n( yi )2n( yi )2n( yi yi )2

yy

i=1=i=1+i=1

nnn

( yi )2( yi )2( yi )2

yyy

i=1i=1i=1

Simplificando:

n( yi )2n( yi yi )2

y

1 =i=1+i=1

nn

( yi )2( yi )2(13.9)

yy

i=1i=1

1 =Variacin explicada+Variacin no explicada

Variacin totalVariacin total

El primer trmino del lado derecho es denotado como r 2 ya que la raz cuadrada es equivalente al coeficiente de correlacin de Pearson r. Se conoce como el coeficiente de determinacin y suele manejarse as:

43

n( y i )2

Variacin explicaday

r 2 ==i=1(13.10)

Variacin totaln

( y i )2

y

i=1

La expresin 13.10 da pie a continuar el anlisis iniciado con el coeficiente de correlacin de Pearson pero tomando ahora en cuenta la recta de regresin. Para ello se da primero un resumen y despus su aplicacin:

1. El valor de r 2 es la razn de la variacin explicada sobre la variacin total. Es decir, r 2 es la fraccin de la variacin total en y que puede explicarse usando el modelo lineal y = b0 + b1 x .

2. 1r 2 es la fraccin de la variacin total en y debida al azar o a la posibilidad de variables ocultas (desconocidas) que influyen en y.

En el caso de los cigarrillos se tiene r = 0.96 con lo que el coeficiente de determinacin es r 2 = 0.92 . Puede decirse entonces, de acuerdo al punto 1, que alrededor de 92% del comportamiento (variacin) de la variable y, puede explicarse por medio del correspondiente comportamiento (variacin) de la variable x mediante la ecuacin de regresin.

Como r 2 = 0.92 , 1r 2 = 0.08 . De acuerdo al punto 2, el comportamiento (variacin) de alrededor de 8% de la variable y se debe al azar o a posibles variables, desconocidas para el investigador, que influencian y.

El programa 13.2 proporciona el coeficiente de determinacin, como puede verse en los ejemplos 13.3 y 13.9.

Actividad 13.8 Realizar un anlisis similar al dado arriba empleando los resultados del maratn de Nueva York.

44

Actividad 13.9 Los datos de la tabla siguiente corresponden a las profundidades Secchi de Grand Lake, Colorado y la cantidad de fsforo total correspondiente (ver ejemplo 13.4).xYxyxy

20.0142.950.0083.80.006

20.0130.0083.850.012

2.10.0123.050.0083.850.009

2.450.0123.050.013.950.01

2.450.013.20.0114.150.008

2.450.0093.350.014.30.008

2.550.013.50.0084.30.005

2.70.0143.550.0134.850.008

2.70.0093.650.0095.30.009

2.70.0073.650.0085.40.007

2.750.0153.650.0065.70.007

2.850.0073.750.008

a) En el ejemplo 13.4 se calcul el coeficiente de correlacin r con la expresin 13.3. Eleva al cuadrado el valor encontrado.b) Encontrar el coeficiente de determinacin con la expresin 13.10 y comparar con el valor obtenido en el inciso anterior.

lnea de regresin. Otra forma de medir la dispersin es empleando la variacin no explicada en la forma siguiente:

n ( yi yi )2

Error estndar de estimacin = se =i=1(13.11)

n 2

Corresponde a la desviacin estndar para una variable y de ah el nombre de error estndar de estimacin. Se emplea para construir intervalos de confianza, por ejemplo de las estimaciones dadas por la recta de ajuste por mnimos cuadrados, como se ve a continuacin.

Intervalos de confianza para las estimaciones y correspondientes a un valor dado de x

Los parmetros by bde la recta de regresin y = b +b x se calculan con las n parejas de

0101

puntos(x, y) que constituyen una muestra de la poblacin. Si se empleara la poblacin de

puntosposibles (x, y) ,los parmetros correspondientesseran denotadoscomo 0 y 1

x . Esta ecuacin,

respectivamente, y la recta de ajuste quedara representada como Y = 0 + 1

sin embargo, no dara los valores verdaderos de la variable respuesta, representados en adelante por Y, ya que faltara considerar el error aleatorio en Y . Se denota como y su

45

presencia se debe a que siempre hay una variacin en Y debida estrictamente al fenmeno aleatorio, inherente a cualquier situacin. Adicionando a la recta de regresin de la poblacin dicho componente, se obtiene la ecuacin de la recta que da el valor verdadero.Recta de regresin (muestra)y = b +b xEstimacin

01

Recta de regresin (poblacin)= 1 x + 0Estimacin

Y

Recta de regresin (poblacin con )Y= 1 x + 0 +Valor verdadero

Debido al trmino aleatorio , para cada valor de x hay una distribucin de valores de Y. El mtodo de regresin lineal visto se desarroll basndose en el supuesto de que la distribucin de valores de Y correspondientes a un valor dado de x est centrada en la recta de ajuste de la poblacin. Adems, que las distribuciones de Y correspondientes a cada valor de x tienen todas la misma desviacin estndar e .

Figura 13.28 Distribuciones con centro en la recta de regresin Y con la misma e

Usando las consideraciones tericas anteriores, puede plantearse para un valor dado de x, un intervalo de confianza para el valor verdadero Y a partir de la estimacin y obtenida mediante la recta de regresin:

46

La expresin general para construir un intervalo de confianza de Y a partir de la estimacin y correspondiente a un valor dado de x, viene dado por:

1n(x0 )21n(x0 )2

x, y +t ,gl sex(13.12)

yt ,gl se1 ++1 ++

nnn2nnn2

22

nxixinxixi

i=1i=1i=1i=1

Donde: y es la estimacin para un valor cualquiera de x,

= nivel de significancia,

n = nmero de pares de datos (n 3) ,

t ,gl = valores crticos de la distribucin t de Student con gl = n 2 ,

y se = error estndar de estimacin.

Expresando los lmites del intervalo por separado:

1n(x0 )2

LCI = y t, gl se1++x

nnn2

nxi2xi

i =1i =1

1n(x0 )2

LCS = y +t ,gl se1++x

nnn2

nxi2 xi

i=1i=1

Finalmente, el intervalo de confianza puede quedar de manera simplificada as:

LCI Y LCS

47

Ejemplo 13.10 Para las temperaturas medias de 63F y 78F en el maratn de Nueva York, estime los tiempos en minutos de la ganadora y los respectivos intervalos de confianza con = 0.95 .

Solucin. Utilizando las sumatorias del ejemplo 13.2 y sustituyendo en la ecuacin 13.7 se tiene la recta de regresin t =140.249142 + 0.11908461 T . Los datos siguientes son comunes para los dos valores de temperatura: n = 21 , x = 63.048 . Como =1 =10.95 = 0.05 , t0.95,19 = 2.093 ; se =1.60322;Para el caso de T = 63F

t = 0.11908461(63) +140.249142 =147.7514721n(x0 )2121(63 63.048)2

x

1 ++=1 ++=1.02352042

nnn2212185396 13242

nxi2xi

i=1i=1

Los lmites de confianza son:

LCI =147.751472 2.093 1.60322 1.02352042 =144.317009 LCI =147.751472 + 2.093 1.60322 1.02352042 =151.185935

Redondeando:

144 Y 151

Para el caso de T = 78F

t = 0.11908461(78) +140.249142 =149.537742

1+1+21(78 63.048)2=1.0788910

212185396 13242

Los lmites de confianza son:

LCI =149.537742 2.0931.60322 1.0788910 =145.9174858 LCS =149.537742 2.0931.60322 1.0788910 =153.1579974Redondeando:

146 Y 153

Lo anterior significa que se puede asegurar con una confianza de 95% que los intervalos dados contienen el tiempo de la ganadora del maratn cuando este se corra a las temperaturas promedio especificadas.

48

Ejemplo 13.11 Resolver el ejemplo 13.10 utilizando el programa 13.1.

Solucin

Se inicia el programa 13.1. Se selecciona el men Intervalos de confianza y luego la opcin Estimacin de la recta de regresin. Una vez ledos los datos se usa el botn Calcular, se proporciona el valor de xo (63), se selecciona el nivel de confianza y se hace clic en el botn Ejecutar. El resultado es:

Se deja al lector el clculo para T = 78F .

Al comparar los resultados del ejemplo 13.10, se observa que el intervalo de confianza de 95 % para 630 F est 3.430 F arriba y debajo de la lnea de ajuste, mientras que para 780 F est 3.450 F arriba y debajo de la lnea de ajuste. Esta comparacin refleja la propiedad general que los intervalos de confianza son ms angostos entre ms cerca del valor medio se encuentre el valor que se quiere estimar. Al moverse a los extremos de la distribucin de los puntos de la muestra, los intervalos son ms anchos. Esta es una razn por la cual no debera usarse la lnea de ajuste para predecir valores ms all de de los datos extremos.

Si se calcula un intervalo de confianza de 95 % para todos los valores de T en el rango de los datos, se tendra geomtricamente una banda que se ampla hacia los extremos como se aprecia en la figura 13.29.

49

Figura 13.29 Banda de 95 % de confianza para los valores de prediccin

Intervalos de confianza y pruebas de hiptesis para la pendiente 1 de la recta de regresin

La lnea de regresin y = b0 +b1 x se calcula con la muestra de n parejas de puntos (x, y) , mientras que la lnea de regresin Y = 0 + 1x se calcula, tericamente, con la poblacin de puntos (x, y) . El parmetro 1 (pendiente de la lnea de regresin de la poblacin), resulta particularmente de inters ya que en muchas aplicaciones se requiere medir el cambio de y por unidad de cambio de x; es decir, la velocidad de cambio de y con respecto a x. Asimismo, es importante ya que si su valor es cercano a cero, indica que posiblemente no hay relacin entre las variables en estudio. Debido a que la lnea de regresin muestral proporciona solamente una estimacin b1 de 1 , conviene construir intervalos de confianza y pruebas de hiptesis para 1 .

El estadstico de prueba requerido en ambos casos viene dado por la expresin

t =b1 1(13.13)

n1n2

se /xi2xi

i =1n i =1

La expresin 13.13 sigue una distribucin t de Student con gl. = n 2 .

50

n1n2

La expresin se / xi2 xies conocida como el error estndar de b1 . Se

n

i =1i =1

emplea para los intervalos de confianza y para las pruebas de hiptesis de 1 como se muestra en el ejemplo siguiente.

Ejemplo 13.12 Construya un intervalo de confianza de 95% para la pendiente de la recta de ajuste de los datos del Maratn (ver ejemplo13.10)

Solucin Despejando en la ecuacin 13.13 a 1 y construyendo el intervalo:b1 t ,gl se 1 b1 +t ,gl se

n21n2n21n2

xixixixi

n

i=1i=1i=1n i=1

0.11912.093(1.6032) 0.1191+2.093(1.6032)

85396 1(1324)2185396 1(1324)2

2121

0.0425 1 0.1957

Se puede emplear el programa 13.1 (ver ejemplo 13.11) seleccionando en Intervalos de confianza la opcin Pendiente de la recta de regresin. Una vez proporcionados los datos y seleccionado el nivel de confianza se obtiene:

51

Ejemplo 13.13 Realizar una prueba de hiptesis para la pendiente de la recta de ajuste de los datos del maratn.SolucinEl modelo estadstico es:H0 : 1 0 (la pendiente es negativa)H1 : 1 > 0 (la pendiente es positiva)

Con b1 = 0.1191 y n = 21 , el valor observado es:

to =0.1191= 3.2560

85396 1(1324)2

1.6032 /

21

Tomando elnivel de confianza = 0.05 y gl = 212 =19 , se obtienen como valor crtico a

t(0.95,19) =1.729

Como el valor observado queda fuera de la regin de aceptacin, se rechaza H 0

Se puede emplear el programa 13.1 seleccionando en Pruebas de hiptesis la opcin Pendiente de la recta de regresin. Una vez proporcionados los datos y seleccionado el modelo estadstico y el nivel de significancia se obtiene:

13.3 Regresin no lineal (funciones intrnsecamente lineales)

No siempre es conveniente ajustar una lnea recta a un diagrama de dispersin. En algunos casos el diagrama perfila una lnea curva. Si bien el diagrama es importante, no lo es menos la teora o experiencia de la situacin en estudio. Conjuntando estos elementos se puede advertir que la relacin entre dos variables de inters sea curvilnea; algunos ejemplos tpicos son las

52

reacciones qumicas, el crecimiento poblacional, la relaciones entre gasto en publicidad y ventas, etctera.

En tales casos, es importante analizar la posibilidad de usar un modelo matemtico cuyos parmetros se puedan estimar con facilidad. Una clase importante de estos modelos est formada por las funciones intrnsecamente lineales. Un ejemplo tpico de ellas es el de la funcin exponencial

y = b eb1x(13.14)

0

Para ver el significado de la expresin intrnsecamente lineal, se toman logaritmos base e en ambos lados de la ecuacin 13.14, quedando:

ln( y) = ln(b0 eb1x )

Aplicando las propiedades de los logaritmos se llega a

ln( y) = ln(b0 ) +b1 x (13.15)

Como y es una variable, tambin lo es ln( y) , de modo que puede llamarse y , a esta nueva variable. Por otro lado, dado que b0 es una constante, tambin lo es ln(b0 ) y puede denotarse como b0, a la nueva constante. Sustituyendo en la ecuacin anterior:

y , = b,+b x (13.16)

01

La funcin exponencial 13.14 se ha transformado en una nueva funcin 13.16 cuya relevancia consiste en que es lineal y por tanto el que sus parmetros b0, y b1 se puedan calcular en la forma vista en la seccin anterior.

53

Una funcin y = f (x) que relaciona a y con x es intrnsecamente lineal, si por medio de una transformacin en x o en y o en ambas, la funcin se puede expresar en general como una funcin lineal y, = b0, +b1, x, , con x, = variable predictiva transformada, y, =variablerespuesta transformada y parmetros b0, y b1, .

Actividad 13.10 Demostrar que la funcin exponencial general y = b0 ab1x , donde a es una constante conocida, es intrnsecamente lineal.

Cuatro de las funciones intrnsecamente lineales ms empleadas se dan en la tabla 13.8. En los incisos a) y b) la transformacin apropiada es logartmica y en los incisos c) y d) es simplemente un cambio de variable.

Tabla 13.8 Funciones intrnsecamente lineales ms comunes*.

Funcin Variable(s) y parmetro(s) Funcin transformada transformado(s)

a) Exponencial: y = b0eb1x

b) Potencial: y = b0 xb1

c) Logartmica: y = b0 +b1 log(x)

y,= ln( y) , b,= ln(b )

00

y,= log( y),x, = log(x) ,

b,= log(b )

00

x, = log(x)

y , = b0, +b1 x

y, = b0, +b1 x,

y = b0 +b1x,

d) Recproca:y = b+b1x, =1y = b0 +b1x,

01 xx

*Cuando aparece log(*), se puede usar ya sea el logaritmo base 10 o el logaritmo base e.

Las grficas representativas de las cuatro funciones se ilustran en la figura 13.30. Tales grficas corresponderan a correlaciones perfectas, por lo que sirven de modelos para comparar los diagramas de dispersin con que se trabaje. Se resuelven a continuacin algunos ejemplos.

54

a) Exponencial

b) Potencial

c) Logartmica

d) Recproca

Figura 13.30 Correlaciones perfectas de funciones intrnsecamente lineales

55

Ejemplo 13.14 La reaccin qumica en fase lquida A + B R + S se lleva a cabo en forma isotrmica (temperatura constante) a 25 C en un reactor intermitente. Partiendo de las condiciones iniciales deconcentracin de los reactivos A y B:CAo = 0.054 mol / lty CBo = 0.106 mol / lt ,los resultados

experimentales son:

x (min)1744184264441150144015101660

y0.2030.3350.350.3830.5880.6180.6380.655

x representa el tiempo transcurrido desde que se inicia la reaccin y y el rendimiento o fraccin del reactivo A que ha reaccionado al tiempo x.(Ancheyta J. J. y Valenzuela Z. M. A. Cintica Qumica para sistemas homogneos. Direccin de Publicaciones, IPN (2002) p. 192-193Encontrar la funcin que mejor ajuste los datos experimentales. Solucin. La grfica de dispersin correspondiente a los datos es:

El rendimiento y aumenta sustancialmente en los primeros minutos de la reaccin, pero despus los

aumentos son moderados y ms tarde resultan muy pequeos. Comparando con las grficas de la figura 13.19 el modelo parece ser el logartmico o el potencial. Se har el desarrollo para el modelo logartmico y en el problema 13.34 se pide el desarrollo del modelo potencial.En el modelo logartmico, de acuerdo a la tabla 13.8, se transforma solamente la variable x: x, = ln(x) .Para resolver el modelo lineal transformadoy = b+b x,, se calculan los logaritmos de x para tener la

01

nueva variable. Luego, se procede a realizar los clculos tipo para la regresin lineal:

x,y(x, )2x, y

5.15905530.20326.61585161.04728823

6.035481430.33536.42703612.02188628

6.054439350.3536.65623582.11905377

6.095824560.38337.15907712.33470081

7.047517220.58849.6674994.14394013

7.272398390.61852.88777844.49434221

7.319864930.63853.58042264.67007383

7.414572880.65554.9758914.85654524

Sumatorias52.39915413.77347.96979225.6878305

Sustituyendo las sumatorias en las ecuaciones 13.5 y 13.6 se llega a los parmetros:

b0 = -0.8972743y b1 = 0.20893838

Ninguno de los parmetros se transforma, de modo que se sustituyen en la ecuacin potencial, llegndose al resultado buscado:y = b0 + b1 log(x) = 0.8972743 + 0.20893838log(x)

Se calcula ahora el coeficiente de determinacin de acuerdo a la ecuacin 13.10

n( yi )2

r 2 =Variacin explicaday

=i=1= 0.9909

Variacin totaln( yi )2

y

56

Ejemplo 13.15 Resolver el ejemplo 13.14 utilizando el programa 13.2.

Solucin

Como se ha visto en los ejemplos 13.3 y 13.9, el programa 13.2 dispone de las funciones intrnsecamente lineales. Una vez que se han proporcionado los datos y seleccionado el modelo logartmico, se obtiene:

Como en el caso lineal se dispone de la caracterstica de que se pueden obtener estimaciones de y para algn valor de x dado.

El proceso de transformacin de algunas funciones itrnsecamente lineales puede interpretarse grficamente. Considere, por ejemplo, el diagrama de dispersin correspondiente a los datos originales del ejemplo 13.14 (vea el inciso a) de la figura 13.31). Si ahora se grafican los mismos datos pero en un sistema coordenado semilogartmico; esto es, en el eje de las abscisas se tiene una escala logartmica y en el eje vertical una escala decimal, se obtiene el diagrama de dispersin del inciso b) de la figura 13.31, donde los puntos parecen tener un patrn lineal!

57

a)b)

Figura 13.31 Diagramas de dispersin en escalas decimales y semilogartmica

La escala logartmica en el eje horizontal tiene el mismo efecto que la transformacin analtica de tomar x, = log(x) . En el caso de la funcin potencial se requerira graficar en un sistema cartesiano en el que ambos ejes tuvieran escalas logartmicas para conseguir la transformacin deseada (ver tabla 13.8).

La graficacin con escalas semilogartmica y logartmicas puede llevarse a cabo con Excel. Se realiza el diagrama de dispersin de los datos originales siguiendo las instrucciones dadas anteriormente; luego, se hace doble clic sobre el eje x del diagrama resultante con lo que aparecer el cuadro de dilogo Formato de ejes (ver figura 13.20). Se hace clic en Escala logartmica. En el caso de escalas logartmicas se repite la operacin anterior con el eje y.

58

lado, el modelo se asemeja a la funcin exponencial:

Ejemplo 13.16 La ley de Moore establecida en 1965 dice: cada 18 meses la potencia de las computadoras se duplica. Este dato puede parecer sorprendente pero el caso es que la Ley de Moore cumpli 40 aos en vigor el 19 de abril de 2005. (http://petra.euitio.uniovi.es/~arrai/historia/trilobytes/5-Moore%20y%20la%20ley%20de%20Moore/Moore.htm)ProcesadorAoN de Transistores

400419712250

800819723500

808019746000

8086197829000

2861982134000

3861985275000

486DX19891200000

Pentium19933100000

Pentium II19977500000

Pentium III199928000000

Pentium4200255000000

Encontrar la funcin matemtica que mejor ajuste la ley de Moore empleando Excel. Solucin. El diagrama de dispersin empleando Excel resulta

La escala vertical de la grfica tiene un rango muy amplio, de tal modo que parecieran iguales los primeros 5 valores. Esto naturalmente no es as por lo que debemos ser precavidos en la lectura de la grfica. Por otroy = b0eb1x

En Excel se seala el grfico, se usa el men Grafico y luego Agregar lnea de tendencia. Se elige

Exponencial y se solicita Presentar ecuacin en el grfico y Presentar el valor de R cuadrado en el grfico. El resultado es:

Excel haceinternamente las transformacionesy, = ln( y)yb,= ln(b ) , por loquehabr que

00

retransformarel coeficiente b,= ln(b ) paraobtener b= eb'=1.393447E - 273yla ecuacin

0

000

resultante es:

y =1.393447 10273e0.32277x

59

Actividad 13.11 Resolver el ejemplo 13.16 empleando el programa 13.2 del libro.son intrnsecamente

lineales. Para ver esto considrese la poblacin de Mxico en diferentes aos de los ltimos tres siglos:

Tabla 13.9 Poblacin de Mxico en los ltimos tres siglos

AOPOBLACIN EN MILLONESAOPOBLACIN EN MILLONES

18367.8

18467.5

18588.3

18628.4

18729

18769.5

190013.6

191015.2

192915.6

194019.6

195025.8

196034.4

197048.2

198066.8

199081.2

200097.5

2009107.6

La grfica de dispersin correspondiente es:

Figura 13.32 Diagrama de dispersin de la poblacin de Mxico

Al igual que en el ejemplo 13.14, la escala del eje vertical de la figura 13.32 puede causar interpretaciones errneas del diagrama por lo que es recomendable interactuar con la tabla 13.9. El anlisis de la grfica es interesante; por ejemplo, el hecho de que la poblacin de 1910 a 1929 sea prcticamente la misma se explica por la muerte de 2 millones de personas durante la revolucin. En 1930, sin embargo, se aprecia el inicio de una curvatura (cambio de pendiente del patrn lineal que se vena dando), debindose a una mayor estabilidad poltica y econmica del pas. En 2000, sin embargo, se asoma otra curvatura que se puede explicar como una estabilizacin del aumento de poblacin debido, entre otros factores, al control de la natalidad. Esto ltimo obliga a pensar en una funcin diferente a las vistas ya que en ninguno de los casos se tienen dos curvaturas.

60

Ventana al conocimiento 3

Mxico ocupa el 5 lugar dentro de los pases de Amrica con mayor prevalencia de diabetes y el 10.7% de su poblacin la presenta*, siendo el ms alto de Latinoamrica. Uno de los factores de riesgo para presentarla es el sobrepeso y la obesidad que se define como un exceso de tejido adiposo (graso).El estudio de laboratorio para diagnosticar a una persona con diabetes o prediabetes (que est en riesgo a desarrollarla) consiste en tomar su glucosa (azcar) en sangre en ayuno y durante 2 horas despus de una carga de glucosa. Existen tambin estudios en los que se monitorea la glucosa e insulina durante 3 5 horas y que permiten diagnosticar prediabetes. Esto resulta costoso para el sector salud e invasivo para el paciente.En el Instituto Nacional de Ciencias Mdicas y Nutricin Salvador Zubirn se tienen en curso investigaciones para establecer una relacin matemtica que, a travs de medidas antropomtricas (peso, estatura, grasa corporal, circunferencia de cuello, cintura, cadera, muslo, pantorrilla y brazo), puedan determinar si una persona es prediabtica. Lo anterior requerira de slo unos minutos, resultando econmico y menos molesto para el paciente.

*Fuente: Organizacin Panamericana de la Salud (OPS)

Instrumentos de medicin antropomtrica

13.4 Regresin multilineal

En estadstica hay muchos ejemplos donde una variable puede predecirse con exactitud en trminos de solamente otra variable. Sin embargo, las predicciones pueden mejorar si se considera informacin relevante adicional. En el caso del maratn, por ejemplo, si adems de tomar la temperatura media se incluyera la velocidad del viento y la humedad relativa, podra esperarse una mejor prediccin del tiempo de la ganadora o ganador.

Existen adems situaciones en las que resulta indispensable considerar de inicio mltiples variables. Por ejemplo, si se desea estimar el crecimiento econmico (y) de un estado o un pas, es necesario tomar en cuenta elementos como la inversin extranjera directa (x1) , las exportaciones (x2 ) , el capital humano (x3 ) proporcin de la poblacin total del estado o pas con educacin media y superior y la captacin de la banca comercial (x3 ) . La relacin funcional en este caso se representa como y = f (x1 , x2 , x3 ) y en general como y = f (x1 , x2 ,K, xk ) .

61

El modelo ms sencillo que relaciona la variable respuesta y con las variables predictivas xi , i =1,2,K, k , es una generalizacin del modelo lineal por lo que es llamado multilineal. Su representacin es:y = b+ b x + b x2+K+ b xk(13.17)

01 12k

Para encontrar los parmetros b0 , b1 , b2 , K, bk se utiliza la tcnica de ajuste por mnimos cuadrados empleando los n datos muestrales. El mtodo de ajuste por mnimos cuadrados para el caso multilineal es una generalizacin del caso lineal (ver apndice G). Se trata por tanto de minimizar la funcin

f (b0 ,b1,b2 ,K,bk ) = nei2 = n (b0 +b1x1,i +b2 x2,i +K+bk xk ,i yi )2

i =1i =1

Derivando parcialmente la funcin con respecto a b0 , b1 , b2 ,K, bk sucesivamente e

igualando a cero las derivadas resultantes, se llega a un sistema dek +1 ecuaciones lineales

conocido como ecuaciones normales para el modelo multilineal.

b0n+b1 nx1,i +b2 nx2,i+K+bk nxk ,i

i=1i=1i=1

b0 nx1,i +b1 nx1,2i +b2 nx1,i x2,i+K+bk nx1,i xk ,i

i=1i=1i=1i=1

MMMMM

b0 nxk ,i +b1 nxk ,i x1,i +b2 nxk ,i x2,i +K+bk nxk2,i

i=1i=1i=1i=1

= n yi i=1

n= i=1 x1,i yi (13.18)

M

= n xk ,i yi i=1

Resolviendo el sistema por alguno de los mtodos conocidos (regla de Cramer, eliminacin de Gauss, etc.) se encuentran los parmetros b0 , b1 , b2 , K, bk y se sustituyen en la ecuacin 13.17.

Como en casos previos, se considerar una situacin de estudio familiar a los lectores.

Situacin de estudio: Caloras en los alimentos

La cantidad de energa (caloras) en una porcin de alimento puede determinarse a partir de los gramos de grasa, protenas y carbohidratos que contiene. La idea es descubrir esta relacin a

62

partir de informacin recolectada de alimentos comunes en cualquier alacena o en el supermercado. Dentro de la informacin nutrimental en la etiqueta de cada producto pueden leerse las cantidades relevantes: Caloras ( y) , grasas (x1 ) , protenas (x2 ) y carbohidratos (x3 ) por cada porcin de alimento. A continuacin se dan los datos encontrados en 11 alimentos comunes. Se sugiere reunir sus propios datos y, trabajando en equipo, realizar los clculos correspondientes.

Tabla 13.10. Datos nutrimentales de alimentos comunes

AlimentoCaloras (Kcal)Grasa (g.)Protenas (g.)Carbohidratos (g.)

Leche Light (LALA)1002.57.811.6

Salchichas de pavo18012108

(KIR)

Agua0000

Pollo fresco (Bachoco)21515.1018.600

Avena (Quaker)1522.7527

Salsa Catsup (Del1120127

Monte)

Mantequilla (Becel)2730.00.0

Cereal de caja (La1120.151.626.3

Lechera Flakes)

Filete de pescado (Sierra20011.025.50.0

Madre)

Jamn de pierna (Oscar491.010.00.0

Mayer)

Arrachera marinada993171

(Rancho San Fco.)

El modelo que se ensaya es el multilineal, tenindose:

y = b0 + b1x1 + b2 x2 + b3 x3

Considerando el agua como referente importante, podra tomarse b0 = 0 . Lo anterior resulta lgico ya que en ese caso x1 = x2 = x3 = 0 y el valor de prediccin y debera ser tambin cero. Modificando el modelo:

y = b1x1 +b2 x2 +b3x3

Organizando los clculos de acuerdo a las ecuaciones 13.18:

63

Tabla 13.11 Organizacin de los datos para el clculo de b1 , b2y b3

yxx2x3x yx2yx3 yx x2x1 x3x2 x3x2x2x2

111123

1002.57.811.6250780116019.52990.486.2560.84134.56

18012108216018001440120968014410064

0000000000000

21515.118.603246.539990280.8600228.01345.960

1522.7527410.4760410413.572.91357.2925729

112012701123024002701729

273008100000900

1120.151.626.316.8179.22945.60.243.94542.080.02252.56691.69

2001125.50220051000280.500121650.250

491100494900100011000

9931712971683995131792891

124650.4596.5100.98710.71490312773775.6204.85391.56525.571574.62349.3

Sustituyendo valores en la ecuacin 13.18:

525.573b1 +775.6b2+ 204.845b3 = 8710.7

775.6b1 +1574.61b2+391.56b3= 14903.2

204.845b1 +391.56b2+ 2349.25b3 = 12772.6

Resolviendo (se sugiere utilizar Excel o una calculadora cientfica) se obtiene:

b1 = 9.21187 ; b2 = 3.93821 y b3 = 3.97725

Sustituyendo en el modelo multilineal:

y = 9.21187x1 +3.93821x2 +3.97725x3

En realidad, la relacin de las caloras de una porcin de alimento est relacionada con la cantidad de grasa, protenas y carbohidratos que contiene, de la siguiente manera:

Calorias = 9(Grasa) + 4(Proteina) + 4(Carbohidratos)

El acercamiento que se obtuvo (redondeando a enteros se obtienen los mismos valores) resulta bueno, considerando que se emplearon solamente 11 alimentos.

64

Ejemplo 13.17 Resolver el caso de las caloras en los alimentos con el programa 13.3 del libro.

Solucin

Inicie el programa 13.3 y haga clic en el botn Leer datos (la opcin predeterminada es la lectura de un archivo). Use el navegador para ubicar el archivo Alimentos.dat y haga clic en el botn Aceptar. Se obtiene:

Seleccione el modelo (en este caso se usa el modelo que no incluye b0 ). El resultado es:

65

x4 = x22 y x5 = x1x2

Breve introduccin al caso de funciones intrnsecamente multilineales

Al igual que en el caso de funciones de dos variables no lineales, es posible para las funciones no lineales de mltiples variables, transformarlas para llegar a un modelo multilineal. Se resuelve a continuacin un ejemplo como ilustracin.

Ejemplo 13.18 El porcentaje de impurezas que se encuentra, a varias temperaturas y tiempos de esterilizacin, en una reaccin asociada con la fabricacin de cierta bebida, est representado por los datos siguientes:Porcentaje de impurezasTemperatura CTiempo de esterilizacin (min)

yx1x2

14.057515

14.937515

16.567520

15.877520

22.417525

21.667525

10.5510015

9.4810015

13.6310020

11.7510020

18.5510025

17.9810025

7.5512515

6.5912515

9.2312520

8.7812520

15.9312525

16.4412525

Estime los coeficientes en el modelo no lineal siguiente:

y = b0 +b1x1 +b2 x2 +b3x12 +b4 x22 +b5 x1x2SolucinSe trata de un modelo no lineal mltiple. Al igual que en el caso no lineal de una variable, puede transformarse en multilineal mediante ciertas transformaciones. En este caso cambiando las variables de la siguiente manera:

x3 = x12 , Sustituyendo en el modelo propuesto se tiene:y = b0 +b1x1 +b2 x2 +b3x3 +b4 x4 +b5 x5

Los parmetros b0 ,b1,K,b5 pueden obtenerse a partir del sistema 13.18 con k = 5 . La organizacin de los clculos en este caso queda:

y14.0514.9316.5615.8722.4121.6610.55K

x1757575757575100K

x215152020252515K

x356255625562556255625562510000

MMMMMMMMM

Sustituyendo las sumatorias resultantes y el valor de n en la ecuacin 13.18 se llega a

66

18b0+1800b1+360b2+187500b3+7500b4+36000b5= 251.94

1800b0 +187500b1+36000b2+20250000b3+750000b4+3750000b5= 24170

360b0+36000b1+7500b2+3750000b3+162000b4+750000b5= 5287.9

187500b0 +20250000b1 +3750000b2 +2254687500b3 +78125000b4 +405000000b5 = 24208507500b0+750000b1+162000b2+78125000b3+3607500b4 +16200000b5=115143

36000b0+3750000b1+750000b2+405000000b3+16200000b4 +78125000b5= 508702.5

Resolviendo con Excel se obtiene:b0 = 56.423333 , b1 = 0.3625333 , b2 = 2.7476667 , b3 = 0.000816 , b4 = 0.081600 y b5 = 0.003140

Sustituyendo:y = 56.423333 0.3625333x1 2.7476667x2 +0.000816x3 +0.0816x4 +0.00314x5Una vez obtenidos los coeficientes, puede estimarse el porcentaje de impurezas correspondiente a un tiempo de esterilizacin y una temperatura dados; por ejemplo, a un tiempo de 19 minutos y una temperatura de 80 C se tiene un porcentaje de impurezas de:

y = 56.4233330.3625333(80) 2.7476667(19) +0.000816(80)2 +0.0816(19)2 +0.00314(8019) y =14.67

Ejemplo 13.19 Resolver el ejemplo 13.18 con el programa 13.3.

SolucinConsiderando las transformaciones de las variables y organizando los datos se obtiene:yx1x2xx4x

35

14.05751556252251125

14.93751556252251125

16.56752056254001500

MMMMMM

15.9312525156256253125

16.4412525156256253125

Resolviendo con el programa 13.3 (ver ejemplo 13.17) se tiene:

67

Creacin de un archivo de datos

Inicie el programa 13.1 o 13.2 o 13.3 y haga clic en la opcin Teclado

Haga clic en el botn Leer datos. Aparecer una ventana solicitando el Nmero de puntos a usar:

Escriba el nmero de parejas de datos (x, y) de su ejemplo y oprima la tecla Enter o haga clic en el botn Aceptar. Aparecer una tabla donde podr escribir los valores numricos de sus parejas de datos. Adems aparecer el botn Calcular.

68

Una vez que empiece a escribir sus datos aparecer el botn Guardar datos. Cuando haya escrito todos sus datos haga clic en el botn Guardar datos. Aparecer una ventana del navegador de Windows (la unidad, el directorio y los archivos dependern de la computadora que se est usando):

Seleccione la unidad y el directorio donde desee guardar sus datos y escriba el nombre del archivo que desea crear con la extensin .dat. Por ltimo oprima la tecla Enter o haga clic en el botn Aceptar. En caso de que el archivo ya exista, el programa preguntar si desea sobrescribirlo. En adelante podr utilizar el archivo para posteriores usos del programa.

69

Glosario

Anlisis deTcnica estadstica para establecer el grado de asociacin o

correlacincorrelacin entre dos o ms variables de una poblacin a partir

Anlisis de regresinde una muestra aleatoria.

Tcnica estadstica para establecer la relacin funcional entre dos o

Anlisis inferencialms variables a partir de una muestra de la poblacin.

Estimacin de intervalos y pruebas de hiptesis del coeficiente de

en correlacin ycorrelacin, de los parmetros de la recta de regresin y de los

regresinvalores de prediccin obtenidos con ella.

Coeficiente deMedida numrica del tipo y grado de correlacin lineal entre dos

correlacin r devariables cuantitativas, que toma valores entre -1 y +1. Los valores

Pearsoncercanos a +1 indican una asociacin o correlacin positiva fuerte y

los cercanos a -1 una asociacin o correlacin negativa fuerte. Los

valores cercanos a cero indican no asociacin o correlacin.

Coeficiente deEs la razn de la variacin explicada sobre la variacin total. Es

determinacin r 2decir,r 2es la fraccin dela variacintotal enyquepuede

explicarseusando el modelolineal deregresiny = b0+ b x :

1

r 2 =Variacin explicada

Variacin total

Desviacin explicadaDiferencia entre el valor obtenido usando la lnea de ajuste por

mnimos cuadrados y y el valor medio de los valores observados

y: yy.

i

Desviacin no explicada o residual

Desviacin total

Diagrama de dispersin

Error estndar de estimacin

Factor variable o de confusin

Diferencia entre el valor observado de la variable respuesta yi y el

valor correspondiente obtenido usando la lnea de ajuste por mnimos cuadrados y : yi yi .

Diferencia entre el valor observado de la variable respuesta yi y el valor medio de los valores observados y : yi y .