13
Regresión con variables independientes categóricas 1.- Introducción ........................................................................................................................ 2 2.- Regresión y contrate de medias .......................................................................................... 2 2.1.- Contrate de medias .......................................................................................................... 2 2.2.- Regresión ......................................................................................................................... 3 3.- Regresión y análisis de la varianza ..................................................................................... 5 3.1.- Análisis de la varianza ..................................................................................................... 7 3.2.- Regresión ......................................................................................................................... 9 Carlos Camacho Universidad de Sevilla

Regresión con variables independientes categóricas...habilidad verbal por un grupo de varones y otro de mujeres: Varones: 10, 12, 15, 8, 11 Mujeres: 12, 13, 9, 18, 16 2.1.- Contraste

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

  • Regresión con variables independientes categóricas 1.- Introducción ........................................................................................................................ 2 2.- Regresión y contrate de medias .......................................................................................... 2 2.1.- Contrate de medias .......................................................................................................... 2 2.2.- Regresión ......................................................................................................................... 3 3.- Regresión y análisis de la varianza ..................................................................................... 5 3.1.- Análisis de la varianza ..................................................................................................... 7 3.2.- Regresión ......................................................................................................................... 9

    Carlos Camacho Universidad de Sevilla

  • 2

    Regresión con variables independientes categóricas 1.- Introducción. Aunque el modelo de regresión lineal parece indicado cuando la naturaleza de ambas variables X e Y sean cuantitativas, no obstante es fácilmente demostrable que no es problema alguno operar con variables independientes cualitativas. En el caso de una variable X dicotómica, la regresión simple equivale a un contraste de medias. El supuesto de normalidad en las distribuciones ligadas (para los diferentes valores de X) es equivalente al supuesto de normalidad en las poblaciones orígenes de las dos muestras en el contraste de medias. El supuesto de homocedasticidad es el equivalente al de igualdad de varianza en las poblaciones orígenes. Y por último, el de linealidad (entre los puntos medio de las distribuciones ligadas), se cumple por cuanto entre dos puntos (las medias de ambas muestras) siempre se puede definir una recta. Comenzaremos por desarrollar el caso en que la variable independiente presenta dos categorías, lo que permitirá asimilarlo al contraste de medias. Posteriormente trataremos el caso en el que la variable independiente presenta más categorías, lo que será asimilado al análisis de la varianza. Se observará una total equivalencia de la regresión con ambas pruebas, con la ventaja que la regresión ofrece un enfoque más parsimonioso y permite además conocer la proporción de variabilidad explicada por la variable independiente ( 2R ). 2.- Regresión y contrate de medias. Supongamos que tenemos las siguientes puntuaciones obtenidas en una determinada prueba de habilidad verbal por un grupo de varones y otro de mujeres: Varones: 10, 12, 15, 8, 11 Mujeres: 12, 13, 9, 18, 16 2.1.- Contraste de medias Si hacemos los análisis mediante un contraste de medias, los datos quedarían dispuestos de la siguiente manera:

    http://sites.google.com/site/vararey/mediacap.sav

  • 3

    Los varones se han agrupado con el valor de 1 y las mujeres, con el valor de 2. Hacemos el análisis:

    Los varones se han agrupado con el valor de 1 y las mujeres, con el valor de 2. Los resultados son:

    Se observa, como dato más relevante, que las medias de varones y mujeres son 11.2 y 13.6 respectivamente, junto que el valor de t es -1.231, con una significación de 0.253, que indica que no hay diferencias entre ambos sexos. 2.2.- Regresión Si estos cálculos los realizamos mediante la regresión simple, habremos primeramente de efectuar una cierta modificación sobre la variable X en el sentido de someterla a una cierta codificación, la codificación dummy, o en español, ficticia, de forma tal que sea susceptible de ser tratada con la regresión lineal. Se trata de codificar una categoría como 0 -ausencia de un determinado rasgo- y 1 la otra categoría -presencia de ese rasgo-. En el caso que nos concierne si codificamos varones como 0

    Estadísticas de grupo

    Sexo N Media

    Habilidad social 1,00

    2,00

    5 11,2000 2,58844 1,15758

    5 13,6000 3,50714 1,56844

    Prueba de muestras independientes

    prueba t para la igualdad de medias

    F Sig. t gl Inferior Superior

    ,701 ,427 -1,231 8 ,253 -2,40000 1,94936 -6,89523 2,09523

    -1,231 7,36 ,256 -2,40000 1,94936 -6,96412 2,16412

  • 4

    y mujeres como 1, estaremos queriendo decir, que en primer caso hay ausencia del "sexo mujer" y en otro presencia. Así, el fichero de datos será:

    Hacemos el análisis:

    Y el resultado del análisis de regresión:

    Resumen del modelo

    Modelo R R cuadrado

    1 ,399a

    ,159 ,054 3,08221

    a.

    http://sites.google.com/site/vararey/mediaregre.sav

  • 5

    Se observa una total equivalencia. El contraste se realiza mediante el análisis de la varianza que da un valor de 1.515 (el valor de t al cuadrado 1.2312=1.516) y También el valor de t para la pendiente (2.4, que es la diferencia de las medias) equivalente al valor de t en el contraste de medias. Por otro, lado la significaciones siempre la misma 0.253 que anteriormente. Las medias de ambos grupos equivalen a las puntuaciones estimadas para cuando X vale 0 (los varones) y X vale 1 (las mujeres). Así la ecuación de regresión será:

    De esta forma, cuando se trata de varones la puntuación prevista en Habilidad verbal será: Y para las mujeres: 3.- Regresión y análisis de la varianza De forma equivalente pueden resolverse los problemas del análisis de la varianza desde la perspectiva de la regresión. Como se sabe, la condición es respetar los supuestos del modelo, que para estudios transversales son: linealidad, normalidad y homocedasticidad. Estos dos últimos son los mismos que los supuestos del análisis de la varianza, así que nada que decir al respecto. Queda la cuestión de la linealidad, que para dos medias (contrastes de medias) siempre se cumple, ya que dos puntos, cualesquiera que sean siempre pueden ser unidos mediante una recta. Otra cuestión es cuando se trata de tres o más puntos, que difícilmente estarán exactamente alineados, por lo que para ello hemos de idear otra estrategia.

    ANOVAa

    Modelo gl F Sig.

    1 Regresión

    Residuo

    Total

    14,400 1 14,400 1,516 ,253 b

    76,000 8 9,500

    90,400 9

    a.

    b.

    Coeficientesa

    Modelo t Sig.B Beta

    1 (Constante)

    Sexo

    11,200 1,378 8,125 ,000

    2,400 1,949 ,399 1,231 ,253

    a.

    XY 4.22.11ˆ +=

    2.110*4.22.114.22.11ˆ =+=+= XY

    6.131*4.22.114.22.11ˆ =+=+= XY

  • 6

    La solución consiste en generar tantas variables independientes como categorías haya en el factor, y a continuación codificar cada una de estas variables con “ceros” y “unos” según la categoría a la que pertenezca los distintos sujetos. Veamos un ejemplo. Supongamos que aplicamos tres métodos de enseñanza (A, B y C) sobre tres grupos de sujetos, generaríamos tres variables: X1, X2 y X3. Los sujetos que pertenecen al grupo A serían codificados como 1 (presencia en X1) en la variable X1 y 0 en las restantes (ausencia en X2 y X3). Así: X1 X2 X3

    1 0 0 Los sujetos que pertenecen al grupo B, tendrían la siguiente codificación: X1 X2 X3

    0 1 0 Y los sujetos pertenecientes al grupo C: X1 X2 X3

    0 0 1 Obsérvese que no es necesaria la variable X3. Con las dos primeras variables codificadas siempre estamos al tanto del grupo al que pertenecen los distintos sujetos. Si explícitamente están en X1 o X2, no hay problemas, y si no están en ninguna de ellas, entonces se entiende que están en X3. Matemáticamente es conveniente hacerlo así, porque si no estaremos introduciendo una variable (cualquiera de ellas) que queda explicada por las otras, con lo que nos encontraremos con un problema de colinealidad, con matrices singulares y sin posible solución. Por tanto, generaremos dos variables con la siguiente codificación: X1 X2

    Grupo A 1 0 Grupo B 0 1 Grupo C 0 0

    Por otro lado, el hecho de plantear el análisis de la varianza como un problema de regresión múltiple permite salvar el supuesto de linealidad. De nuevo, cada una de las variables independientes sólo tiene dos posibles valores sobre los cuales establecer una recta. Ahora la ecuación de regresión corresponde geométricamente con un plano y aunque las tres medias no estén alineadas en una recta (una dimensión) sí lo están en un plano (dos dimensiones) Veamos un ejemplo. Supongamos que tenemos tres grupos de sujetos de estudiantes de matemáticas a los que hemos aplicado tres métodos de enseñanza distintos: A, B y C. Los resultados en esta materia son los siguientes:

  • 7

    A B C _____________ 6 5 7 7 6 6 6 5 6 5 5 7 4 4 8 5 5 8 7 5 7 5 6 6 _____________ 3.1.- Análisis de la varianza Si aplicáramos sobre estos datos un análisis de la varianza, configuraríamos la matriz de datos de la siguiente manera:

    Y a continuación: Analizar/Comparar medias/ANOVA de un factor:

    http://sites.google.com/site/vararey/anovarcap.sav

  • 8

    Completamos el subcuadro de dialogo de la siguiente manera:

    Obteniendo los siguientes resultados:

    Si hacemos comparaciones post hoc:

    ANOVARendimiento

    gl F Sig.

    Entre grupos

    Dentro de grupos

    Total

    13,000 2 6,500 8,736 ,002

    15,625 21 ,744

    28,625 23

  • 9

    Se observa que no hay diferencia entre A y B (𝑝 = 0.259), pero sí la hay entre A y C (𝑝 = 0.009) y entre B y C (𝑝 = 0.001) Si hacemos Bonferroni:

    Se siguen manteniendo las diferencias entre los métodos de enseñanza pero menos marcadamente, como se ve en las significaciones cuya probabilidad es mayor. 3.2.- Regresión múltiple Veamos ahora cómo habríamos de disponer de los datos para operar desde el modelo de regresión:

    http://sites.google.com/site/vararey/anovaregre.sav

  • 10

    A continuación:

  • 11

    Obsérvese cómo el análisis de la varianza sobre el modelo de regresión es exactamente el mismo. Además, sabemos que los métodos de enseñanza dan cuenta de un 45% de la variabilidad de los datos, cosa que en principio no ofrece el ANOVA. Por otro lado, las puntuaciones previstas para los diferentes métodos de enseñanza son: Método A:

    625.50*75.11*25.1875.675.1250.1875.6ˆ 21 =−−=−−= XXY Método B:

    125.51*75.10*25.1875.675.1250.1875.6ˆ 21 =−−=−−= XXY Método C:

    875.60*75.10*25.1875.675.1250.1875.6ˆ 21 =−−=−−= XXY

    que son las medias de los grupos A, B y C respectivamente. Se observa que los coeficientes de regresión hacen referencia a las diferencias de medias de A y B con C. Su significación coincide lógicamente con el de contraste de medias, aunque sin la corrección de Bonferroni, que podemos aplicarle a mano. Por ejemplo, en la comparación de A con C, la significación es 0.009. Al aplicarle Bonferroni, como son 3 contrastes:

    𝛼𝐹𝐹 = 𝐶 ∗ 𝛼𝑃𝑃 = 3 ∗ 0.009 = 0.027

    Resumen del modelo

    Modelo R R cuadrado

    1 ,674a

    ,454 ,402 ,86258

    a.

    ANOVAa

    Modelo gl F Sig.

    1 Regresión

    Residuo

    Total

    13,000 2 6,500 8,736 ,002 b

    15,625 21 ,744

    28,625 23

    a.

    b.

    Coeficientesa

    Modelo t Sig.B Beta

    1 (Constante)

    X1

    X2

    6,875 ,305 22,543 ,000

    -1,250 ,431 -,540 -2,898 ,009

    -1,750 ,431 -,755 -4,058 ,001

    a.

  • 12

    Valor equivalente al obtenido en el ANOVA (salvo errores de redondeo). Hay un pequeño problema con la regresión y es que los coeficientes son siempre en relación con la variable que hemos codificado como 0 en X1 y X2, que en nuestro caso es el método C. Si queremos comparar A con B hemos de crear una nueva dummy. Así:

    Si tomamos ahora las dos últimas columnas para la regresión la variable codificada como “0 0” será el método A. Así pues:

    Los resultados:

  • 13

    Si queremos comparar B con A, la diferencia de medias es -0.5, con una significación de 0.259, como obtuvimos en el ANOVA. Lo mejor es codificar las variables dummies como A, B y C, ya que en 𝑋1 lo que está presente es A, B en 𝑋2 y C en 𝑋3. Así es más fácil la lectura del modelo de regresión y además, si tenemos las tres variables podemos hacer todos los contrastes posibles:

    Coeficientesa

    Modelo t Sig.B Beta

    1 (Constante)

    X2

    X3

    5,625 ,305 18,445 ,000

    -,500 ,431 -,216 -1,159 ,259

    1,250 ,431 ,540 2,898 ,009

    a.