Libro Analisis Multivariante

Embed Size (px)

Citation preview

  • 8/19/2019 Libro Analisis Multivariante

    1/215

    Análisis Multivariante(Diplomatura en Estadística)

    Primer Cuatrimestre. Curso 2006-2007

    TEMAS de TEORÍA • Tema 1: Introducción al Análisis Multivariante y al Cálculo Matricial

    • Tema 2: Estadística Descriptiva Multivariante

    • Tema 3: Análisis de Componentes Principales

    • Tema 4: Análisis Factorial

    • Tema 5: Análisis de Cluster y Multidimensional Scaling • Tema 6: Análisis Discriminante

    • Tema 7: Análisis de Correspondencias

    (http://halweb.uc3m.es/esp/Personal/personas/jmmarin/)

  • 8/19/2019 Libro Analisis Multivariante

    2/215

    Tema 1: Introducción al AnálisisMultivariante y al Cálculo Matricial

    Introducción al Análisis Multivariante

    Su origen histórico se encuentra en los primeros años del siglo XX. Surge dentro del

    marco de la psicología aplicada como una teoría matemática que trata de explicar el con-

    cepto de inteligencia . Es decir, se supone que la inteligencia constituye un compendio

    de diversas habilidades y conocimientos y se suele medir mediante aspectos o manifesta-

    ciones parciales. Spearman (1904) y Pearson (1901) trataron de de nir una variable que

    midiese la cantidad de inteligencia y que fuese un compendio o resumen (de hecho una

    combinación lineal) de los componentes de la misma. Esto sería el origen de lo que luego

    se denominó el método de los Componentes Principales . Posteriormente se han ido desar-

    rollando numerosas técnicas para variables tanto cuantitativas como categóricas.

    El análisis multivariante, en esencia, se dedica al estudio de varias variables de modo

    simultáneo. Es decir, tomamos un objeto y no sólo medimos un aspecto suyo (e.g. una

    persona a la que se mide sólo su altura), sino que consideramos varios aspectos y tratamos

    de determinar la relación entre estas medidas. Es decir, medimos además de la altura, el

    peso, y además indicamos su sexo, cuál es la clase social a la que pertenece y cuál es su

    renta por año. Además, no sólo nos interesan los valores en cada caso, sino también las

    relaciones simultáneas entre ellas.

    Con el desarrollo de la Informática, se ha hecho posible desarrollar e implementar

    programas estadísticos que contienen las técnicas multivariantes; así, todos los programas

    de este tipo contienen una parte importante dedicada a estas técnicas (e.g. se puede ver

    1

  • 8/19/2019 Libro Analisis Multivariante

    3/215

    en R, STATGRAPHICS , SPSS , ...).

    En de nitiva, el desarrollo teórico surgido en el siglo XX junto con las aplicaciones

    crecientes de la estadística en la vida económica de los países han hecho de las técnicas

    del Análisis Multivariante junto con el Análisis de Regresión, uno de los instrumentos más

    empleados para el estudio del entorno ambiental, económico y social.

    Tipos de variables

    Uno de los problemas fundamentales en Estadística es cómo medir los aspectos de las

    personas, seres vivos u objetos. Es decir, no es lo mismo tomar una población cualquiera ymedir la altura de las personas en dos clases: altos y bajos, que tomar una escala métrica

    y dividirla en segmentos, asignando a cada persona el número o medida en cm. En un

    caso tendremos, en realidad, una variable categórica (con dos categorías: altos y bajos) y

    en el otro, una variable cuantitativa ( 1, 70;1, 65; . . .). En el primer caso no tendrá sentido

    hallar una media ( bajo − alto ) pero sí una moda y en el otro, sí será congruente hablar

    de la altura media .Nadie pondrá en duda que determinar la medida de las personas en altos o bajos es

    menos informativo que tomar una escala métrica. De hecho, en Estadística, las técnicas

    que se pueden aplicar varían según sea la información recogida por las variables. De la

    misma forma, se puede decir lo mismo en Análisis Multivariante. Técnicas como el análisis

    discriminante se aplican en variables cuantitativas distribuidas como una distribución

    normal, mientras que el análisis log-lineal se aplica en variables categóricas en exclusiva.

    Como posible clasi cación, según el grado de información que contienen unas variables,

    se pueden dividir a éstas en:

    ( i ) Variables Nominales :Sólo distinguen entre varias categorías, sin que exista ninguna

    jerarquía entre ellas.

    Ejemplos: la variable sexo : mujer, hombre. La variable colores del arco iris : azul,

    violeta, amarillo, ...

    2

  • 8/19/2019 Libro Analisis Multivariante

    4/215

    Se pueden recodi car con números, aunque no tengan un sentido algebraico: mujer

    = 1, hombre = 0.

    No tiene sentido hallar medias o varianzas. Tan sólo modas, números de casos y las

    llamadas relaciones de contingencia.

    ( ii ) Variables Ordinales

    Además de distinguir distintas categorías para una variable, se puede distinguir

    una relación de orden entre ellas. Por ejemplo, la variable tamaño de letra en un

    procesador de texto: menuda, pequeña, normal, grande y extragrande.

    Podríamos recodi carla como 1, 2, 3, 4 y 5 y establecer una relación de orden :

    1 < 2 < 3 < 4 < 5.

    Sin embargo, no se tiene la misma diferencia entre grande y extragrande 5 −4 = 1,que entre pequeña y menuda 2−1 = 1, aunque los números coincidan. Sólo se puededecir que una es mayor que la otra. Es decir, la diferencia entre los valores de la

    variable no tiene sentido. Además, no existe origen en la escala de las medidas (porej. tamaño 0).

    ( iii ) Variables de Intervalo

    Además de contener las características de las dos anteriores (distingue entre valores

    y entre la distinta jerarquía de valores) añade el hecho de dotar de sentido a la

    diferencia entre los valores de la variable. Es decir, la distancia o diferencia entre

    dos valores consecutivos de la variable es siempre el mismo. Un ejemplo típico sería

    la variable temperatura .

    Sin embargo, estas variables no tienen un origen en la medida. Por ejemplo, 0 oC es

    el punto de congelación del agua pura, no la ausencia de temperatura.

    ( iv ) Variables de razón

    3

  • 8/19/2019 Libro Analisis Multivariante

    5/215

    Son idénticas a las anteriores salvo que presentan un origen absoluto de medida.

    En estas variables tiene sentido tomar fracciones de sus valores o razones . Se puede

    decir que un valor es el doble que otro.

    Por ej. la edad expresada en años: el 0 tendría el sentido de una persona no nacida.

    Se puede observar que la información recogida por las variables va creciendo desde

    las nominales a las de razón. Siempre es posible pasar de más información a menos: una

    variable de intervalo o de razón se puede dividir en trozos (o intervalos) y convertirla en

    nominal. El paso contrario no es posible.

    Clasi cación de las Técnicas Multivariables

    Las técnicas multivariables se pueden clasi car según dos posibles criterios:

    (i ) Se está interesado en la asociación entre las distintas variables, es decir, en las relaciones

    entre las mismas, donde parte de estas variables dependen o se miden en función de

    las otras. Son los llamados Métodos Dependientes . Subyace en ellos siempre un interés

    predictivo.

    (ii ) Se está interesado en investigar las asociaciones que se presentan entre variables sin

    distinción de tipos entre ellas. Son Métodos Independientes . Tienen un interés descriptivo

    más bien.

    Métodos Dependientes

    Regresión múltiple: Estudia la dependencia de una variable en función de otras

    variables.

    Análisis discriminante: Se busca una función lineal de varias variables que permita

    clasi car nuevas observaciones que se presentan.

    Métodos log-lineales y logit: Se predicen números de apariciones en casillas (re-

    cuentos) en función de otras casillas. Se usan variables categóricas.

    Análisis de correlación canónica: Se toma un grupo de variables y se trata de

    predecir sus valores en función de otro grupo de variables.

    4

  • 8/19/2019 Libro Analisis Multivariante

    6/215

    Análisis multivariante de la varianza: se descompone la variabilidad en una me-

    dida de un conjunto de variables cuantitativas en función de otras variables categóricas.

    Métodos IndependientesAnálisis de componentes principales: Se tienen n variables cuantitativas y se

    mezclan mediante combinaciones lineales reduciéndose a p < n variables que resumen la

    información para facilitar la interpretación.

    Análisis factorial: Es parecido a la anterior aunque sólo se ja en explicar en términos

    de factores ocultos las variables originales, no tanto en reducir el número de variables.

    Multidimensional scaling: Busca mapas de los objetos, situándolos según una seriede métricas.

    Análisis de correspondencias: Es parecido al análisis factorial, pero con variables

    categóricas exclusivamente.

    Análisis de cluster: Trata de identi car grupos naturales entre las observaciones

    según sus valores medidos por las variables.

    Algebra de Matrices

    En el análisis multivariable se presentan de forma habitual matrices. En general, se

    toman varias variables aleatorias o mediciones que ocupan una serie de columnas y estas

    mediciones se consideran sobre una serie de objetos o individuos.

    Por ejemplo, se toman 5 personas y se mide la edad de entrada en la universidad ( x1),

    la nota media de las asignaturas después del primer año ( x2) y el sexo (x3). Se obtiene:

    x1 x2 x31 18,45 7.4 12 18,41 6.5 03 18,39 7.2 04 18,70 9.4 15 18,34 7.1 1

    En sentido estricto, las 5 personas son una muestra aleatoria extraída de una población

    muy grande y se consideran variables aleatorias en el sentido de que su valor (por ej. x2:

    5

  • 8/19/2019 Libro Analisis Multivariante

    7/215

    nota nal media) no puede ser determinado previamente, sino que depende de muchas

    causas en número inconmensurable.

    El concepto principal que se estudia es el concepto de vector. Cuando medimos una

    variable en un conjunto de elementos de una población, esta muestra puede representarse

    geométricamente asociando el valor de la variable en cada elemento a a una dimensión

    del espacio.

    Un vector de dimensión n puede verse como una representación de los valores de una

    variable en n elementos de una población. Se puede ver que existe una relación entre los

    conceptos básicos de descripción estadística de la variable y ciertas operaciones vectorialesA su vez, una matriz es un conjunto de vectores: cuando en lugar de medir una variable

    en cada elemento observamos los valores de k variables, podemos representar la muestra

    de datos multivariantes mediante una matriz.

    Vectores

    En general, una muestra de n elementos de una variable la representaremos medianteun vector. La longitud de un vector se denomina módulo. En una muestra, el módulo

    del vector diferencia entre el vector asociado a la muestra y el vector que representa una

    constante es la desviación típica de la variable. Si el vector representa los valores de una

    variable de media cero, el módulo del vector es directamente la desviación típica.

    La dependencia lineal entre dos variables se mide por la covarianza. El concepto anál-

    ogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la

    relación entre dos vectores. Dados dos vectores, el producto escalar es el producto de sus

    longitudes por el coseno del ángulo que forman. De acuerdo con esta de nición, si con-

    sideramos vectores de longitud unidad el producto escalar es el coseno de su ángulo en el

    espacio, y será, en consecuencia, un número entre −1 y 1. Si los vectores son perpendicu-lares u ortogonales su producto escalar es cero. Si son colineales (es decir, están sobre la

    misma línea) su producto escalar es uno o menos uno.

    6

  • 8/19/2019 Libro Analisis Multivariante

    8/215

    Si dos vectores representan los valores de dos variables estandarizadas (las dos variables

    tienen media cero y varianza unidad) en los mismos n elementos de una población, el

    producto escalar es equivalente al coe ciente de correlación entre las dos variables.

    Cuando consideramos varios vectores, el concepto principal es la noción de dependencia

    lineal. Para comprender la importancia de esta idea, supongamos que tenemos k variables

    medidas sobre n elementos de una población ( n ≥ k), y los n valores de cada variableforman un vector en el espacio de n dimensiones.

    Un problema importante es conocer cuantas variables realmente distintas tenemos.

    Por ejemplo, si una variable representa salarios en euros y otra los mismos salarios peromedidos en dólares aunque ambas variables no sean idénticas es claro que las dos variables

    miden la misma característica. Las dos variables son linealmente dependientes, ya que una

    se obtiene multiplicando por una constante los valores de la otra.

    Generalizando esta idea, diremos que k variables son linealmente dependientes si

    podemos obtener los valores de una cualquiera mediante una combinación lineal del resto.

    Por ejemplo, si tenemos tres variables, número de hombres, número de mujeres y número

    de personas (que es la suma de las anteriores), las tres variables son linealmente depen-

    dientes porque podemos calcular el valor de cualquiera de ellas conocidos los valores de

    las otras dos. Al representar las variables como vectores, la noción de dependencia lineal

    permite conocer el número de variables distintas existentes en un grupo de variables.

    Si tenemos k vectores de n componentes y k > n siempre podemos tomar n vectores

    cualesquiera de los k y expresar los k

    −n restantes como combinación lineal de estos

    vectores. Por tanto, en el espacio R n de vectores de n coordenadas, el máximo número de

    variables linealmente independientes que podemos tener es n.

    7

  • 8/19/2019 Libro Analisis Multivariante

    9/215

    De niciones básicas

    Llamaremos vector a un conjunto ordenado de n número reales, x , y escribiremos sus

    componentes en columna:

    x =⎛

    ⎜⎝

    x1...

    xn

    ⎟⎠

    donde xi es el componente i del vector.

    En Estadística un vector columna es habitualmente la representación de los valores de

    una variable en una muestra de n elementos.

    Un conjunto de n números reales x es un punto en el espacio R n . Intuitivamente,

    consideraremos al vector x como la línea que va desde el origen de coordenadas hasta el

    punto x . La dirección es importante, porque no es lo mismo el vector x que el −x . Deesta manera a cada punto del espacio en R n le asociamos un vector. Llamaremos vector

    constante al que tiene todas sus coordenadas iguales. Para cada vector:

    La suma (o diferencia) de los vectores x , y , ambos en R n , se de ne como un nuevo

    vector con componentes iguales a la suma (diferencia) de los componentes de los sumandos:

    x + y =⎛

    ⎜⎝

    x1...

    xn

    ⎟⎠+⎛

    ⎜⎝

    y1...

    yn

    ⎟⎠=⎛

    ⎜⎝

    x1 + y1...

    xn + yn

    ⎟⎠.

    Es inmediato comprobar que la suma de vectores es asociativa y conmutativa.

    La suma de dos vectores corresponde a la idea intuitiva de trasladar uno al extremo

    del otro y construir la línea que va desde el origen de coordenadas al extremo de la suma.

    La operación suma vectorial corresponde a generar una nueva variables que es suma

    de las anteriores. Por ejemplo, si x , representa el número de trabajadores varones en

    un conjunto de empresas e y , el número de trabajadoras, la variable x + y representa

    el número total de trabajadores. La diferencia de vectores se utiliza con frecuencia en

    estadística para medir la distancia entre una variable y el vector asociado

    El producto de una constante por un vector , es un nuevo vector cuyos componentes

    8

  • 8/19/2019 Libro Analisis Multivariante

    10/215

    son los iniciales multiplicados por la constante.

    z = kx =⎛

    ⎜⎝

    kx1...

    kxn

    ⎟⎠.

    Multiplicar por una constante equivale a un cambio en las unidades de medida. Por

    ejemplo, si en lugar de medir el número de trabajadores en unidades (variable x) lo

    hacemos en centenas (variable z ) entonces variable z = x / 100.

    Llamaremos vector transpuesto x 0, de otro x , a un vector con los mismos compo-

    nentes, pero escritos en la:

    x 0 = ( x1,...,x n ).

    Al transponer un vector columna se obtiene un vector la. Generalmente los vectores

    la se utilizan para describir los valores de k variables distintas en un mismo objeto de

    una población.

    El producto escalar ó interno de dos vectores xy , ambos en R n , que escribiremos

    x 0y ó y 0x , es el escalar obtenido al sumar los productos de sus componentes.

    x 0y = y 0x =n

    Xi=1 xiyi .Si tomamos y = (1 /n, ..., 1/n ), el producto escalar de la variable x y este vector de

    constantes proporciona la media de la variables

    (x1, x2,...,x n )⎛

    ⎜⎝

    1/n1/n...

    1/n

    ⎟⎠

    = Pxin .Cuando ninguna de las dos variables es una constante el producto escalar se asocia en

    Estadística a la covarianza.

    Para variables con media cero el producto escalar de los dos vectores que representan

    sus valores es directamente la covarianza.

    Para variables con media distinta de cero, la covarianza corresponde al producto es-

    calar de las desviaciones de los datos respecto a sus medias. Observamos que obtener la

    9

  • 8/19/2019 Libro Analisis Multivariante

    11/215

    desviación respecto a su media equivale a calcular la diferencia de vectores x −x1 , donde1 es un vector constante de unos .

    Se llamará norma o longitud de un vector x , a la raíz cuadrada del producto escalar

    x 0x . Se escribe |x |:

    |x | = √ x 0x = q x21 + . . . + x2n .La norma es la longitud del segmento que une el origen con el punto x que corresponde

    a la longitud de la hipotenusa en el triángulo rectángulo formado por el vector y sus

    proyecciones sobre los ejes.

    Para variables con media cero la desviación típica es n veces la norma del vector. Para

    variables con media distinta de cero la desviación típica es n veces la norma del vector de

    los datos en desviaciones a la media, x −x1 .El producto escalar de dos vectores puede verse también como el producto del módulo

    de un vector y la proyección del otro sobre él. En general, el coseno del ángulo θ formado

    por los dos vectores x , y viene dado por por la relación:

    cosθ = x0y

    |x | |y |.

    para variables con media cero el coseno es el coe ciente de correlación . Como cosθ ≤ 1,se demuestra en general que:

    |x 0y | ≤ |x || y | .que se conoce como la desigualdad de Schwarz .

    Dos vectores son ortogonales , o perpendiculares, si y sólo si su producto escalar escero. Por la de nición de ángulo

    x 0y = |x || y | cosθ,

    siendo θ el ángulo que forman los vectores. Si θ = 90 ◦ el coseno es cero y también lo será

    el producto escalar.

    10

  • 8/19/2019 Libro Analisis Multivariante

    12/215

    La implicación estadística de ortogonalidad es la existencia de incorrelación. Si dos

    variables están incorreladas, llamando r al coe ciente de correlación, se observa que r =

    cosθ = 0, es decir, los vectores que las caracterizan forman un ángulo de 90 grados.

    Dependencia Lineal

    Un conjunto de vectores x 1,..., x k es linealmente dependiente si existen escalares c1,...,ck ,

    no todos nulos, tales que:

    c1x 1 + ... + ckx k = 0

    Si no existen tales escalares, se dice que los vectores son linealmente independientes .Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno

    como combinación lineal de los demás. Por ejemplo, supuesto c1 6= 0 y llamando ai = ci /c 1,

    tenemos

    x 1 = a2x 2 + . . . + akx k .

    En general en el espacio R n el número máximo de vectores linealmente independientes

    es n. En efecto, si tenemos un conjunto de n + h vectores siempre podemos tomar ncualquiera y escribir

    x n +1 =n

    Xi=1 a i x ique es un sistema con n ecuaciones y n incógnitas y obtener los coe cientes ai .

    En estadística un conjunto de vectores linealmente independientes corresponde a un

    conjunto de variables que no están relacionadas linealmente de forma exacta. Por ejemp-

    lo, si dos variables miden la misma variables pero en unidades distintas serán linealmentedependientes. También los serán si una de las variables se ha generado como una combi-

    nación lineal de las otras.

    Dado un conjunto de k vectores linealmente independientes (x 1,..., x k), en R n (k ≤n),llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos

    los vectores z , en R n , que pueden expresarse como combinación lineal de éstos. El conjunto

    (x 1, ..., x k) se llama base generadora del espacio , o simplemente base del espacio. Si z

    11

  • 8/19/2019 Libro Analisis Multivariante

    13/215

    pertenece a este espacio entonces,

    z = c1x 1 + ... + ckx k .

    Es fácil comprobar que z estará en un espacio de dimensión k: es efecto, podemos

    tomar las primeras k coordenadas de z y obtener del sistema de k ecuaciones y k incóg-

    nitas resultante, los coe cientes c1,...,ck . Las n −k coordenadas siguientes de z quedandeterminadas, al estarlo los ci , por lo que, obviamente, z sólo tiene k componentes inde-

    pendientes, estando, por lo tanto, en un espacio de dimensión k. El espacio generado por

    un conjunto de variables corresponde a todas las variables que pueden generarse como

    índices o combinaciones lineales de las originales.

    La dimensión de un espacio E k se de ne como el número de vectores linealmente

    independientes que lo generan.

    Diremos que un vector x es ortogonal a un subespacio E p si x es ortogonal a todo

    vector de E p, es decir, si y pertenece al subespacio E p, que escribiremos y ⊂E p, entonces:

    y0

    x = 0.

    Llamaremos complemento ortogonal de un subespacio E p, de dimensión p, y lo deno-

    taremos por C (E p), al espacio que contiene todos los vectores ortogonales a E p. Entonces,

    si x∈

    E p, y ∈C (E p) se veri ca x 0y = 0. La dimensión de C (E p) será n − p.

    Matrices

    Para trabajar conjuntamente con k variables o vectores de nimos el concepto de ma-

    triz. Una matriz es un conjunto de números dispuestos en las y columnas y puede verse

    como un conjunto de vectores columna o un conjunto de vectores la. Si intercambiamos

    las las de una matriz por las columnas se obtiene una nueva matriz que se denomina

    la traspuesta de la primera. En particular, un vector columna de orden n es una matriz

    de dimensiones n × 1 (su traspuesta es un vector la), y un escalar es una matriz de

    dimensiones 1 × 1 (e igual a su traspuesta).

    12

  • 8/19/2019 Libro Analisis Multivariante

    14/215

    Una propiedad básica de una matriz es el rango, que indica el número máximo de

    vectores la o columna linealmente independientes que la forman. En una matriz con n

    las y k columnas ( n ≥k), las k columnas pueden ser vectores linealmente independientesy, así, el número máximo de vectores linealmente independientes es k. Su rango máximo

    es k y cuando esto ocurre decimos que la matriz tiene rango completo.

    El rango de una matriz es igual al de su traspuesta.

    La generalización del concepto de producto escalar entre dos vectores es el producto

    matricial, que se de ne como una nueva matriz que contiene todos los productos escalares

    entre los vectores la de la primera matriz y los vectores columna de la segunda. Paraque este producto sea posible la primera matriz tiene que tener tantas columnas como

    las tenga la segunda matriz. Por la propia de nición se deduce que este producto no es

    conmutativo. Diremos que pre-multiplicamos la matriz A por la B cuando realizamos el

    producto B · A y que post-multiplicamos la A por la B si realizamos el producto A · B.

    De niciones básicas

    Llamaremos matriz, A , de dimensiones (n × k) a un conjunto de n × k números reales,

    ordenados en n las y k columnas. Por ejemplo, si medimos k variables en n individuos

    de una población podemos representar cada variable por un vector columna de dimensión

    n y cada vector columna es pues una matriz (n × 1). El conjunto de los k vectores es

    un matriz ( n × k), y esta matriz puede verse como un conjunto de k vectores columna, o

    como un conjunto de n vectores la, cada uno de ellos de dimensión k. Llamaremos matriz

    transpuesta A 0 a la matriz obtenida a partir de A intercambiando las por columnas. Si

    A es n × k, A 0 será k × n. Se veri ca:

    (A 0)0 = A

    La suma de dos matrices se de ne sólo cuando ambas tienen las mismas dimensiones.

    Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de

    13

  • 8/19/2019 Libro Analisis Multivariante

    15/215

    los sumandos

    A + B = C⇒µ a11 . . . a1kan 1 . . . ank ¶+ µ b11 . . . b1kbn 1 . . . bnk ¶= µ c11 . . . c1kcn 1 . . . cnk ¶

    con cij = a ij + bij . Se veri ca:

    (i ) A + B = B + A

    (ii ) (A + B )0 = A 0+ B 0.

    Sumar dos matrices equivale en términos estadísticos a sumar los valores de las vari-

    ables correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A repre-

    senta el número de incidencias leves de k tipos distintos en una empresa en n semanas y la

    B el número de incidencias graves en las mismas semanas, la suma representa el numero

    total de incidencias.

    El producto de dos matrices A · B sólo es posible cuando el número de columnas de

    A es igual al número de las de B . Entonces, si A (n × k) y B (k × h), el producto es una

    matriz C (n × h) con términos:

    cij =k

    Xl=1 a il bljEs decir, el término cij representa el producto escalar del vector a 0i , de nido por la

    i -ésima la de A , por el vector b j , de la j -ésima columna de B . Si escribimos:

    A =⎛

    ⎜⎝

    a 01...

    a 0n

    ⎟⎠B = [b 1...b h ]

    donde todos los vectores tienen dimensiones k, el producto matricial de estas dos matrices

    es:

    A · B = C =⎛

    ⎜⎝

    a 01b 1 . . . a0

    1b h... . . .

    ...a 0n b 1 . . . a

    0

    n b h

    ⎟⎠(n × h)

    .

    En particular, el producto de una matriz (n × k) por un vector (k × 1), Ax será un

    nuevo vector de dimensión (n × 1) cuyos componentes se obtienen por el producto escalar

    de las las de A por el vector x . Si

    y = Ax

    14

  • 8/19/2019 Libro Analisis Multivariante

    16/215

  • 8/19/2019 Libro Analisis Multivariante

    17/215

    Sobre las matrices cuadradas podemos de nir dos medidas escalares que resumen su

    tamaño global: el determinate y la traza. Ambas son medidas relativas, ya que se modi can

    si multiplicamos los elementos de la matriz por constantes.

    Determinante de una matriz

    Dada una matriz A cuadrada de orden n con términos a ij , se denomina determinante

    de esta matriz, y lo representaremos por |A | , al escalar obtenido mediante la suma:

    |A | = X(−1r ) a1i 1 a2i 2 ,...,a ni nque está extendida a todas las permutaciones de los segundos índices. Los índices i1, . . . i n

    son una permutación de los números 1, 2, . . . , n y r es el número de cambios entre dos

    elementos que es necesario para poner los subíndices i1, . . . , i n en el orden 1, 2, . . . , n .

    Por ejemplo, en una matriz 2 × 2 el número de permutaciones de dos términos es dos

    y el determinante estará formado por los dos términos:

    |A | = a11a22 −a12a21 .

    Observemos que el segundo término es negativo, porque el orden de los subíndices es

    (2, 1) y es necesario un cambio para situarlos en el orden 1, 2. En una matriz 3 × 3 el

    determinante tiene 3! = 6 términos que se obtiene de las 6 posibles permutaciones:

    1 2 31 3 22 1 32 3 1

    3 1 23 2 1

    En consecuencia:

    |A | = a11 a22a33 −a11a23a32 −a12a21a33 + a12a23a31 ++ a13a21a32 −a13a22a31 .

    Para matrices mayores de 3 el cálculo del determinante es tedioso. Su cálculo se sim-

    pli ca mediante el concepto de menor . Llamaremos menor del elemento aij de una matriz

    16

  • 8/19/2019 Libro Analisis Multivariante

    18/215

    cuadrada de orden n, mij , al determinante de la matriz de orden n−1 que resulta al elimi-nar de la matriz original A la la i y la columna j . Se denomina adjunto del elemento aij

    al escalar (−1)i+ j m ij . Se demuestra que el determinante de una matriz puede calcularsemultiplicando cada elemento de una la por sus adjuntos. Entonces:

    |A | =n

    X j =1 a ij (−1)i+ j m ij

    para cualquier la i. Por ejemplo, en una matriz 3 × 3, desarrollando por los elementos

    de la primera la

    |A | = a11 (a22a33 −a23a32) −a12 (a21a33 −a23a31) + a13 (a21a32 −a22a31) ,que coincide con el resultado anterior. Los determinantes tienen las propiedades siguientes:

    (i ) |λA | = λn |A |

    (ii ) |A 0| = |A |

    (iii ) |AB | = |A | |B | si ambas son cuadradas, de orden n.

    (iv ) Si permutamos dos las o dos columnas entre sí, el determinante cambia sólo su

    signo.

    (v ) Si una la (o columna) de una matriz es una combinación lineal de las restantes las

    (o columnas) el determinante de la matriz es cero. Entonces diremos que la matriz

    es singular .

    El determinante de una matriz de varianzas y covarianzas es una medida global de la

    independencia entre las variables. Por ejemplo, si una variable es combinación lineal de

    las demás, entonces las variables son linealmente dependientes y el determinante es nulo.

    En términos relativos, cuanto mayor sea el determinate mayor es la independencia entre

    los vectores.

    Si consideramos matrices cuadradas estandarizadas de manera que el módulo de cada

    vector columna (o la) sea la unidad, el determinante es máximo si la matriz tiene unos

    17

  • 8/19/2019 Libro Analisis Multivariante

    19/215

    en la diagonal y ceros en el resto, de manera que los vectores columna son ortogonales

    (independientes) entre sí.

    Traza de una matriz

    La traza de una matriz cuadrada es la suma de los elementos de la diagonal principal

    de la matriz. Si C es una matriz con elementos cij se veri ca:

    tr (C ) =n

    Xi=1 ciiLa traza es un operador lineal. En efecto, de la de nición se obtiene:

    (i ) tr (A + B ) = tr (A ) + tr (B ).

    (ii ) tr (λA ) = λtr (A ), donde λ es un escalar.

    (iii ) Se demuestra que: tr (ABC ) = tr (CAB ) = tr (BCA ), en el supuesto de que todos

    los productos estén de nidos.

    (iv ) tr (C 2) = tr (CC ) = Pni=1 Pn j =1 c2ij .La traza es una medida global de tamaño de la matriz que se obtiene sumando sus

    elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es la

    suma de todas las varianzas de las variables. Al tener en cuenta únicamente los elementos

    diagonales es una medida más simple que el determinante.

    Formas cuadráticas

    Una tercera forma de obtener un escalar a partir de una matriz cuadrada es constru-

    yendo una forma cuadrática. Llamaremos forma cuadrática a una expresión escalar del

    tipo:

    y 0Ay

    donde y es un vector, y 0 su transpuesto y A una matriz cuadrada y simétrica. Si la

    dimensión del vector es (n × 1), la matriz debe ser cuadrada de orden n para que sea

    18

  • 8/19/2019 Libro Analisis Multivariante

    20/215

    posible el producto y, así, la matriz resultante tendrá dimensión:

    (1 × n) × (n × n) × (n × 1) = (1 × 1).

    La forma cuadrática es siempre un escalar. Su expresión general es:

    n

    Xi=1 a ii y2i + 2

    n

    Xi=1n

    X j = i+1 a ij yiy j .Diremos que una matriz A es semide nida positiva si cualquier forma cuadrática

    formada con ella es no negativa, para cualquier vector y 6= 0 . Si la forma cuadrática es

    siempre mayor que cero diremos que la matriz A es de nida positiva . Se demuestra queel determinante y la traza de una matriz semide nida positiva son también no negativos.

    Matriz Inversa

    Dada una matriz A cuadrada n × n, no singular, de nimos su inversa, A − 1, como una

    matriz n × n tal que:

    AA − 1 = I

    donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es

    decir, escribiendo A con vectores la a 0i , la matriz A− 1 tendrá vectores columna b i tales

    que:

    ⎜⎝

    a 01...

    a 0n

    ⎟⎠¡ b 1 . . . b n ¢=⎛

    ⎜⎝

    a 01b 1 . . . a0

    1b n...

    ...a 0n b 1 . . . a

    0

    n b n

    ⎟⎠=⎛

    ⎜⎜⎜⎝

    1 0 . . . 00 1 . . . 0...

    ... ...

    0 . . . . . . 1

    ⎟⎟⎟⎠

    .

    En consecuencia la matriz A − 1 debe tener por columnas vectores b tales que:

    (i ) b i es ortogonal a a j (∀ j 6= i);

    (ii ) b 0i a i = a0

    ib i = 1.

    Observemos que el cálculo de la inversa nos resuelve el problema de calcular vectores

    ortogonales a uno dado (o variables incorreladas con una dada). En efecto, el espacio

    ortogonal al vector a1 es el formado por los vectores b 2,...b n .

    19

  • 8/19/2019 Libro Analisis Multivariante

    21/215

    Por ejmplo, dada la matriz

    A = µ 2 10 4 ¶,la inversa es

    A − 1 = µ 0,5 −0,1250 0,25 ¶y cada vector columna de la inversa es ortogonal a un vector columna y veri ca la condición

    de b 0i a i = 1.

    La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver

    sistemas de ecuaciones lineales,

    Ax = b ,

    donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un

    vector de n incognitas. Para que este sistema tenga solución única las n ecuaciones deben

    de ser distintas, lo que supone que no existe una la de A que sea combinación lineal de

    las demás. Entonces A es no singular y la solución se obtiene mediante:

    x = A− 1

    b .

    El cálculo de la matriz inversa A − 1 de una matriz dada es engorroso y debe realizarse

    mediante un ordenador si la dimensión de A es alta. Se demuestra que la inversa de una

    matriz puede calcularse mediante las tres operaciones siguientes:

    1. Se sustituye cada elemento por su adjunto.

    2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta

    de la matriz A .

    3. Se divide cada término de la matriz adjunta por el determinante de la matriz original.

    Como ejemplo calcularemos la inversa de la matriz

    A = ⎛

    1 1 0

    −1 2 1

    0 0 3

    ⎠20

  • 8/19/2019 Libro Analisis Multivariante

    22/215

    comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento

    (1, 1) su adjunto es (−1)2 [2 · 3−1 · 0] = 6. Para el (1, 2), (−13) [−1 · 3−1 · 0] = 3, etc.

    ⎛⎝

    6 3 0

    −3 3 0−1 −1 3

    ⎞⎠

    Se transpone esta matriz y resulta:

    Adj (A ) = ⎛

    6 −3 −13 3 −10 0 3⎞

    Si dividimos ahora por el determinante de la matriz A

    |A | = 6 + 3 = 9 ,

    se obtiene

    A − 1 = ⎛

    23 −13 −1913

    13 −190 0 13

    y podemos comprobar que A · A − 1 = I .

    La inversa de una matriz A tiene las propiedades siguientes:

    (i ) (AB )− 1 = B − 1A − 1 para matrices cuadradas no singulares.

    (ii ) (ABC )− 1 = C − 1B − 1A − 1

    (iii ) (A 0)− 1= ( A − 1)0

    (iv ) |A − 1| = |A | − 1

    (v ) Si A es simétrica también lo es A − 1.

    La matriz inversa de una matriz de varianzas y covarianzas recoge la información de

    la dependencia conjunta de todas las variables de manera más completa que la matriz de

    varianzas y covarianzas.

    21

  • 8/19/2019 Libro Analisis Multivariante

    23/215

    Matrices ortogonales

    Llamaremos matriz ortogonal, C , a una matriz cuadrada, que representa un giro en el

    espacio. Por tanto, dado un vector x , si aplicamos una matriz ortogonal C para obtener

    un nuevo vector y = Cx , como el módulo de y debe ser idéntico al de x al tratarse de un

    giro, tendremos la condición :

    y 0y = x 0C 0Cx = x 0x ,

    es decir, deberá veri carse que :

    C 0C = I

    como además tendremos que x = C − 1y , y por la condicion anterior C 0y = C 0Cx = x ,

    concluimos que la matriz inversa de una matriz ortogonal es igual a su traspuesta. Esta

    es la condición de ortogonalidad :

    C 0= C − 1.

    Esta condición impone que las las o columnas de una matriz ortogonal sean vectores

    ortogonales entre sí y de longitud unidad, ya que:

    ⎜⎝

    c 01...

    c 0n

    ⎟⎠(c 1. . . cn ) =

    ⎜⎝

    1 . . . 0...

    ...0 . . . 1

    ⎟⎠=⎛

    ⎜⎝

    c 01c1 . . . c0

    1cn...

    ...c 0n c1 . . . c

    0

    n c n

    ⎟⎠

    además: |C | = |C 0| = 1, donde |C | es el determinante de C .

    Por ejemplo, en R 2, la matriz

    C = µ cosα −sen αsen α cosα ¶es ortogonal, ya que CC 0 = I .

    Rango de una matriz

    A cada matriz podemos asociarle un número que indica el máximo número de vectores

    linealmente independientes que podemos obtener a partir de ella.

    22

  • 8/19/2019 Libro Analisis Multivariante

    24/215

    Supongamos primero matrices cuadradas. Dada la matriz A cuadrada de orden n,

    llamaremos rango de la matriz a la dimensión del espacio generado por sus vectores

    columna. Si estos son linealmente independientes el rango será igual a n. En otro caso

    será menor que la dimensión de la matriz. Se demuestra que el rango de una matriz

    cuadrada es igual al de su transpuesta; y que el rango es siempre igual al máximo número

    de vectores columna, o la, linealmente independientes. En general, si llamamos rg (A ) al

    rango de la matriz A se veri ca:

    (i ) rg(A n × k) ≤ ḿı n(n, k ). El rango es igual o menor que el menor de n y k.

    (ii ) rg(A 0A ) = rg (AA 0) = rg (A )

    (iii ) si rg(A n × n ) = n, A es no singular y existe A − 1.

    (iv ) si rg(A n × k) = n < k ó rg(A n × k) = k < n , se dice que A es de rango completo.

    (v ) rg(AB ) ≤ mínimo de ( rg (A ) y rg(B )).

    (vi ) rg(AB ) = rg (A ), si |B | 6= 0 y A cualquiera.

    (vii ) Si A y B son cuadradas de orden n y AB = 0, entonces rg(A ) + rg(B ) ≤n.

    (viii ) rg(A + B ) ≤ rg (A ) + rg(B ).

    Como el rango de una matriz es el número de vectores linealmente independientes

    que la forman, el rango de una matriz de datos es el número de.variables distintas (no

    relacionadas linealmente) que la componen.

    Autovectores y autovalores

    Dada una matriz cuadrada, hay determinadas propiedades que esperamos que sean

    invariantes ante transformaciones lineales que preserven la información existente. Por

    ejemplo, si pre-multiplicamos la matriz por una nueva matriz y luego post-multiplicamos

    por la inversa de dicha matriz. También si giramos los ejes de coordenadas.

    23

  • 8/19/2019 Libro Analisis Multivariante

    25/215

    Supongamos que partiendo de k variables (vectores) pasamos a otras k variables que

    son combinación lineal de las anteriores mediante una de las operaciones anteriores. Por

    ejemplo, si en lugar de trabajar con los ingresos y los costes decidimos trabajar con los

    bene cios, construidos como ingresos-costes, y el volumen de actividad, de nido como

    ingresos más costes; entonces hemos aplicado una transformación ortogonal. Aunque la

    matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables sea

    distinta de la original, la esencia del problema es la misma, y se espera que haya compo-

    nentes que permanezcan invariantes en el problema . Para precisar esta idea aparece el

    concepto de autovalores y autovectores de una matriz cuadrada.Los autovalores son las medidas básicas de tamaño de una matriz, que no se ven

    alteradas por transformaciones lineales de esta matriz. Por ejemplo, si hacemos un cambio

    de coordenadas que equivalga a una rotación de ejes los autovalores no se modi carán.

    Los autovectores representan las direcciones características de la matriz y no son in-

    variantes. Se demuestra que las medidas globales de tamaño de la matriz, como la traza

    o el determinante, son sólo función de los autovalores y en consecuencia son también

    invariantes.

    De niciones básicas

    De nimos a los autovalores (o valores propios o raíces características) de una matriz

    cuadrada de orden n, A , como las soluciones de la ecuación polinómica.

    |A

    −λI| = 0.

    Es inmediato deducir de la de nición que si una matriz es diagonal, los autovalores

    son los elementos de la diagonal principal. En efecto, tendremos:

    |A −λI | = ¯̄̄¯̄̄¯

    ⎜⎝

    a1 . . . 0... a2

    ...

    0 ... an

    ⎟⎠−⎛

    ⎜⎝

    λ . . . 0... λ

    ...0 . . . λ

    ⎟⎠

    ¯̄̄¯̄̄¯

    = ¯̄̄¯̄̄¯

    ⎜⎝

    a1 −λ . . . 0... a2 −λ ...

    0 . . . an −λ⎞

    ⎟⎠

    ¯̄̄¯̄̄¯

    |A −λI | = ( a1 −λ),..., (an −λ),24

  • 8/19/2019 Libro Analisis Multivariante

    26/215

    y las soluciones de esta ecuación polinómica son a1,...,a n .

    De este ejemplo se deduce que aunque una matriz de orden n tiene n autovalores estos

    pueden aparecer repetidos y en general una matriz tiene h ≤ n autovalores distintos. Siun autovalor aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la

    matriz diagonal:

    A =⎛

    ⎜⎜⎝

    2 0 0 00 3 0 00 0 0 00 0 0 0

    ⎟⎟⎠

    tiene como autovalores 2, 3 y 0, este último valor con multiplicidad dos (aparece dos

    veces).

    Llamaremos autovectores o vectores propios de una matriz cuadrada a los vectores u

    que veri can para u 6= 0 la relación:

    Au = λu .

    Si u es un vector propio de A es obvio que ku , donde k∈

    R , será también vector propio.

    Para evitar esta indeterminación suponemos que los autovectores están normalizados demanera que |u | = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio

    también lo es −u .Si una matriz cuadrada de orden n tiene n autovalores distintos entonces a cada

    autovalor le podemos asociar un vector propio bien de nido y se demuestra que el conjunto

    de n vectores propios es linealmente independiente.

    Si un autovalor es múltiple, es decir, la matriz no tiene n autovalores distintos, los vec-

    tores propios asociados a autovalores con multiplicidad mayor que uno no están de nidos

    en general de manera única. Para ilustrar esta idea, consideremos la matriz

    A = ⎛

    1 0 00 1 00 0 2

    que tiene el autovalor 1 con multiplicidad 2. Los vectores u 1 = (1 0 0)0 y u 2 = (0 1 0)

    0 son

    vectores propios asociados al valor 1, pero también lo es u 3 = γ 1u 1 + (1 −γ 1) u 2, para25

  • 8/19/2019 Libro Analisis Multivariante

    27/215

    cualquier valor de γ . Los vectores propios están en un espacio igual a la multiplicidad del

    autovalor, 2, y cualquier vector normalizado de este espacio de dimensión 2 es un vector

    propio de A .

    Los autovalores de una matriz tienen las propiedades siguientes:

    (a) si λ es un autovalor de A , entonces λr es un autovalor de A r .

    En particular, si A − 1 existe, λ− 1 es un autovalor de A − 1. En efecto, si Au = λu ,

    multiplicando por A − 1, u = λA − 1u , es decir λ − 1u = A − 1u .

    (b) La suma de los autovalores de A es igual a la traza.

    tr (A ) =n

    Xi=1 λ i .(c) El producto de los autovalores de A es igual al determinante

    |A | =n

    Yi=1 λ i .(d) Si una matriz P es no singular, entonces Las matrices A y P − 1AP tienen los mismos

    autovalores.

    Efectivamente, si Au = λu , multiplicando ambos miembros por P − 1 por la derecha y

    P por la izquierda, se obtiene que P − 1A P u = λ u y las matrices tienen los mismos

    autovalores. Los vectores propios de la matriz P − 1AP son P − 1u , siendo u un vector

    propio de la matriz A .

    Diagonalización de Matrices

    Si A es una matriz cuadrada de orden n con k autovalores λ1, . . . λ k , con multipli-

    cidad mi , Pki=1 mi = n, la condición para que A tenga n vectores propios linealmente

    independientes es que el rango rank (A −λ i I ) = n −m i .Entonces la matriz A se puede diagonalizar mediante:

    U−

    1A U = D

    26

  • 8/19/2019 Libro Analisis Multivariante

    28/215

  • 8/19/2019 Libro Analisis Multivariante

    29/215

    Si la matriz A tiene rango r la descomposición espectral indica que puede expresarse

    como suma de r matrices de rango unidad.

    La importancia de esta descomposición es que si algunos autovalores son muy pe-

    queños, podemos reconstruir aproximadamente A utilizando los restantes valores y auto-

    valores.

    Observemos que la descomposición espectral de A − 1 es

    A − 1 =n

    Xi=1 λ− 1i u i u

    0

    i

    ya que A−

    1 tiene los mismos vectores propios que A y autovalores λ− 1i .

    Descomposición en valores singulares

    Toda matriz A (n × k) de rango r puede expresarse como

    A = U 1D 1/ 2V0

    1

    donde U 1 es (n × r), D es (r × r) y V 01 es (r × k). La matriz diagonal D 1/ 2 contiene

    las raíces cuadradas de los autovalores no nulos de las matrices A A 0 o A 0 A , que son

    positivos. La matriz U 1 contiene en columnas los vectores propios unidos a autovalores

    no nulos de A A 0 y V 1 contiene en columnas los vectores propios unidos a autovalores no

    nulos de A 0A . Las columnas de U 1 son ortogonales entre sí y también lo serán las de V 1.

    Los elementos diagonales de D 1/ 2 se denominan los valores singulares de la matriz A .

    Derivadas matricialesDe nición

    Sea una función f dependiente de n variables, x1,...,x n , que pueden considerarse

    componentes de un vector x ; la derivada de f respecto a x es un vector cuyos componentes

    son la derivada de f respecto a cada componente de x .

    Ejemplo :

    28

  • 8/19/2019 Libro Analisis Multivariante

    30/215

    Si f = 5x1 + 2x2 + 3x3∂f ∂ x

    = ⎛

    52

    3

    ⎠(i ) Si f = a 0x tendremos que:∂ (a 0x )

    ∂ x = a

    (ii ) Si f = x 0Ax , donde A es cuadrada y simétrica,

    ∂ (x 0Ax )∂ x

    = 2Ax

    ya que aplicando la de

    nición anterior, como,

    x 0Ax =n

    Xi=1 a ii x2i + 2 X j>i a ij xix j

    tendremos que:∂ (xAx )

    ∂x 1= 2 a11x1 + 2a12x2 + ... + 2a1n xn = 2a

    0

    1x

    donde a 01 es la primera la de la matriz. Por tanto:

    ∂ (xAx )∂ x

    =⎛⎜⎜⎜⎝

    2a 01x2a 02x

    ...2a 0n x

    ⎞⎟⎟⎟⎠

    = 2 Ax

    De nición

    Dado un vector y cuyos componentes son funciones f i de un vector de variables x 0 =

    (x1,...,x n ), de nimos la derivada de y respecto a x como la matriz cuyas columnas son

    las derivadas de los componentes f i respecto a x . Es decir, si:

    y =⎛

    ⎜⎝

    f 1(x )...

    f n (x )

    ⎟⎠

    entonces:

    ∂ y∂ x

    = µ∂f 1∂ x , . . . , ∂f n∂ x ¶=⎛

    ⎜⎝

    ∂f 1∂x 1 . . .

    ∂f n∂x 1

    ... .. . ...

    ∂f 1∂x n . . .

    ∂f n∂x n

    ⎟⎠

    29

  • 8/19/2019 Libro Analisis Multivariante

    31/215

    Observación : Si y = Ax , donde A es una matriz cualquiera.

    ∂ (Ax )

    ∂ x = A 0

    Para deducir este resultado de la de nición anterior, escribimos la matriz A como:

    A =⎛

    ⎜⎝

    a 01...

    a 0n

    ⎟⎠

    donde cada a 01 es una la de la matriz; Entonces,

    y = Ax = ⎛⎜⎝

    a 01x

    ...a 0n x⎞⎟⎠

    con lo que,∂f i∂ x

    = ∂ (a 01x )

    ∂ x = a i

    Por tanto, según lo anterior,

    ∂ y

    ∂ x = (a

    1, . . . ,a

    n ) = A 0

    30

  • 8/19/2019 Libro Analisis Multivariante

    32/215

    # ----------------------------------------# VECTORES Y MATRICES# ----------------------------------------

    # NOTA: Asignar un valor a una variable:

    # De modo equivalente se puede poner estos dos signos:#

  • 8/19/2019 Libro Analisis Multivariante

    33/215

    # Asigna la secuencia que va desde el 1 al 5 en saltos de 0.1seq ( 1, 5, 0. 1)

    # Subíndicesz

  • 8/19/2019 Libro Analisis Multivariante

    34/215

    # Definir una matriz diagonaldi ag( c (6, - 2, 0, 7) )

    # Definir una matriz identidaddi ag( 3)

    # Definir una matriz de cerosmat r i x( 0, 4, 3)

    # Definir un vector unidadr ep( 1, 4)

    A

  • 8/19/2019 Libro Analisis Multivariante

    35/215

    # Matriz singularA

  • 8/19/2019 Libro Analisis Multivariante

    36/215

  • 8/19/2019 Libro Analisis Multivariante

    37/215

    se encuentran en una matriz, que llamaremos matriz de datos. En esta matriz cada la

    representa un elemento de la población y cada columna los valores de una variable escalar

    en todos los elementos observados. Típicamente esta matriz será rectangular con n las y

    k columnas donde hemos supuesto que existen n elementos en la población y que se han

    medido k variables sobre cada elemento.

    Llamaremos X a la matriz de datos y xij a su elemento genérico que representa el

    valor de la variable j sobre el individuo i . donde i = 1 ,...,n y j = 1 ,...,k.

    La matriz de datos X tendrá dimensiones n × k y puede representarse de dos formas

    distintas. Por las como:

    X =⎡⎢⎢⎢⎣

    x 11 x12 · · · x1 kx 21 x22 · · · x2 k...

    ... . . . ...

    xn 1 xn 2 · · · xnk

    ⎤⎥⎥⎥⎦

    =⎡⎢⎢⎢⎣

    x 01......x 0n

    ⎤⎥⎥⎥⎦

    donde cada variable x 0i es un vector la k × 1 que representa los valores de las k variables

    sobre el individuo i.

    Alternativamente podemos representar la matriz X por columnas:

    X = [x 1 . . . x k]

    donde ahora cada variable x i es un vector columna n × 1 que representa la variable i,

    medida en los n elementos de la población.

    Vector de Medias

    La medida de centralización más utilizada para describir datos multivariantes es el

    vector de medias, que tiene dimensión k y recoge las medias de cada una de las k variables.

    Se calcula fácilmente mediante:

    x = ⎡⎢⎣

    x 1...xk

    ⎤⎥⎦

    = 1n

    X 01 ,

    donde 1 representará siempre un vector de unos de la dimensión adecuada.

    2

  • 8/19/2019 Libro Analisis Multivariante

    38/215

  • 8/19/2019 Libro Analisis Multivariante

    39/215

    asimetria < - (sum((x-mean(x))^3)/n) / ((sqrt(var(x))^3))

    cbind(asimetria) }

    # funcion para calcular el coe ciente de curtosis de un vector de datos

    curto < - function(x){

    n < - length(x)

    kurtosis < - (sum((x-mean(x))^4)/n) / ((sqrt(var(x))^4)) - 3

    cbind(kurtosis) }

    Matriz de varianzas y covarianzas

    La variabilidad de los datos y la información relativa a las relaciones lineales entre las

    variables se resumen en la matriz de varianzas y covarianzas. Esta matriz es cuadrada

    y simétrica de orden k, donde los términos diagonales son las varianzas y los no diago-

    nales, las covarianzas entre las variables. Llamando S a esta matriz, tendremos que, por

    de nición:

    S =⎡⎢⎣

    s 21 s12 · · · s1 k... ... .. . ...

    s k1 sk2 · · · s2k ⎤⎥⎦.

    Esta matriz puede calcularse como:

    S = 1n

    n

    Xi=1 (x i −x )(x i −x )0.La comprobación es inmediata. Como:

    ⎡⎢⎣

    xi

    1

    −x 1

    ...x ik −xk⎤⎥⎦

    [x i1 −x 1 . . . x ik −xk] =⎡⎢⎣

    (xi

    1

    −x 1 )2 · · · (x

    i1

    −x 1 )(x

    k1

    −x

    k)

    ... . . . ...(x ik −xk)(x i1 −x 1 ) · · · (x ik −xk)

    2 ⎤⎥⎦al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas

    entre las variables. Otra forma de calcular S es a partir de la matriz de datos centrados eX ,que se obtiene restando a cada dato su media. Es fácil comprobar que esta matriz puedecalcularse mediante

    eX = X −1x0

    ,

    4

  • 8/19/2019 Libro Analisis Multivariante

    40/215

  • 8/19/2019 Libro Analisis Multivariante

    41/215

  • 8/19/2019 Libro Analisis Multivariante

    42/215

    En R se calcula cargando antes la librería corpcor y usando el comando cor2pcor

    sobre una matriz de correlaciones habitual, o bien el comando pcor.shrink directamente

    sobre los datos.

    Ejemplo

    La matriz de correlación para las 7 variables físicas del ejemplo previo, manteniendo

    el orden de las variables es

    R =

    ⎡⎢⎢

    ⎢⎢⎢⎢⎢⎢⎣

    1 0, 83 0, 93 0, 91 0, 84 0, 59 0, 840, 83 1 0, 85 0, 82 0, 84 0, 62 0, 720, 93 0, 85 1 0, 85 0, 80 0, 55 0, 850, 91 0, 82 0, 85 1 0, 80 0, 48 0, 760, 84 0, 84 0, 80 0, 80 1 0, 63 0, 630, 59 0, 62 0, 55 0, 48 0, 63 1 0, 560, 84 0, 72 0, 85 0, 76 0, 63 0, 56 1

    ⎤⎥⎥

    ⎥⎥⎥⎥⎥⎥⎦Se observa que la máxima correlación aparece entre la primera y la tercera variable

    (estatura y longitud del pie) siendo 0,93. La mínima correlación es entre la longitud del

    brazo y el diámetro del cráneo (0,48). En general, las correlaciones más bajas aparecen

    entre el diámetro del cráneo y el resto de las variables.

    La Varianza Generalizada

    Una medida global escalar de la variabilidad conjunta de k variables es la varianza

    generalizada , que es el determinante de la matriz de varianzas y covarianzas. Su raíz

    cuadrada se denomina desviación típica generalizada , y tiene las propiedades siguientes:

    (i ) Está bien de nida, ya que el determinante de la matriz de varianzas y covarianzas

    es siempre mayor o igual que 0.

    (ii ) Es una medida del área (para k = 2), volumen (para k = 3) o hipervolumen (para

    k > 3) ocupado por el conjunto de datos.

    Por ejemplo, supongamos el caso k = 2; así, S puede escribirse como:

    S = · s2x rs x s yrs xs y s2y ¸7

  • 8/19/2019 Libro Analisis Multivariante

    43/215

    y la desviación típica generalizada es:

    |S | 1 / 2 = s xs y√ 1−

    r 2

    Si las variables son independientes, la mayoría de sus valores estarán dentro de un

    rectángulo de lados 6s x , 6s y ya que, por el teorema de Tchebychev, entre la media y 3

    veces la desviación típica debe estar aproximadamente al menos el 90 % de los datos.

    En consecuencia, el área ocupada por ambas variables es directamente proporcional al

    producto de las desviaciones típicas.

    Si las variables están relacionadas linealmente y el coe ciente de correlación es distinto

    de cero, la mayoría de los puntos tenderán a situarse en una franja alrededor de la recta

    de regresión y habrá una reducción del área tanto mayor cuanto mayor sea r . En el límite,

    si r = 1, todos los puntos están en una línea, hay una relación lineal exacta entre las

    variables y el área ocupada es cero. La última fórmula describe esta contracción del área

    ocupada por los puntos al aumentar el coe ciente de correlación.

    Análogamente, en el caso tridimensional,

    |S | 1 / 2 = sx s ys z(1 + r212 (r 13 −1) + r

    213 (r 12 −1) − r 13 r 12 )

    1 / 2

    si las variables no están correlacionadas, el volumen ocupado es proporcional al producto

    de las desviaciones típicas. Esta cantidad se reduce ante la presencia de correlación como

    se muestra en la fórmula anterior.

    En resumen, análogamente a cómo la desviación típica describe la dispersión de una

    variable, la desviación típica generalizada describe la dispersión conjunta de un grupo devariables, que depende de la correlación entre ellas.

    Ejemplo

    Partiendo de la matriz de covarianza S de la tabla de datos anterior se tiene que la

    varianza generalizada viene dada por:

    |S |1 / 2

    = 0 ,0195

    8

  • 8/19/2019 Libro Analisis Multivariante

    44/215

    Como la varianza generalizada mide el grado de dispersión en el espacio, notamos que

    esta no es muy alta, por otro lado, las correlaciones entre las variables tampoco son muy

    altas.

    Representaciones Grá cas

    Además de las representaciones univariantes tradicionales, es conveniente represen-

    tar los datos multivariantes conjuntamente. Para variables discretas podemos construir

    diagramas de barras tridimensionales, pero no es posible extender la análoga a más di-

    mensiones. Igualmente, podemos construir los equivalentes multidimensionales de los his-

    togramas, pero estas representaciones no son útiles para dimensiones superiores a tres.

    Por ejemplo, supongamos unos datos recogidos sobre la cantidad de polución por

    dióxido de sulfuro y la mortalidad

    (ver http://biostatistics.iop.kcl.ac.uk/publications/everitt/ )

    L luv ia E du cac io n Pop den N ob lan co s N OX SO 2 M orta lid adakronO H 36 11 .4 3243 8 .8 15 59 921.9a lbanyNY 35 11 4281 3 .5 10 39 997.9

    a llenPA 44 9 .8 4260 0 .8 6 33 962.4... ... ... ... ... ... . .. ...

    worc trM A 4 5 11 .1 3678 1 3 8 895.7yorkPA 42 9 9699 4 .8 8 49 911.8

    youngsO H 38 10 .7 3451 11 .7 13 39 954.4

    Se pueden considerar las siguientes variaciones sobre grá cos bidimensionales clásicos:

    9

  • 8/19/2019 Libro Analisis Multivariante

    45/215

  • 8/19/2019 Libro Analisis Multivariante

    46/215

    airpoll1 < -jitter(cbind(SO2,Mortalidad,50))

    plot(airpoll1[,1],airpoll1[,2],xlab="SO2",ylab="Mortalidad",pch=1,lwd=2)

    title("(c)",lwd=2)

    plot(SO2,Mortalidad,pch=1,lwd=2)

    rug(jitter(SO2),side=1)

    rug(jitter(Mortalidad),side=2)

    title("(d)",lwd=2)

    Se puede considerar también un grá co de dispersión con los nombres de cada una de

    las observaciones:

    que se construye con el siguiente código:

    names < -abbreviate(row.names(airpoll))

    plot(SO2,Mortalidad,lwd=2,type="n")

    text(SO2,Mortalidad,labels=names,lwd=2)

    11

  • 8/19/2019 Libro Analisis Multivariante

    47/215

    Se pueden considerar histogramas bidimensionales y grá cas de densidad:

    y un grá co de contorno:

    12

  • 8/19/2019 Libro Analisis Multivariante

    48/215

  • 8/19/2019 Libro Analisis Multivariante

    49/215

    cuyo código en R es simplemente:

    pairs(airpoll)

    El grá co condicionado es una herramienta muy útil para visualizar las relaciones entre

    las variables, condicionadas al valor de otras variables. Se pueden observar, así, relaciones

    y dependencias entre las mismas.

    Por ejemplo el grá co de mortalidad frente a SO2 condicionado a los valores de den-sidad de población, es:

    14

  • 8/19/2019 Libro Analisis Multivariante

    50/215

    cuyo código en R es simplemente:

    coplot(Mortalidad~SO2 |Popden)

    Las 6 grá cas en las que se divide la grá ca principal, se deben observar desde abajo

    y de izquierda a derecha. Cada una de las 6 subgrá cas indica la relación que existe entre

    las variables Mortalidad y SO2 cuando la variable Popden tiene los valores que se indican

    en las barras horizontales del panel de la parte superior.Finalmente, hay grá cas muy populares como las caras de Cherno ff y las grá cas de

    estrellas, donde se asocia a cada variable o bien un rasgo de una cara (en vista de la

    facilidad con que distinguimos facciones) o bien parte de una estrella:

    15

  • 8/19/2019 Libro Analisis Multivariante

    51/215

    cuyo código es:

    library(TeachingDemos)

    faces2(airpoll)

    El grá co de estrellas, asociado a las observaciones recogidas es:

    16

  • 8/19/2019 Libro Analisis Multivariante

    52/215

    cuyo código es:

    stars(airpoll)

    17

  • 8/19/2019 Libro Analisis Multivariante

    53/215

    Tema 3: Análisis de ComponentesPrincipales

    Introducción a la distribución normal multivariante

    Cuando se trabaja en la vida real, la suposición más habitual es que la variable en

    estudio se distribuye como una normal: muchas características que se miden son la conjun-

    ción de muchas causas que actúan conjuntamente sobre el suceso. Por ejemplo, la altura

    de las personas se considera que se distribuye como una normal, ya que su valor es debido

    a múltiples causas ambientales, alimentarias y genéticas.

    La justi cación matemática de esto se encuentra en el Teorema Central del Límite que

    demuestra que la suma de variables independientes se distribuye en el límite como una

    normal.

    Teorema Central del Límite

    Si X 1, . . . , X n son v.a. independientes con media µ y varianza común σ2 < ∞, la v.a.Z de nida como

    Z =

    X

    −µ

    σ/ √ nes una v.a. cuya función de densidad se aproxima a la distribución normal cuando n es

    grande:

    Z ∼N (0, 1)

    esto es,X 1 + · · · + X n

    n = X ' N µµ, σ√ n¶

    1

  • 8/19/2019 Libro Analisis Multivariante

    54/215

  • 8/19/2019 Libro Analisis Multivariante

    55/215

    z = matrix(0,n,n)

    f1 = c(1,-0.75)

    f2 = c(-0.675,1)

    sigma = rbind(f1,f2)

    for (i in 1:n)

    for (j in 1:n)

    z[i,j] = dmvnorm(c(x[i],y[j]),mean=c(0,0),sigma)

    end

    endpersp(x,y,z,theta=25,phi=20,zlab="density function",expand=0.5,col="blue")

    N 2(µ , Σ ) donde µ = (0 , 0)0, Σ = · 1 00 1 ¸

    3

  • 8/19/2019 Libro Analisis Multivariante

    56/215

    N 2(µ , Σ ) donde µ = (0 , 0)0, Σ = · 1 −0,75−0,75 1 ¸

    Propiedades

    1. La distribución marginal de X es N (µ1, σ1)

    2. La distribución marginal de Y es N (µ2, σ2)

    3. La distribución de Y condicionada por X = x es

    N

    µµ

    2 +

    cov(X, Y )

    σ21(x

    −µ

    1) ; σ2

    p 1−

    ρ2

    ¶donde ρ es el coe ciente de correlación,ρ =

    cov(X, Y )σ1σ2

    4. Si un vector aleatorio (X, Y )0 tiene distribución N (µ, Σ ) y cov(X, Y ) = 0 entonces

    X e Y son independientes. Como

    Σ= µ

    σ21 00 σ22 ¶,

    4

  • 8/19/2019 Libro Analisis Multivariante

    57/215

    sustituyendo en la expresión de la función de densidad, se obtiene que

    f (x, y) = f (x) · f (y)

    Análisis de Componentes Principales

    Introducción

    Cuando se recoge la información de una muestra de datos, lo más frecuente es tomar el

    mayor número posible de variables. Sin embargo, si tomamos demasiadas variables sobre

    un conjunto de objetos, por ejemplo 20 variables, tendremos que considerar

    ¡20

    2¢ = 180

    posibles coe cientes de correlación; si son 40 variables dicho número aumenta hasta 780.

    Evidentemente, en este caso es difícil visualizar relaciones entre las variables.

    Otro problema que se presenta es la fuerte correlación que muchas veces se presenta

    entre las variables: si tomamos demasiadas variables (cosa que en general sucede cuando

    no se sabe demasiado sobre los datos o sólo se tiene ánimo exploratorio), lo normal es que

    estén relacionadas o que midan lo mismo bajo distintos puntos de vista. Por ejemplo, en

    estudios médicos, la presión sanguínea a la salida del corazón y a la salida de los pulmones

    están fuertemente relacionadas.

    Se hace necesario, pues, reducir el número de variables. Es importante resaltar el

    hecho de que el concepto de mayor información se relaciona con el de mayor variabilidad

    o varianza. Cuanto mayor sea la variabilidad de los datos (varianza) se considera que

    existe mayor información, lo cual está relacionado con el concepto de entropía.

    Componentes Principales

    Estas técnicas fueron inicialmente desarrolladas por Pearson a nales del siglo XIX y

    posteriormente fueron estudiadas por Hotelling en los años 30 del siglo XX. Sin embargo,

    hasta la aparición de los ordenadores no se empezaron a popularizar.

    Para estudiar las relaciones que se presentan entre p variables correlacionadas (que

    miden información común) se puede transformar el conjunto original de variables en otro

    5

  • 8/19/2019 Libro Analisis Multivariante

    58/215

    conjunto de nuevas variables incorreladas entre sí (que no tenga repetición o redundancia

    en la información) llamado conjunto de componentes principales.

    Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo

    según el orden de importancia en cuanto a la variabilidad total que recogen de la muestra.

    De modo ideal, se buscan m < p variables que sean combinaciones lineales de las p

    originales y que estén incorreladas, recogiendo la mayor parte de la información o varia-

    bilidad de los datos.

    Si las variables originales están incorreladas de partida, entonces no tiene sentido

    realizar un análisis de componentes principales.El análisis de componentes principales es una técnica matemática que no requiere la

    suposición de normalidad multivariante de los datos, aunque si esto último se cumple se

    puede dar una interpretación más profunda de dichos componentes.

    Cálculo de los Componentes Principales

    Se considera una serie de variables (x1, x2,...,x p) sobre un grupo de objetos o individ-

    uos y se trata de calcular, a partir de ellas, un nuevo conjunto de variables y1, y2,...,y p,

    incorreladas entre sí, cuyas varianzas vayan decreciendo progresivamente.

    Cada y j (donde j = 1, . . . , p) es una combinación lineal de las x1, x2,...,x p originales,

    es decir:

    y j = a j 1x1 + a j 2x2 + ... + a jp x p =

    = a 0 j x

    siendo a 0 j = ( a1 j , a2 j ,...,a pj ) un vector de constantes, y

    x =⎡⎢⎣

    x1...

    x p

    ⎤⎥⎦

    Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una

    forma simple podría ser aumentar los coe cientes aij . Por ello, para mantener la ortogo-

    nalidad de la transformación se impone que el módulo del vector a0

    j = ( a1 j , a2 j ,...,a pj ) sea

    6

  • 8/19/2019 Libro Analisis Multivariante

    59/215

    1. Es decir,

    a0

    j a j = p

    Xk=1 a2kj = 1

    El primer componente se calcula eligiendo a 1 de modo que y1 tenga la mayor varianza

    posible, sujeta a la restricción de que a 01a 1 = 1. El segundo componente principal se calcula

    obteniendo a 2 de modo que la variable obtenida, y2 esté incorrelada con y1.

    Del mismo modo se eligen y1, y2, · · · , y p, incorrelados entre sí, de manera que las va-

    riables aleatorias obtenidas vayan teniendo cada vez menor varianza.

    Proceso de extracción de factores:

    Queremos elegir a 1 de modo que se maximice la varianza de y1 sujeta a la restricción

    de que a 01a 1 = 1

    V ar(y1) = V ar(a0

    1x ) = a0

    1Σ a 1

    El método habitual para maximizar una función de varias variables sujeta a restric-

    ciones el método de los multiplicadores de Lagrange .

    El problema consiste en maximizar la función a 01

    Σ a 1 sujeta a la restricción a 01

    a 1 = 1.

    Se puede observar que la incógnita es precisamente a 1 (el vector desconocido que nos

    da la combinación lineal óptima).

    Así, construyo la función L:

    L(a 1) = a0

    1Σ a 1 −λ(a0

    1a 1 −1)

    y busco el máximo, derivando e igualando a 0:

    ∂L∂ a 1

    = 2 Σ a 1 − 2λI a 1 = 0 =⇒(Σ −λI ) a 1 = 0.

    Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roché-Frobenius,

    para que el sistema tenga una solución distinta de 0 la matriz (Σ − λI ) tiene que sersingular. Esto implica que el determinante debe ser igual a cero:

    |Σ −λI | = 07

  • 8/19/2019 Libro Analisis Multivariante

    60/215

    y de este modo, λ es un autovalor de Σ . La matriz de covarianzas Σ es de orden p y si

    además es de nida positiva, tendrá p autovalores distintos, λ1, λ 2, . . . , λ p tales que, por

    ejemplo, λ1 > λ 2 > · · · > λ p.

    Se tiene que, desarrollando la expresión anterior,

    (Σ − λI ) a 1 = 0Σ a 1 − λI a 1 = 0

    Σ a 1 = λI a 1

    entonces,

    V ar(y1) = V ar(a0

    1x ) = a0

    1Σ a 1 = a0

    1λI a 1 =

    = λa 01a 1 = λ · 1 = λ.

    Luego, para maximizar la varianza de y1 se tiene que tomar el mayor autovalor, digamos

    λ1, y el correspondiente autovector a 1.

    En realidad, a 1 es un vector que nos da la combinación de las variables originales que

    tiene mayor varianza, esto es, si a 01 = ( a11 , a12 , . . . , a 1 p), entonces

    y1 = a0

    1x = a11x1 + a12x2 + · · · + a1 px p.

    El segundo componente principal, digamos y2 = a 02x , se obtiene mediante un argu-

    mento parecido. Además, se quiere que y2 esté incorrelado con el anterior componente y1,

    es decir, Cov(y2, y1) = 0 . Por lo tanto:

    Cov(y2, y1) = Cov(a0

    2x , a0

    1x ) =

    = a 02 · E [(x − µ)(x −µ)0] · a 1 =

    = a 02Σ a 1,

    es decir, se requiere que a 02Σ a 1 = 0.

    Como se tenía que Σ a 1 = λa 1, lo anterior es equivalente a

    a0

    2Σ a 1 = a0

    2λa 1 = λa0

    2a 1 = 0,

    8

  • 8/19/2019 Libro Analisis Multivariante

    61/215

    esto equivale a que a 02a 1 = 0, es decir, que los vectores sean ortogonales.

    De este modo, tendremos que maximizar la varianza de y2, es decir, a 2Σ a 2, sujeta a

    las siguientes restricciones

    a0

    2a 2 = 1,

    a0

    2a 1 = 0.

    Se toma la función:

    L(a 2) = a0

    2Σ a 2

    −λ(a 02a 2

    −1)

    −δ a 02a 1

    y se deriva:∂L(a 2)

    ∂ a 2= 2 Σ a 2 − 2λa 2 − δ a 1 = 0

    si se multiplica por a 01, entonces

    2a 01Σ a 2 − δ = 0

    porque

    a0

    1a 2 = a0

    2a 1 = 0

    a0

    1a 1 = 1.

    Luego

    δ = 2a 01Σ a 2 = 2a0

    2Σ a 1 = 0,

    ya que Cov(y2, y1) = 0 .

    De este modo, ∂L ( a 2 )∂ a 2 queda nalmente como:

    ∂L(a 2)∂ a 2

    = 2 Σ a 2 − 2λa 2 − δ a 1 = 2Σ a 2 − 2λa 2 =(Σ − λI ) a 2 = 0

    Usando los mismos razonamientos que antes, elegimos λ como el segundo mayor au-

    tovalor de la matriz Σ con su autovector asociado a 2.

    9

  • 8/19/2019 Libro Analisis Multivariante

    62/215

    Los razonamientos anteriores se pueden extender, de modo que al j -ésimo componente

    le correspondería el j -ésimo autovalor.

    Entonces todos los componentes y (en total p) se pueden expresar como el producto

    de una matriz formada por los autovectores, multiplicada por el vector x que contiene las

    variables originales x1, . . . , x p

    y = Ax

    donde

    y =⎛

    ⎜⎜⎜⎝

    y1y2

    ...y p

    ⎟⎟⎟⎠

    , A =⎛

    ⎜⎜⎜⎝

    a11 a12 · · · a1 pa21 a22 · · · a2 p

    ... ... . . . ...a p1 a p2 · · · a pp

    ⎟⎟⎟⎠

    , x =⎛

    ⎜⎜⎜⎝

    x1x2

    ...x p

    ⎟⎟⎟⎠Como

    V ar(y1) = λ1

    V ar(y2) = λ2

    · · ·

    V ar(y p) = λ p

    la matriz de covarianzas de y será

    Λ =⎛⎜⎜⎜⎝

    λ1 0 0 00 λ2 0 0

    0 0 .. . 00 0 0 λ p

    ⎞⎟⎟⎟⎠

    porque y1, . . . , y p se han construido como variables incorreladas.

    Se tiene que

    Λ = V ar(Y ) = A0V ar(X )A = A0Σ A

    o bien

    Σ = AΛ A0

    ya que A es una matriz ortogonal (porque a 0i a i = 1 para todas sus columnas) por lo que

    AA0

    = I .

    10

  • 8/19/2019 Libro Analisis Multivariante

    63/215

    Porcentajes de variablilidad

    Vimos antes que, en realidad, cada autovalor correspondía a la varianza del compo-

    nente yi que se de nía por medio del autovector a i , es decir, V ar(yi) = λ i .

    Si sumamos todos los autovalores, tendremos la varianza total de los componentes, es

    decir: p

    Xi=1 V ar(yi) = p

    Xi=1 λ i = traza (Λ )ya que la matriz Λ es diagonal.

    Pero, por las propiedades del operador traza,

    traza (Λ ) = traza (A0Σ A) = traza (Σ A0A) = traza (Σ ),

    porque AA 0 = I al ser A ortogonal, con lo cual

    traza (Λ ) = traza (Σ ) = p

    Xi=1 V ar(xi)Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas

    de las componentes son iguales. Esto permite hablar del porcentaje de varianza total que

    recoge un componente principal:

    λ i

    P pi=1 λ i

    = λi

    P pi=1 V ar(xi)

    (si multiplicamos por 100 tendremos el %).

    Así, también se podrá expresar el porcentaje de variabilidad recogido por los primeros

    m componentes:

    Pmi=1 λ i

    P pi=1 V ar(xi)

    donde m < p.

    En la práctica, al tener en principio p variables, nos quedaremos con un número

    mucho menor de componentes que recoja un porcentaje amplio de la variabilidad to-

    tal P pi=1 V ar(xi). En general, no se suele coger más de tres componentes principales, a

    ser posible, para poder representarlos posteriormente en las grá cas.

    11

  • 8/19/2019 Libro Analisis Multivariante

    64/215

    Cálculo de los componentes principales a partir de la matriz decorrelaciones

    Habitualmente, se calculan los componentes sobre variables originales estandarizadas,

    es decir, variables con media 0 y varianza 1. Esto equivale a tomar los componentes

    principales, no de la matriz de covarianzas sino de la matriz de correlaciones (en las

    variables estandarizadas coinciden las covarianzas y las correlaciones).

    Así, los componentes son autovectores de la matriz de correlaciones y son distintos

    de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a todas las

    variables originales.En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las

    variables originales están tipi cadas, esto implica que su matriz de covarianzas es igual

    a la de correlaciones, con lo que la variabilidad total (la traza) es igual al número total

    de variables que hay en la muestra. La suma total de todos los autovalores es p y la

    proporción de varianza recogida por el autovector j -ésimo (componente) es

    λ j p .

    Matriz factorial

    Cuando se presentan los autovectores en la salida de SPSS, se les suele multiplicar pre-

    viamente por p λ j (del autovalor correspondiente), para reescalar todos los componentesdel mismo modo. Así, se calcula:

    a

    j = λ1/ 2

    j a j

    para j = 1, . . . , p .

    De este modo, se suele presentar una tabla de autovectores a ∗ j que forman la matriz

    factorial

    F = ( a ∗1, a∗

    2, . . . , a∗

    p)

    Si se eleva al cuadrado cada una de las columnas y se suman los términos se obtienen

    los autovalores:

    12

  • 8/19/2019 Libro Analisis Multivariante

    65/215

  • 8/19/2019 Libro Analisis Multivariante

    66/215

    Si suponemos que las variables originales están estandarizadas: V ar(xi) = 1 para

    i = 1, . . . , p, entonces

    Cor (y j , x i) = λ j a ij1 · λ1/ 2 j= λ1/ 2 j aij .

    De este modo, la matriz de correlaciones entre y y x es:

    Cor (y , x ) = Λ 1/ 2A0 = F 0

    con lo que la matriz factorial también mide las correlaciones entre las variables originales

    estandarizadas y los nuevos factores.

    Cambios de escalas e identi cación de componentes

    Si las variables originales x1, . . . , x p están incorreladas, entonces carece de sentido cal-

    cular unos componentes principales. Si se hiciera, se obtendrían las mismas variables pero

    reordenadas de mayor a menor varianza. Para saber si x1, . . . , x p están correlacionadas, se

    puede calcular la matriz de correlaciones aplicándose posteriormente el test de esfericidad

    de Barlett .

    El cálculo de los componentes principales de una serie de variables x1, . . . , x p depende

    normalmente de las unidades de medida empleadas. Si transformamos las unidades de

    medida, lo más probable es que cambien a su vez los componentes obtenidos.

    Una solución frecuente es usar variables x1,...,x p tipi cadas. Con ello, se eliminan las

    diferentes unidades de medida y se consideran todas las variables implícitamente equiva-

    lentes en cuanto a la información recogida.

    Identi cación de los componentes principales

    Una de los objetivos del cálculo de componentes principales es la identi cación de

    los mismos, es decir, averiguar qué información de la muestra resumen. Sin embargo este

    es un problema difícil que a menudo resulta subjetivo. Habitualmente, se conservan sólo

    aquellos componentes que recogen la mayor parte de la variabilidad, hecho que permite

    14

  • 8/19/2019 Libro Analisis Multivariante

    67/215

    representar los datos según dos o tres dimensiones si se conservan dos o tres ejes factoriales,

    pudiéndose identi car entonces grupos naturales entre las observaciones.

    EjemploSO2 Neg.Temp Empresas Poblacion Viento Precip Dias

    Phoenix 10.00 70.30 213.00 582.00 6.00 7.05 36.00Little Rock 13.00 61.00 91.00 132.00 8.20 48.52 100.00

    San Francisco 12.00 56.70 453.00 716.00 8.70 20.66 67.00Denver 17.00 51.90 454.00 515.00 9.00 12.95 86.00

    Hartford 56.00 49.10 412.00 158.00 9.00 43.37 127.00Wilmington 36.00 54.00 80.00 80.00 9.00 40.25 114.00Washington 29.00 57.30 434.00 757.00 9.30 38.89 111.00Jacksonville 14.00 68.40 136.00 529.00 8.80 54.47 116.00

    Miami 10.00 75.50 207.00 335.00 9.00 59.80 128.00Atlanta 24.00 61.50 368.00 497.00 9.10 48.34 115.00Chicago 110.00 50.60 3344.00 3369.00 10.40 34.44 122.00

    Indianapolis 28.00 52.30 361.00 746.00 9.70 38.74 121.00Des Moines 17.00 49.00 104.00 201.00 11.20 30.85 103.00

    Wichita 8.00 56.60 125.00 277.00 12.70 30.58 82.00Louisville 30.00 55.60 291.00 593.00 8.30 43.11 123.00

    New Orleans 9.00 68.30 204.00 361.00 8.40 56.77 113.00Baltimore 47.00 55.00 625.00 905.00 9.60 41.31 111.00

    Detroit 35.00 49.90 1064.00 1513.00 10.10 30.96 129.00Minneapolis-St. Paul 29.00 43.50 699.00 744.00 10.60 25.94 137.00

    Kansas City 14.00 54.50 381.00 507.00 10.00 37.00 99.00St. Louis 56.00 55.90 775.00 622.00 9.50 35.89 105.00

    Omaha 14.00 51.50 181.00 347.00 10.90 30.18 98.00Alburquerque 11.00 56.80 46.00 244.00 8.90 7.77 58.00

    Albany 46.00 47.60 44.00 116.00 8.80 33.36 135.00Buff alo 11.00 47.10 391.00 463.00 12.40 36.11 166.00

    Cincinnati 23.00 54.00 462.00 453.00 7.10 39.04 132.00Cleveland 65.00 49.70 1007.00 751.00 10.90 34.99 155.00Columbus 26.00 51.50 266.00 540.00 8.60 37.01 134.00

    Philadelphia 69.00 54.60 1692.00 1950.00 9.60 39.93 115.00Pittsburgh 61.00 50.40 347.00 520.00 9.40 36.22 147.00Providence 94.00 50.00 343.00 179.00 10.60 42.75 125.00

    Memphis 10.00 61.60 337.00 624.00 9.20 49.10 105.00Nashville 18.00 59.40 275.00 448.00 7.90 46.00 119.00

    Dallas 9.00 66.20 641.00 844.00 10.90 35.94 78.00Houston 10.00 68.90 721.00 1233.00 10.80 48.19 103.00Salt Lake City 28.00 51.00 137.00 176.00 8.70 15.17 89.00

    Norfolk 31.00 59.30 96.00 308.00 10.60 44.68 116.00Richmond 26.00 57.80 197.00 299.00 7.60 42.59 115.00

    Seattle 29.00 51.10 379.00 531.00 9.40 38.79 164.00Charleston 31.00 55.20 35.00 71.00 6.50 40.75 148.00Milwaukee 16.00 45.70 569.00 717.00 11.80 29.07 123.00

    Se dispone de una muestra de 41 ciudades de USA en las que se midieron diferentes

    variables relacionadas con la contaminación atmosférica.

    Las variables son:

    15

  • 8/19/2019 Libro Analisis Multivariante

    68/215

    — Contenido en SO2

    — Temperatura anual en grados F.

    — Número de empresas mayores de 20 trabajadores.

    — Población (en miles de habitantes).

    — Velocidad media del viento.

    — Precipitación anual media.

    — Días lluviosos al año.

    En principio interesa investigar la relación entre la concentración en SO2 y el resto

    de variables, aunque para eliminar relaciones entre las variables se emplea un análisis de

    componentes principales.

    Se realiza un análisis de componente principales sobre todas las variables salvo SO2.

    En la salida de resultados de R se observan varias grá cas descriptivas exploratorias

    donde se presentan varios datos anómalos (outliers), por ejemplo Chicago.

    Se obtienen los componentes principales a partir de la matriz de correlaciones para

    emplear las mismas escalas en todas las variables.

    Los primeros tres componentes tienen todos varianzas (autovalores) mayores que 1 y

    entre los tres recogen el 85% de la varianza de las variables originales.

    El primer componente se le podría etiquetar como calidad de vida con valores negativosaltos en empresas y población indicando un entorno relativamente pobre. El segundo

    componente se puede etiquetar como tiempo húmedo , y tiene pesos altos en las variables

    precipitaciones y días . El tercer componente se podría etiquetar como tipo de clima y está

    relacionado con la temperatura y la cantidad de lluvia.

    Aunque no se encontrasen etiquetas claras para los componentes, siempre es intere-

    sante calcular componentes principales para descubrir si los datos se encuentran en una

    16

  • 8/19/2019 Libro Analisis Multivariante

    69/215

    dimensión menor; de hecho, los tres primeros componentes producen un mapa de los datos

    donde las distancias entre los puntos es bastante semejante a la observada en los mismos

    respecto a las variables originales.

    En la salida de R, se presentan las puntuaciones de las observaciones respecto a los

    tres factores combinando estos de dos en dos. Se observa que la ciudad de Chicago es un

    outlier y también, en menor medida, las ciudades de Phoenix y Philadelphia. Phoenix

    aparece como la ciudad con más calidad de vida, y Bu ff alo parece la más húmeda.

    A continuación nos planteamos la cuestión de la relación o posible predicción de los

    niveles de SO2 respecto a las variables de tipo ambiental. Se pueden representar losvalores de concentración de SO2 frente a cada uno de los tres componentes, aunque la

    interpretación puede ser subjetiva por la presencia de outliers. Aún así, parece que la

    contaminación está más relacionada con la primera componente que con las otras dos.

    Hacemos un análisis de regresión de la variable SO2 sobre los tres factores: claramente

    la cantidad de SO2 se explica mediante el primer componente de calidad de vida (rela-

    cionado con el entorno humano y el clima) que cuando empeora aumenta, a su vez, la

    contaminación.

    17

  • 8/19/2019 Libro Analisis Multivariante

    70/215

    Análi sis de Componentes Principales (con SPSS)

    El objetivo del Análisis de Componentes Principales es identificar a partir de un conjunto de p variables,otro conjunto de k (k < p) variables no directamente observables, denominadas factores, tal que:

    - k sea un número pequeño- se pierda la menor cantidad posible de información- la solución obtenida sea interpretable.

    Pasos en el Análisis de Componentes Principales:- Evaluación de lo apropiado de realizar el análisis.- Extracción de los factores.- Cálculo de las puntuaciones factoriales para cada caso.

    18

  • 8/19/2019 Libro Analisis Multivariante

    71/215

    19

  • 8/19/2019 Libro Analisis Multivariante

    72/215

  • 8/19/2019 Libro Analisis Multivariante

    73/215

    Se calcula la matriz de correlaciones con la significación de cada componente:

    Matriz de correlaciones(a)

    Temp Emp Pob Viento Precip Dias

    T