conceptos de multivariadas

Embed Size (px)

Citation preview

  • 8/16/2019 conceptos de multivariadas

    1/40

    Métodos Multivariados

    Son técnicas que permiten realizar el análisisestadístico de datos, cuando se han registradomuchas características sobre un conjunto deobjetos o individuos.

    Objetivos:• Analizar y simplificar la estructura de datos• Clasificación y conglomeración•

    Análisis de dependencia• Inferencia estadística

  • 8/16/2019 conceptos de multivariadas

    2/40

    Métodos de Interdependencia

    No hay distinción entre las variables. Son métodosdescriptivos que sintetizan la información, mostrarla estructura de los datos o clasificar las variables.

    Método Métricas No

    métricasAnálisis de componentes principales XAnálisis factorial XAnálisis de correspondencia XAnálisis de cluster X

    Análisis de escalamiento multidimensional X X

  • 8/16/2019 conceptos de multivariadas

    3/40

    Métodos de dependencia

    Se distinguen variables dependientes eindependientes. Son métodos con finalidadesexplicativas.

    Var. Dependiente Var. IndMétodo Met. No Met. Mét.Análisis discriminante X XAnálisis de regresión multivariado X Análisis de regresión logística X Análisis de variancia X

  • 8/16/2019 conceptos de multivariadas

    4/40

    Métodos multivariados• A nálisis de c om po nen tes pr inc ipales (ACP). Su

    propósito es el de reducir la dimensionalidad de lasvariables originales, tratando de explicar la mayor partede la variabilidad total del conjunto de variablesoriginales con el menor número posible de componentes

    principales, también es usada como un análisisdescriptivo de los datos.

    • A nális is Fac to ri al (AF). Permite sintetizar el fenómenoen estudio a través de analizar la estructura decorrelaciones entre el conjunto de variables, se resumela información e identifica una estructura subyacente delconjunto de los datos.

    A nális is d e Corres pond enc ia (AC) . Es similar al AF,en el sentido que trata de descubrir y describir lasdimensiones fundamentales de un fenómeno pero con la

    particularidad que las variables son categóricas que proporcionan mapas preceptúales que facilitan lainterpretación y su análisis.

  • 8/16/2019 conceptos de multivariadas

    5/40

    Métodos multivariados• A nális is d e c lu s ter . A partir de un conjunto de

    variables métricas trata de agrupar el conjunto deobservaciones (objetos o individuos) aplicandomedidas de distancia, formando grupos que sean lo

    más homogéneos los individuos dentro de ellos yheterogéneos entre los grupos .• A nálisis d e Esc alam iento Mult id im ens ional . Es

    similar al análisis de cluster, con la diferencia que

    trabaja con variables de escalas métricas y/oordinales (cualitativas) , con la finalidad de formargrupos.

  • 8/16/2019 conceptos de multivariadas

    6/40

    Métodos multivariados• A nális is Dis c rim in ante . La variable dependiente es

    categórica (dos o más categorías) y lasindependientes son variables métricas. El métodotrata de construir una regla o función de clasificaciónen base de las variables independientes yconociendo a priori los grupos indicados por lavariable categórica; y así poder asignar nuevasobservaciones a uno de los grupos aplicando la reglao función de clasificación.

    • A nális is d e Regresión Mu ltiv ariada . Es el método

    que trata de estudiar la relación funcional entre ungrupo de variables dependientes y un conjunto devariables independientes. La relación puede serlineal o no lineal y las variables independientes

    pueden ser métricas y no métricas.

  • 8/16/2019 conceptos de multivariadas

    7/40

    Métodos multivariados• A nális is de Reg res ión Log ís tica . Es un caso

    particular del análisis de regresión en el cual lavariable dependiente es dicotómica (o

    politómica) y las variables independientes pueden ser métricas o no métricas.

    • A nális is de Var ian c ia . Las variablesindependientes son categóricas y trata deestudiar los efectos de factores que intervienen

    sobre la variable dependiente (respuesta). Alexistir más de dos variables independientes, seoriginan los arreglos factoriales.

  • 8/16/2019 conceptos de multivariadas

    8/40

    Fases para el análisis multivariante de datosDefinir el problema de investigación,

    Objetivos y Técnica multivariante

    Desarrollar el proyecto de análisis y poner en práctica la técnica multivariada

    Evaluación de los supuestos básicos de latécnica multivariada

    Estimación del modelo multivariante yevaluación de su ajuste

    Interpretación de los resultados

    Validación del modelo multivariante

  • 8/16/2019 conceptos de multivariadas

    9/40

    Fundamentos del algebra matricial

    Matriz. Una matriz A de orden odimensión (mxn) es un conjunto de m x n elementos, ordenados en m filas y n columnas.

    ija denota cada elemento de la matriz,

    correspondiente a la fila i y columna j .

  • 8/16/2019 conceptos de multivariadas

    10/40

    Ejemplos de matrices

    907040806020503010

    A 24

    8532

    B

    Matriz de orden (3x3): 33 x A Matriz de orden (3x2): 23 x B

    255010

    a 308010b

    Vector columna de orden (3x1): 13 xa

    Vector fila (1x3): 31 xb

  • 8/16/2019 conceptos de multivariadas

    11/40

    Tipos de matrices

    Matriz cuadrada. Una matriz es

    cuadrada cuando tiene el mismonúmero de filas y columnas.

    907040806020

    503010

    A

  • 8/16/2019 conceptos de multivariadas

    12/40

    Operaciones con matrices cuadradas

    Traza de una matriz. La traza de unamatriz cuadrada m xm A , se define comola suma de los elementos de la

    diagonal.m

    iiia Atr

    1

    )(

    160906010)( 3322111 aaaa Atr

    m

    iii

  • 8/16/2019 conceptos de multivariadas

    13/40

    Operaciones con matrices cuadradas

    Inversa de una matriz. Dada unamatriz cuadrada A , se denota su

    inversa por1 A tal que: I A A A A

    11

    (donde I es la matriz identidad)

  • 8/16/2019 conceptos de multivariadas

    14/40

    Operaciones con matrices cuadradas

    Determinante de una matriz. Eldeterminante de una matriz cuadrada

    m xm A, es un escalar que resulta alobtener todos los productos posibles

  • 8/16/2019 conceptos de multivariadas

    15/40

    Tipos de matrices

    Matriz simétrica. Se dice que unamatriz cuadrada es simétrica, si secumple que: ' A A .Esto es, si cadafila es igual a su correspondiente

    columna: jiaa jiij , .

    Ejemplo. 908050806030

    503010

    A

  • 8/16/2019 conceptos de multivariadas

    16/40

    Tipos de matrices

    Matriz identidad. Es una matrizdiagonal cuyos elementos de ladiagonal son unos.

    Ejemplo. 100010

    001

    I

  • 8/16/2019 conceptos de multivariadas

    17/40

    Tipos de matrices

    Matriz ortogonal. Se dice que unamatriz P es ortogonal si I PP ' o bien

    I P P ' . Además se cumple:o '1 P P o 11 ó P

  • 8/16/2019 conceptos de multivariadas

    18/40

    Multiplicación de matrices Para multiplicar dos matrices, elnúmero de columnas de la primeradebe ser igual al número de filas de la

    segunda. Si A es una matriz de orden(mxn) y B es de orden (nxp), entoncesel producto de las matrices es una

    matriz C de orden (mxp):

    p xm p xnn xm C B x A donde: p

    k kjik ij bac

    1

  • 8/16/2019 conceptos de multivariadas

    19/40

    Ejemplos de multiplicación de matrices

    860790

    700660

    370370

    232333 x x x C xB A

    61505200

    2850

    131333 x x x C xa A

    4803702123' 31 x x x C xBa

    7502000250

    15004000500

    300800100

    333113 x x x C xba

  • 8/16/2019 conceptos de multivariadas

    20/40

  • 8/16/2019 conceptos de multivariadas

    21/40

    Distribución Normal Multivariada Se dice que un vector aleatorio x, tiene una distribuciónnormal multivariada o p-variada, con vector de mediasy matriz de covariancias , si su función de densidadestá dada por :

    f x x x 2 1 2 12 1 2 / ! /exp 1

    2

    p

    11 12 1

    21 22 2

    1 2

    p

    p

    p p pp

    donde j es la media y jj es la variancia poblacionales

    de la j-ésima variable, y jk es la covariancia ente la j-ésima y k-ésima variable.

    Notación: ),( p N x

  • 8/16/2019 conceptos de multivariadas

    22/40

    Muestra Multivariada

    X11 X12 ... X1j ... X1p

    X21 X22 ... X2j ... X1p . . ... . ... .

    X = Xi1 Xi2 ... X ij ... X ip i-ésima fila . . ... . ... .

    Xn1 Xn2 ... Xnj ... Xnp

    j-ésima columna

    Esta representada por la matriz de datosij X

    de orden(nxp) que corresponde a seleccionarn individuos uobjetos y a los cuales se han evaluado p variables

  • 8/16/2019 conceptos de multivariadas

    23/40

    Vector de variables

    Es el vector p X de orden (px1), de p variables, cuyos elementos representan unacaracterística o una variable medida sobre un individuo. Un individuo u observaciónestá representado por un vector de p variables

    p

    p

    X

    X

    X

    X 2

    1

    Como un vector transpuesta P P X X X X ...,, 21'

    PESOTALLA

    SUELDO

  • 8/16/2019 conceptos de multivariadas

    24/40

    Vector de medias muestrales

    Es el vector X de orden (px1), cuyos elementos son lamedia muestral de la j-ésima variable.

    x x x x p!

    1 2

    x

    x

    n j

    iji

    n

    1 j =1, 2, , p

  • 8/16/2019 conceptos de multivariadas

    25/40

    Matriz de variancia-covariancias muestrales

    Es la matriz simétrica S de orden ( pxp), cuyoselementos jjS son la variancias de la variable j X y jk S lascovariancias muestrales entre las variables j X y k X .

    pp p p

    p

    p

    s s s

    s s s

    s s s

    S

    21

    22221

    11211

    n

    ik ik jij jk x x x xn

    s11

    1

    n

    i jij jj x xn

    s1

    2

    11

  • 8/16/2019 conceptos de multivariadas

    26/40

    Matriz de correlaciones muestrales. Es una matriz simétrica de orden ( pxp), cuyos

    elementos jk r son las correlaciones simplesmuestrales entre las variables j X y k X .

    1

    1

    1

    1

    3

    22 3

    11 31 2

    p

    p

    p

    r

    r r

    r r r

    R

    kk jj

    jk jk s s

    sr

  • 8/16/2019 conceptos de multivariadas

    27/40

    Análisis previo de datos

    Antes de aplicar cualquier técnica multivariadaes preciso un análisis de los datos. Esnecesario evaluar las variables individuales ysus relaciones, tales como datos faltantes,presencia de datos atípicos y supuestos.

    1) Análisis exploratorio de datos2) Análisis de datos faltantes (outliers)3) Detección de datos atípicos4) Comprobación de supuestos

  • 8/16/2019 conceptos de multivariadas

    28/40

    Análisis exploratorio de datos

    • Histogramas de frecuencias• Gráficos•

    Diagrama de tallos y hojas• Diagrama de cajas• Cálculo de medidas estadísticas•

    Medidas de asimetria• Medidas de curtosis

  • 8/16/2019 conceptos de multivariadas

    29/40

    Medidas de asimetria

    • Coeficiente de FISHER (g1) . Se halla con lasiguiente expresión:

    Si g1 > 0 la distribución será asimétrica positiva o a derechas.

    Si g1 < 0 la distribución será asimétricanegativa o a izquierdas (desplazada hacia laizquierda).

    Si g1 = 0 la distribución será simétrica .

    3

    3

    1)(

    ns

    n x x g i i

  • 8/16/2019 conceptos de multivariadas

    30/40

    • Coeficiente de PEARSON (Ap). Se calculacon la siguiente expresión.

    Si Ap > 0 la distribución será asimétrica positiva o hacía la derecha.

    Si Ap < 0 la distribución será asimétricanegativa o hacía la izquierda.

    Si Ap = 0 la distribución será simétrica.

    S Me X

    A p)(3

  • 8/16/2019 conceptos de multivariadas

    31/40

    • Coeficiente de asimetría de Bowley (Ab) . El cualesta basado en la posición de los cuartiles y la

    mediana. Se calcula de la siguiente manera:

    Si Ab > 0 la distribución será asimétrica positiva ohacía la derecha.

    Si Ab < 0 la distribución será asimétrica negativa ohacía la izquierda.Si Ap = 0 la distribución será simétrica.

    13

    13 2QQ

    MeQQ Ab

  • 8/16/2019 conceptos de multivariadas

    32/40

    Medidas de curtosis• Curtosis: coeficiente de Fisher. Para calcularlo

    utilizaremos la expresión:

    Si g2 > 0 la distribución será leptocúrtica o apuntada Si g2 = 0 la distribución será mesocúrtica o normal Si g2 < 0 la distribución será platicúrtica o menos apuntada

    que lo normal.

    Usando percentiles:

    3)(

    4

    4

    2 ns

    n X x g i i

    5.01090

    2575

    P P P P

    K Si K 0 Distribución Normal

  • 8/16/2019 conceptos de multivariadas

    33/40

    Medidas globales de variabilidad• Variancia total. Se define como la traza de la

    matriz de variancias-covariancias.

    Si la dependencia entre las variables es alta, lavariabilidad conjunta es pequeña.

    Un inconveniente es que no toma en cuenta laestructura de dependencia de las variablesVariancia media

    p

    j jjS S TrazaT

    1

    p

    j jjS p

    T 1

    1

  • 8/16/2019 conceptos de multivariadas

    34/40

    • Variancia generalizada. Es una medida que

    mejor mide la variabilidad global. Se definecomo el determinante de la matriz devariancias-covariancias

    Si las variables son independientes, la variabilidadserá mayor.

    Un inconveniente es que no sirve para compararconjuntos de datos con distintos número devariables.

    S GV

  • 8/16/2019 conceptos de multivariadas

    35/40

    • Variancia efectiva. Es una alternativa para

    solucionar el problema de la VG. Es definidacomo la raíz p-ésima del determinante de lamatriz de variancias-covariancias.

    La VE tiene en cuenta la dependencia conjunta, yaque si una variable es combinación lineal de lasdemás al existir un valor propio cero.

    pS VE 1

  • 8/16/2019 conceptos de multivariadas

    36/40

    Medidas de distanciasSon medidas alternativas para medir la

    variabilidad entre variables.• Distancia Euclidiana. Esta medida depende de las

    unidades de medida de las variables originales, ypor lo tanto generalmente se aplicarán a variablesestandarizadas o tipificadas.

    • Un defecto de esta métrica es que no tiene en cuenta lacorrelación alta que puede existir entre varias las variables,aportando información similar (todas las variables ingresancon igual peso).

    21

    1

    2)( p

    k jk ik ij x xd

  • 8/16/2019 conceptos de multivariadas

    37/40

    • Distancia de Mahalanobis. Esta métrica siconsidera la existencia de unidades de medidaentre las variables originales. Utiliza la inversade la matriz de covariancias de las variablespara eliminar la influencia de unidades entre

    las variables.

    )()( 1'2 ji jiij x xS x xd

  • 8/16/2019 conceptos de multivariadas

    38/40

    Análisis de datos faltantes• Supresión de datos

    – Eliminación de casos o variables – Eliminación de datos según parejas de variables

    • Imputación de datos – Sustitución por la media o mediana (hay outliers) – Sustitución por interpolación (alta variabilidad).

    Uso de valores adyacentes –

    Sustitución por datos constante. Uso de fuentesexternas – Sustitución por análisis de regresión

  • 8/16/2019 conceptos de multivariadas

    39/40

    Detección de datos atípicos (outliers)

    • Diagrama de cajas simples y múltiples• Gráficos de dispersión•

    Gráfico de dispersión matricial• Gráficos de control• Estadísticas descriptivas

  • 8/16/2019 conceptos de multivariadas

    40/40

    EJEMPLO DE APLICACIÓN

    Con el archivo:Datos Sistema Educativo Peru1 .1. Con el SPSS: Haga un análisis exploratorio de las

    variables: Estadísticas descriptivas, valores atípicos,percentiles, gráficos de tallos y hojas, histogramas ygráficos con pruebas de normalidad.

    2. Con el SPSS: Calcule el número de Departamentos porregión.

    3. Con el SPSS: Halle la matriz de correlaciones, la matrizde variancia covariancia, distancias de euclídeas decasos con disimilaridades(estandarice), distanciasusando correlaciones con similaridades(estandarice).

    4. Con el R: Haga la prueba de normalidad 14-variada.