Upload
nelly-magally
View
215
Download
0
Embed Size (px)
Citation preview
8/16/2019 conceptos de multivariadas
1/40
Métodos Multivariados
Son técnicas que permiten realizar el análisisestadístico de datos, cuando se han registradomuchas características sobre un conjunto deobjetos o individuos.
Objetivos:• Analizar y simplificar la estructura de datos• Clasificación y conglomeración•
Análisis de dependencia• Inferencia estadística
8/16/2019 conceptos de multivariadas
2/40
Métodos de Interdependencia
No hay distinción entre las variables. Son métodosdescriptivos que sintetizan la información, mostrarla estructura de los datos o clasificar las variables.
Método Métricas No
métricasAnálisis de componentes principales XAnálisis factorial XAnálisis de correspondencia XAnálisis de cluster X
Análisis de escalamiento multidimensional X X
8/16/2019 conceptos de multivariadas
3/40
Métodos de dependencia
Se distinguen variables dependientes eindependientes. Son métodos con finalidadesexplicativas.
Var. Dependiente Var. IndMétodo Met. No Met. Mét.Análisis discriminante X XAnálisis de regresión multivariado X Análisis de regresión logística X Análisis de variancia X
8/16/2019 conceptos de multivariadas
4/40
Métodos multivariados• A nálisis de c om po nen tes pr inc ipales (ACP). Su
propósito es el de reducir la dimensionalidad de lasvariables originales, tratando de explicar la mayor partede la variabilidad total del conjunto de variablesoriginales con el menor número posible de componentes
principales, también es usada como un análisisdescriptivo de los datos.
• A nális is Fac to ri al (AF). Permite sintetizar el fenómenoen estudio a través de analizar la estructura decorrelaciones entre el conjunto de variables, se resumela información e identifica una estructura subyacente delconjunto de los datos.
•
A nális is d e Corres pond enc ia (AC) . Es similar al AF,en el sentido que trata de descubrir y describir lasdimensiones fundamentales de un fenómeno pero con la
particularidad que las variables son categóricas que proporcionan mapas preceptúales que facilitan lainterpretación y su análisis.
8/16/2019 conceptos de multivariadas
5/40
Métodos multivariados• A nális is d e c lu s ter . A partir de un conjunto de
variables métricas trata de agrupar el conjunto deobservaciones (objetos o individuos) aplicandomedidas de distancia, formando grupos que sean lo
más homogéneos los individuos dentro de ellos yheterogéneos entre los grupos .• A nálisis d e Esc alam iento Mult id im ens ional . Es
similar al análisis de cluster, con la diferencia que
trabaja con variables de escalas métricas y/oordinales (cualitativas) , con la finalidad de formargrupos.
8/16/2019 conceptos de multivariadas
6/40
Métodos multivariados• A nális is Dis c rim in ante . La variable dependiente es
categórica (dos o más categorías) y lasindependientes son variables métricas. El métodotrata de construir una regla o función de clasificaciónen base de las variables independientes yconociendo a priori los grupos indicados por lavariable categórica; y así poder asignar nuevasobservaciones a uno de los grupos aplicando la reglao función de clasificación.
• A nális is d e Regresión Mu ltiv ariada . Es el método
que trata de estudiar la relación funcional entre ungrupo de variables dependientes y un conjunto devariables independientes. La relación puede serlineal o no lineal y las variables independientes
pueden ser métricas y no métricas.
8/16/2019 conceptos de multivariadas
7/40
Métodos multivariados• A nális is de Reg res ión Log ís tica . Es un caso
particular del análisis de regresión en el cual lavariable dependiente es dicotómica (o
politómica) y las variables independientes pueden ser métricas o no métricas.
• A nális is de Var ian c ia . Las variablesindependientes son categóricas y trata deestudiar los efectos de factores que intervienen
sobre la variable dependiente (respuesta). Alexistir más de dos variables independientes, seoriginan los arreglos factoriales.
8/16/2019 conceptos de multivariadas
8/40
Fases para el análisis multivariante de datosDefinir el problema de investigación,
Objetivos y Técnica multivariante
Desarrollar el proyecto de análisis y poner en práctica la técnica multivariada
Evaluación de los supuestos básicos de latécnica multivariada
Estimación del modelo multivariante yevaluación de su ajuste
Interpretación de los resultados
Validación del modelo multivariante
8/16/2019 conceptos de multivariadas
9/40
Fundamentos del algebra matricial
Matriz. Una matriz A de orden odimensión (mxn) es un conjunto de m x n elementos, ordenados en m filas y n columnas.
ija denota cada elemento de la matriz,
correspondiente a la fila i y columna j .
8/16/2019 conceptos de multivariadas
10/40
Ejemplos de matrices
907040806020503010
A 24
8532
B
Matriz de orden (3x3): 33 x A Matriz de orden (3x2): 23 x B
255010
a 308010b
Vector columna de orden (3x1): 13 xa
Vector fila (1x3): 31 xb
8/16/2019 conceptos de multivariadas
11/40
Tipos de matrices
Matriz cuadrada. Una matriz es
cuadrada cuando tiene el mismonúmero de filas y columnas.
907040806020
503010
A
8/16/2019 conceptos de multivariadas
12/40
Operaciones con matrices cuadradas
Traza de una matriz. La traza de unamatriz cuadrada m xm A , se define comola suma de los elementos de la
diagonal.m
iiia Atr
1
)(
160906010)( 3322111 aaaa Atr
m
iii
8/16/2019 conceptos de multivariadas
13/40
Operaciones con matrices cuadradas
Inversa de una matriz. Dada unamatriz cuadrada A , se denota su
inversa por1 A tal que: I A A A A
11
(donde I es la matriz identidad)
8/16/2019 conceptos de multivariadas
14/40
Operaciones con matrices cuadradas
Determinante de una matriz. Eldeterminante de una matriz cuadrada
m xm A, es un escalar que resulta alobtener todos los productos posibles
8/16/2019 conceptos de multivariadas
15/40
Tipos de matrices
Matriz simétrica. Se dice que unamatriz cuadrada es simétrica, si secumple que: ' A A .Esto es, si cadafila es igual a su correspondiente
columna: jiaa jiij , .
Ejemplo. 908050806030
503010
A
8/16/2019 conceptos de multivariadas
16/40
Tipos de matrices
Matriz identidad. Es una matrizdiagonal cuyos elementos de ladiagonal son unos.
Ejemplo. 100010
001
I
8/16/2019 conceptos de multivariadas
17/40
Tipos de matrices
Matriz ortogonal. Se dice que unamatriz P es ortogonal si I PP ' o bien
I P P ' . Además se cumple:o '1 P P o 11 ó P
8/16/2019 conceptos de multivariadas
18/40
Multiplicación de matrices Para multiplicar dos matrices, elnúmero de columnas de la primeradebe ser igual al número de filas de la
segunda. Si A es una matriz de orden(mxn) y B es de orden (nxp), entoncesel producto de las matrices es una
matriz C de orden (mxp):
p xm p xnn xm C B x A donde: p
k kjik ij bac
1
8/16/2019 conceptos de multivariadas
19/40
Ejemplos de multiplicación de matrices
860790
700660
370370
232333 x x x C xB A
61505200
2850
131333 x x x C xa A
4803702123' 31 x x x C xBa
7502000250
15004000500
300800100
333113 x x x C xba
8/16/2019 conceptos de multivariadas
20/40
8/16/2019 conceptos de multivariadas
21/40
Distribución Normal Multivariada Se dice que un vector aleatorio x, tiene una distribuciónnormal multivariada o p-variada, con vector de mediasy matriz de covariancias , si su función de densidadestá dada por :
f x x x 2 1 2 12 1 2 / ! /exp 1
2
p
11 12 1
21 22 2
1 2
p
p
p p pp
donde j es la media y jj es la variancia poblacionales
de la j-ésima variable, y jk es la covariancia ente la j-ésima y k-ésima variable.
Notación: ),( p N x
8/16/2019 conceptos de multivariadas
22/40
Muestra Multivariada
X11 X12 ... X1j ... X1p
X21 X22 ... X2j ... X1p . . ... . ... .
X = Xi1 Xi2 ... X ij ... X ip i-ésima fila . . ... . ... .
Xn1 Xn2 ... Xnj ... Xnp
j-ésima columna
Esta representada por la matriz de datosij X
de orden(nxp) que corresponde a seleccionarn individuos uobjetos y a los cuales se han evaluado p variables
8/16/2019 conceptos de multivariadas
23/40
Vector de variables
Es el vector p X de orden (px1), de p variables, cuyos elementos representan unacaracterística o una variable medida sobre un individuo. Un individuo u observaciónestá representado por un vector de p variables
p
p
X
X
X
X 2
1
Como un vector transpuesta P P X X X X ...,, 21'
PESOTALLA
SUELDO
8/16/2019 conceptos de multivariadas
24/40
Vector de medias muestrales
Es el vector X de orden (px1), cuyos elementos son lamedia muestral de la j-ésima variable.
x x x x p!
1 2
x
x
n j
iji
n
1 j =1, 2, , p
8/16/2019 conceptos de multivariadas
25/40
Matriz de variancia-covariancias muestrales
Es la matriz simétrica S de orden ( pxp), cuyoselementos jjS son la variancias de la variable j X y jk S lascovariancias muestrales entre las variables j X y k X .
pp p p
p
p
s s s
s s s
s s s
S
21
22221
11211
n
ik ik jij jk x x x xn
s11
1
n
i jij jj x xn
s1
2
11
8/16/2019 conceptos de multivariadas
26/40
Matriz de correlaciones muestrales. Es una matriz simétrica de orden ( pxp), cuyos
elementos jk r son las correlaciones simplesmuestrales entre las variables j X y k X .
1
1
1
1
3
22 3
11 31 2
p
p
p
r
r r
r r r
R
kk jj
jk jk s s
sr
8/16/2019 conceptos de multivariadas
27/40
Análisis previo de datos
Antes de aplicar cualquier técnica multivariadaes preciso un análisis de los datos. Esnecesario evaluar las variables individuales ysus relaciones, tales como datos faltantes,presencia de datos atípicos y supuestos.
1) Análisis exploratorio de datos2) Análisis de datos faltantes (outliers)3) Detección de datos atípicos4) Comprobación de supuestos
8/16/2019 conceptos de multivariadas
28/40
Análisis exploratorio de datos
• Histogramas de frecuencias• Gráficos•
Diagrama de tallos y hojas• Diagrama de cajas• Cálculo de medidas estadísticas•
Medidas de asimetria• Medidas de curtosis
8/16/2019 conceptos de multivariadas
29/40
Medidas de asimetria
• Coeficiente de FISHER (g1) . Se halla con lasiguiente expresión:
Si g1 > 0 la distribución será asimétrica positiva o a derechas.
Si g1 < 0 la distribución será asimétricanegativa o a izquierdas (desplazada hacia laizquierda).
Si g1 = 0 la distribución será simétrica .
3
3
1)(
ns
n x x g i i
8/16/2019 conceptos de multivariadas
30/40
• Coeficiente de PEARSON (Ap). Se calculacon la siguiente expresión.
Si Ap > 0 la distribución será asimétrica positiva o hacía la derecha.
Si Ap < 0 la distribución será asimétricanegativa o hacía la izquierda.
Si Ap = 0 la distribución será simétrica.
S Me X
A p)(3
8/16/2019 conceptos de multivariadas
31/40
• Coeficiente de asimetría de Bowley (Ab) . El cualesta basado en la posición de los cuartiles y la
mediana. Se calcula de la siguiente manera:
Si Ab > 0 la distribución será asimétrica positiva ohacía la derecha.
Si Ab < 0 la distribución será asimétrica negativa ohacía la izquierda.Si Ap = 0 la distribución será simétrica.
13
13 2QQ
MeQQ Ab
8/16/2019 conceptos de multivariadas
32/40
Medidas de curtosis• Curtosis: coeficiente de Fisher. Para calcularlo
utilizaremos la expresión:
Si g2 > 0 la distribución será leptocúrtica o apuntada Si g2 = 0 la distribución será mesocúrtica o normal Si g2 < 0 la distribución será platicúrtica o menos apuntada
que lo normal.
Usando percentiles:
3)(
4
4
2 ns
n X x g i i
5.01090
2575
P P P P
K Si K 0 Distribución Normal
8/16/2019 conceptos de multivariadas
33/40
Medidas globales de variabilidad• Variancia total. Se define como la traza de la
matriz de variancias-covariancias.
Si la dependencia entre las variables es alta, lavariabilidad conjunta es pequeña.
Un inconveniente es que no toma en cuenta laestructura de dependencia de las variablesVariancia media
p
j jjS S TrazaT
1
p
j jjS p
T 1
1
8/16/2019 conceptos de multivariadas
34/40
• Variancia generalizada. Es una medida que
mejor mide la variabilidad global. Se definecomo el determinante de la matriz devariancias-covariancias
Si las variables son independientes, la variabilidadserá mayor.
Un inconveniente es que no sirve para compararconjuntos de datos con distintos número devariables.
S GV
8/16/2019 conceptos de multivariadas
35/40
• Variancia efectiva. Es una alternativa para
solucionar el problema de la VG. Es definidacomo la raíz p-ésima del determinante de lamatriz de variancias-covariancias.
La VE tiene en cuenta la dependencia conjunta, yaque si una variable es combinación lineal de lasdemás al existir un valor propio cero.
pS VE 1
8/16/2019 conceptos de multivariadas
36/40
Medidas de distanciasSon medidas alternativas para medir la
variabilidad entre variables.• Distancia Euclidiana. Esta medida depende de las
unidades de medida de las variables originales, ypor lo tanto generalmente se aplicarán a variablesestandarizadas o tipificadas.
• Un defecto de esta métrica es que no tiene en cuenta lacorrelación alta que puede existir entre varias las variables,aportando información similar (todas las variables ingresancon igual peso).
21
1
2)( p
k jk ik ij x xd
8/16/2019 conceptos de multivariadas
37/40
• Distancia de Mahalanobis. Esta métrica siconsidera la existencia de unidades de medidaentre las variables originales. Utiliza la inversade la matriz de covariancias de las variablespara eliminar la influencia de unidades entre
las variables.
)()( 1'2 ji jiij x xS x xd
8/16/2019 conceptos de multivariadas
38/40
Análisis de datos faltantes• Supresión de datos
– Eliminación de casos o variables – Eliminación de datos según parejas de variables
• Imputación de datos – Sustitución por la media o mediana (hay outliers) – Sustitución por interpolación (alta variabilidad).
Uso de valores adyacentes –
Sustitución por datos constante. Uso de fuentesexternas – Sustitución por análisis de regresión
8/16/2019 conceptos de multivariadas
39/40
Detección de datos atípicos (outliers)
• Diagrama de cajas simples y múltiples• Gráficos de dispersión•
Gráfico de dispersión matricial• Gráficos de control• Estadísticas descriptivas
8/16/2019 conceptos de multivariadas
40/40
EJEMPLO DE APLICACIÓN
Con el archivo:Datos Sistema Educativo Peru1 .1. Con el SPSS: Haga un análisis exploratorio de las
variables: Estadísticas descriptivas, valores atípicos,percentiles, gráficos de tallos y hojas, histogramas ygráficos con pruebas de normalidad.
2. Con el SPSS: Calcule el número de Departamentos porregión.
3. Con el SPSS: Halle la matriz de correlaciones, la matrizde variancia covariancia, distancias de euclídeas decasos con disimilaridades(estandarice), distanciasusando correlaciones con similaridades(estandarice).
4. Con el R: Haga la prueba de normalidad 14-variada.