45
Discriminación entre grupos

Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

  • Upload
    voanh

  • View
    233

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Discriminación entre grupos

Page 2: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Discriminación entre grupos

• ¿Son los grupos significativamente diferentes?

Multivariate Analysis of Variance (MANOVA)Multi-Response Permutation Procedures (MRPP)Analysis of Group Similarities (ANOSIM)Mantel’s Test (MANTEL)

¿Cómo diferenciar los grupos? ¿Cuáles variables distinguen mejor a los grupos?

Análisis Discriminante (AD)Classification and Regression Trees (CART)Regresión logística (RL)Análisis de especies indicadora (ISA)

Page 3: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

En un estudio del estadístico y genetista Sir Ronald

A. Fisher

se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica.

En este problema encontramos que hay tres grupos, lo que dificulta la utilización del método de Fisher. Tendremos que combinar dos reglas para clasificar la especie de nuevos ejemplares de lirios

Ejemplo 1:

Page 4: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Ejemplo 2. esclerosis múltiple:

Page 5: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Características importantes del análisis discriminante

Opera sobre conjuntos de datos para los cuales hay grupos datos predefinidos

Se evalúan relaciones dependientes entre un conjunto de variables discriminantes y una variable agrupadora para intentar definir la relación entre variables independientes y dependientes.

Predice la pertenencia de grupo en muestras futuras, muestras de grupos desconocidos sobre la base de las características de clasificación.

Page 6: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Características importantes del análisis discriminante

Extrae gradientes subyacentes dominantes de variación (funciones canónicas) entre grupos de entidades muestreales

(ej, especies, sitios, observaciones) de una cjto

de observaciones multivariadas, tal que la variación entre grupos es maximizada y variación dentro grupos es minimizada a lo largo del gradiente.

Reduce la dimensionalidad de cjto

de datos multivariados

de las variables originales en un cjto

menor de dimensiones compuestas (funciones canónicas) con mínima pérdida de información.

Page 7: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Analogía con regresión y ANAVA

Extensión de regresión:

Una combinación lineal de medidas de dos o más variables independientes (y usualmente continuas) que se utiliza para describir o predecir el comportamiento de una variable dependiente categórica simple.

la situación de investigación define las categorías de grupo como dependientes sobre las variables discriminantes.

Las muestras representan una muestra aleatoria simple (N) de una

mezcla de dos o más poblaciones distintivas (por ej, grupos).

Una muestra simple es graficada en la cual el miembro grupal es desconocido a priori al muestrear.

Page 8: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Analogía con regresión y ANAVA

Extensión ANAVA:

La variable independiente es categórica y define a los miembros del grupo (típicamente controlado por el diseño experimental) y poblaciones (por ej., grupos) son comparados al vector de medidas de dos o más variables dependientes (y usualmente continuas).

Cada situación de investigación define las variables discriminantes que dependen de los grupos.

Las muestras representan muestras aleatorias separadas independientes (N1, N2, ..., NG) de dos o más poblaciones distintivas (por ej, grupos).

Cada miembro grupal es “conocido” a priori al muestrear y las muestras están graficadas para cada población separadamente.

Page 9: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Análisis canónico de discriminación (ACD)

ACD testea y describe las relaciones entre dos o más grupos de entidades basadas sobre un cjto

de dos o más variables discriminativas

(identificar los bordes entre grupos de entidades).

ACD involucra derivar combinaciones lineales (funciones canónicas) de dos o más variables discrminativas

que discriminen mejor entre los grupos definidos a priori (maximizar el cociente F).

Cada entidad de muestreo tiene una puntuación canónica compuesta sobre cada eje y los centroides

grupales que indican la mayor localización típica de cada entidad de un grupo particular.

Se espera la separación significativa de grupos y maximizar la interpretación ecológica de los ejes..

Page 10: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Análisis discriminante

El proceso analítico

• Conjunto de datos

• Supuestos

• Requerimientos de tamaño de la muestra

• derivación de las funciones canónicas

Evaluación de la importancia de las funciones canónicas.

• Interpretación de las funciones canónicas.

• Validación de las funciones canónicas.

Page 11: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Análisis discriminante: cjto de los datos

Una variable agrupadora categórica y dos o más variables discriminantes de conteo y /o categóricas, contínuas.

Variables de conteo, categóricas, contínua

(preferentemente todas contínuas).

•Grupos de muestras deberían ser mutuamente excluyentes.

• Sin datos perdidos.

• Tamaño muestreal

grupal necesita ser el mismo.

Mínimo de dos muestras por grupo y al menos dos o más muestras que la cantidad de variables.

Page 12: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Datos ecológicos en dos vías: Especies por ambiente

Presencia/ausencia de especies por ambiente.

Comportamiento por ambiente

estado de vida/sexo por ambiente/comportamiento

grupos de suelo por ambiente.

Demos de cría por morfología.

Análisis discriminante: Conjunto de datos

Page 13: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Clasificación en Discriminante

Métodos Paramétricos:Criterio de validación cuando cada grupo es normal multivariado

Fisher’s linear discriminant functions: Deriva una combinación lineal de las variables originales para cada grupo y clasifica la muestra en un grupo con mayor puntuación.

Distancia Mahalanobis (Quadratic discriminant analysis): Medida de distancia en un espacio multidimensional de cada entidad a cada grupo de centroide

y clasifica cada entidad en el grupo más “cerrado”.

distancia Canonica: Computa las puntuaciones para cada entidad primero y luego clasifica cda

entidad dentro del grupo con más cerrado puntuación canónica (centroide).

Page 14: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Visión geométrica del análisis discriminante

Los ejes canónicos son derivados para maximizar la separación de los tres grupos.

Page 15: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Análisis discriminante

Dos lados del mismo punto

Provee un test

(MANAVA) de diferencias grupales y simultáneamente describe como los grupos difieren, esto es, cuales variables mejor cuantifican las diferencias grupales.

Análisis canónico de discriminación:

ClasíficaciónProvee una clasificación de muestras en grupos, la cual vuelve a describir como está

bien clasificado el miembro del grupo y pueda ser predicho. La función de clasificación puede ser usada para predecir miembros grupales de muestras adicionales para la cual el miembro del grupo es desconocido.

Page 16: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

ENFOQUE DE FISHER: encontrar una buena función discriminante que sea una combinación lineal de las variables originales. Cuando aplicamos la función a un dato nuevo nos dice a que grupo pertenece.

Geométricamente: Se busca una buena dirección sobre la que proyectar los datos de los grupos conocidos y de los quequeremos clasificar. Se clasifica en función de qué

grupo está

más cerca en esa dirección.

Una buena dirección tiene que:─

Separar bien las medias─

Teniendo en cuenta la variabilidadEl nuevo dato se clasifica dentro del grupo con la media más próximaen la proyección

Page 17: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes
Page 18: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Buscamos una buena función/combinación lineal de las variablesoriginales/dirección sobre la que proyectar los datos:f(x)=a1x1+…+apxpal proyectar los datos

REGLA DE FISHER para Dos grupos con matrices de covarianzas

iguales

(Σ1=Σ2)

Maximizar la variabilidad entre grupos

Minimizar la variabilidad dentro del grupo

Encontrar la solución a

Función canónica discriminante

Page 19: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes
Page 20: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes
Page 21: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Ejemplo de esclerosis múltiple:

Page 22: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Regla de clasificación: clasificamos a xo

como individuo sano si:

Page 23: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes
Page 24: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Función canónica discriminante

Ejemplo: esclerosis múltiple

Page 25: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Puntuación canónica discriminante

Ejemplo: esclerosis múltiple

Page 26: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Ejemplo: esclerosis múltiple

Page 27: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

¿Cómo evaluar si la clasificación es buena?La clasificación será buena si:1. Aplicamos una buena regla2. Las variables son buenas, separan claramente a los individuos

de los distintos grupos

Page 28: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

El método de clasificación de FISHER es ÓPTIMO cuando:1. La distribución de los datos es NORMAL2. Las matrices de covarianzas

son iguales en los dos grupos

Diremos que una REGLA DE CLASIFICACIÓN es ÓPTIMA cuando comete el menor número de errores posibles en la clasificación

Page 29: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Tasa de error aparente: Se aplica la regla para clasificar todos los datos de la muestra de entrenamiento y se cuentan los casos en los que la clasificación es errónea.Tasa de error aparente = Datos mal clasificados/ Tamaño de la muestra

Con la muestra de entrenamiento hemos construido la regla de clasificación y ahora comprobamos cuantos datos de la muestra de entrenamiento se clasifican mal.

El 95,7% de los SANOS (PACIENTE=0) se clasifica correctamente, 66 de 69El 75,9% de los ENFERMOS (PACIENTE=1) se clasifican correctamente, 22 de 29Tasa de error aparente = (3+7) / 98 = 10 2%

Page 30: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Tasa de frecuencia relativa de error: Se divide la muestra deentrenamiento en dos partes, con una se construye la regla y con

laotra se calcula la tasa como la proporción de estos datos que estánmal clasificados (no la calcula el SPSS).Se pierde mucha información en el cálculo de la regla. Es INEFICIENTETasa de error por validación cruzada (jackknife): Se lleva alextremo la idea de la tasa de frecuencia relativa de error.Dato a dato:1. Se excluye el dato2. Se construye la regla con los restantes3. Se clasifica el que hemos dejado fueraLa probabilidad de error se estima como la proporción de veces queal excluir un dato, éste se clasifica mal.Es menos optimista que la tasa de error aparente y más eficiente quela tasa de frecuencia relativa de error.

Page 31: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Tasa de error aparente = (3+7) / 98 = 10,2%Tasa de error por validación cruzada = (5+8) / 98 = 13 26%

Page 32: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

AD: supuestos

Uso descriptivo de AD no requiere supuestos. Sin embargo, la eficacia de AD depende sobre que bien ciertos supuestos.

• Uso inferencial

de AD requiere de supuestos: Evidencia de que algunos de aquellos supuestos pueden ser

violados sin grandes cambios en los correctos resultados de clasificación.

Cuanto más grande es el tamaño muestreal

más robusto el análisis de los supuestos.

Page 33: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

AD: supuestos

1. Matrices de igualdad de varianza/covarianza

(homogeneidad)

El AD asume que los grupos tienen igual dispersión (por ej., la estructura dentro del grupo de varianza/covarianza

es la misma para todos los grupos.

Varianzas de las variables discriminantes debería ser la misma en las poblaciones respectivas.

Page 34: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Consecuencias de las distribuciones multivariadas no normales (asociada a heterogeneidad de varianzas)

•Tests

de significancia

inválidos

Distorsiona las probabilidades a posteriori de miembro grupal (no necesariamente minimiza la cantidad de mal clasificados).

EN múltiple CAD, segundo y subsecuente

ejes canónicos no son estrictamente independientes (ortogonal). Las últimas funciones canónicas ( asociadas con eigenvalues

más pequeños) a menudo se parecerán a las funciones anteriores pero con cargas canónicas más pequeñas.

AD: supuestos

Page 35: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

AD: supuestos

Diagnosis multicolinealidad

correlaciones de a pares

DA es afectada por multicolinealidad, que se refiere a dependencias múltiples lineales (altas correlaciones) entre variables del cjto

de datos.

•Luego de calcular todas las correlaciones de a pares los valores

r>0.7 sugieren potenciales problemas de multicolinealidad

y es necesario extraer una del par de variables.

Page 36: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Linealidad

Variables cambian linealmente a lo largo de gradientes subyacentes y sus relaciones se combinan en una forma lineal para crear las funciones canónicas.

AD: supuestos

Page 37: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Patrones no lineales reales no serán detectados a menos que se hagan transformaciones no lineales que pueden ser aplicados al modelo tales que las relaciones tengan una rutina computacional lineal.

Consecuencias de la nolinealidad

AD: supuestos

Page 38: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Diagnosis de linealidad

diagramas de dispersión de variables discrminantes.

•Luego diagramas de dispersión de funciones canónicas.

AD: supuestos

Page 39: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

AD: consideraciones acerca de tamaño de muestra

Reglas generales

Mínimo de al menos dos o más muestras (filas) que variables (columnas)

• Mínimo de las menos dos muestras (filas) por grupo.

Las muestras para cada grupo deben asegurarse de tal manera que se estimen con precisión las medias y dispersiones.

Cada grupo , n ≥

(3 *P)

Page 40: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Stepwise

Criteria

Wilks’s

Lambda

Derivando las funciones canónicas

El procedimiento de Wilks's

Lambda selecciona la variable a cada paso que minimice el estadístico total Wilks' lamda

dado con un criterio de F.

Wilks Lambda (estadìstico de diferenciación). Lambda se aproxima a cero si dos grupos están bien separados.

Page 41: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Derivación de las funciones canónicas

Eigenvalues y Eigenvectors

Perspectiva geométrica:

Eigenvalues

igual al cociente entre las desviaciones estándar entre y dentro del grupo sobre las variables discriminantes lineales las cuales son definidas como eigenvectors

Page 42: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Supuestos parámetricos

(normalidad multivariada, igualdad de matrices covarianza) y supuesto de linealidad son particulares y si no se cumplen se reduce la efectividad de AD cuando la estructura de los datos grupales es compleja.

Otros procedimientos (por ej. CART) pueden mejorar bajo aquellas condiciones..

Limitaciones del análisis discriminante

Page 43: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Salida de Infostat

Page 44: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Salida de infostat. Archivo IRIS

Page 45: Discriminación entre grupos - ecaths1.s3.amazonaws.comecaths1.s3.amazonaws.com/estadisticaecologica/885251395.Análisis... · relación entre variables independientes y dependientes

Salida de infostat. Archivo IRIS