52
Copyright © 2010 CAE Inc. All rights reserved. Estadística Descri Cluster Análi Prof. Orestes Góme Gon!le" #$c. Geologist $enior Cons%lt&nt oregome'()y&hoo.c&

Cluster Analisis

Embed Size (px)

DESCRIPTION

Conferencia

Citation preview

Slide 1

Estadstica DescriptivaCluster AnlisisProf. Orestes Gmez Gonzlez, MSc.Geologist Senior [email protected] 2010 CAE Inc. All rights reserved. Introduccin al Anlisis ClusterCopyright 2010 CAE Inc. All rights reserved. ndiceIntroduccin Conceptos bsicosElementosCaractersticas de los elementosDistanciasParticionesJerarquasModelos de anlisis clusterModelo de anlisis cluster jerrquicoMtodos aglomerativosDendogramaEl problema del nmero de clustersEjemploCuestiones complementarias

Copyright 2010 CAE Inc. All rights reserved. IntroduccinEl problema de la clasificacinIdentificar grupos de individuos/objetos de caractersticas similaresTipologas:Minera: clasificacin de rocas y minerales en funcin de sus elementos qumicosEconoma: segmentacin del mercado de consumidoresBiologa: creacin de una sistemtica sobre el mundo vegetal y animalMedicina: clasificacin de las enfermedades en funcin de su sintomatologaDefinicin de anlisis clusterConjunto de tcnicas multivariantes cuyo principal propsito es la agrupacin de individuos en conglomerados (cluster) basndose en las caractersticas de los mismos.Cuestiones a tratarCaractersticasSimilaridadModelos a utilizarEl problema del nmero de cluster o conglomeradosInterpretacin de las caractersticas de los cluster

Copyright 2010 CAE Inc. All rights reserved. Conceptos bsicosObjetos: son los elementos a clasificar

Caractersticas de los objetosEscala Nominal

Copyright 2010 CAE Inc. All rights reserved. Conceptos bsicosMatriz de datosPesoAltura861,76531,58601,65

Copyright 2010 CAE Inc. All rights reserved.

Representacin grfica de la matriz de datosConceptos bsicosCopyright 2010 CAE Inc. All rights reserved. DistanciaLa distancia es un ndice de disimilaridad que verifica las siguientes propiedades:

Conceptos bsicos

Copyright 2010 CAE Inc. All rights reserved. Existe una gran variedad de distancias; enumeramos unicamente las ms habitualesDistancia eucldeaDistancia eucldea al cuadradoDistancia de ManhattanDistancia de correlacin de PearsonConceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Distancia eucldea

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Conceptos bsicos

Copyright 2010 CAE Inc. All rights reserved. Distancia de Manhattan

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Distancia de correlacin de PearsonEsta distancia esta basada en el coeficiente de correlacin de Pearson y por lo tanto hereda todas sus propiedades.El coeficiente de correlacin de Pearson mide el grado de asociacin lineal entre dos objetos, es decir, hasta que punto dos objetos son proporcionales.A diferencia de otras medidas, este coeficiente no se ve afectado por las escalas de medidas utilizadas.El recorrido de este coeficiente vara entre -1 y 1 (1 indica una relacin proporcional perfecta).

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. La estandarizacin de variables.Debido a la propia definicin de distancia se deduce que sta va a ser sensible a los cambios de escala, es decir, va a ser afectada por las unidades de medida que hemos utilizado para medir las caractersticas de los elementos.Si los rangos de las distintas caractersticas son dispares el clculo de las distancias se vera seriamente afectado.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Conceptos bsicos

Copyright 2010 CAE Inc. All rights reserved.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. El problema de utilizar variables con distinto recorrido.Homogeneizar las escalas en el intervalo 0-1.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. 861,76531,58601,651,001,000,000,000,210,39

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Estandarizar variablesRealizar una transformacin de forma que las variables transformadas tengan media 0 y varianza 1.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. 861,76531,58601,651,131,07-0,77-0,92-0,36-0,15

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. ParticinSea A un conjunto finito, consideramos una clase de subconjuntos de A, denominada H:

H es una particin de A si se verifica:

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved.

Copyright 2010 CAE Inc. All rights reserved.

Copyright 2010 CAE Inc. All rights reserved. JerarquaDado un conjunto finito A, consideramos una clase H de subconjuntos de A.Se dice que H es una jerarqua de A si:

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Conceptos bsicos. JerarquaCopyright 2010 CAE Inc. All rights reserved.

Conceptos bsicosCopyright 2010 CAE Inc. All rights reserved. Modelos de anlisis clusterMtodos de agrupacin jerrquica.Se establecen n agrupamientos. Cada agrupamiento contiene exactamente un elemento.Se agrupan los dos cluster ms cercanos formando un nico cluster.Se recalcula la matriz de distancias.Pasamos al punto 1.Este algoritmo realiza exactamente n-1 iteraciones.

Copyright 2010 CAE Inc. All rights reserved. Mtodos de agrupacin jerrquica

Copyright 2010 CAE Inc. All rights reserved.

Mtodos de agrupacin jerrquicaCopyright 2010 CAE Inc. All rights reserved.

Mtodos de agrupacin jerrquicaCopyright 2010 CAE Inc. All rights reserved.

Mtodos de agrupacin jerrquicaCopyright 2010 CAE Inc. All rights reserved. Ventajas del modelo de agrupacin jerrquica.No requiere hacer inferencias sobre el nmero de cluster.Permite representar las sucesivas agrupaciones en forma de rbol (dendograma).InconvenientesAlto coste computacional.Sensible respecto de las primeras agrupaciones.Complicado de interpretar cuando el nmero de elementos a clasificar es grande.

Mtodos de agrupacin jerrquicaCopyright 2010 CAE Inc. All rights reserved. Mtodos de agrupacin no jerrquicaSe determina a priori el nmero de clusters que se desea construir (k).Se establece una configuracin aleatoria de los centros de estos clusters, estos centros se denominan centroides.Los elementos se asignan al cluster cuyo centroide est ms cerca.Se recalculan (actualizan) nuevamente los centroides en funcin de los elementos que les han sido asignadosSe repite el algoritmo desde el paso 3, hasta que los centroides dejan de cambiar.

Copyright 2010 CAE Inc. All rights reserved.

Mtodos de agrupacin no jerrquicaCopyright 2010 CAE Inc. All rights reserved.

Mtodos de agrupacin no jerrquicaCopyright 2010 CAE Inc. All rights reserved. Ventajas del anlisis cluster no jerrquico.Rapidez.Permite el procesamiento de gran nmero de datos.InconvenientesHay que determinar el nmero ptimo de cluster a priori.Muy sensible ante la presencia de datos extremos.Slo se pueden utilizar medidas eucldeas.Sensible respecto de la ordenacin de los datos.

Mtodos de agrupacin no jerrquicaCopyright 2010 CAE Inc. All rights reserved. Anlisis cluster jerrquicoFases de un anlisis cluster jerrquico.Determinar qu caractersticas vamos a utilizar para comparar los elementos a clasificar.Considerar la conveniencia de estandarizar o no dichas caractersticas.Determinar qu distancia debemos utilizar para medir la similaridad entre elementos.Fijar el mtodo de conglomeracin.Examinar el dendograma para determinar el nmero ptimo de agrupaciones.Estudio e interpretacin de la particin obtenida.Verificar la estabilidad de la solucin.

Copyright 2010 CAE Inc. All rights reserved. Mtodos de conglomeracinVecino ms cercano.Vecino ms lejano.CentroideVinculacin intergrupos

Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Vecino ms cercano.La distancia entre dos conglomerados se define como la distancia (en la mtrica considerada) de los dos elementos ms cercanos.Este mtodo tiende a maximizar lo conexo.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved.

Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Vecino ms lejano.La distancia entre dos conglomerados se define como aqulla entre los elementos ms alejados.Este mtodo tiende a minimizar las distancias dentro de los conglomerados.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Mtodo del centroide.La distancia entre dos cluster se define como la distancia entre las medias (centroides) de los mismos.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved.

Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Vinculacin entre gruposSe define la distancia entre dos clusters como el promedio de las distancias entre todos los pares de elementos de los dos conglomerados.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Anlisis cluster jerrquico

Copyright 2010 CAE Inc. All rights reserved. DendogramaEl dendograma es un diagrama con estructura de rbol binario que muestra las fusiones de los elementos en cada paso del procedimiento jerrquico.El dendograma se representa por medio de dos ejes perpendiculares. En uno de ellos se representan los elementos a clasificar, en el otro eje se representan las distancias a la que se van juntando los elementos.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved.

Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. El problema del nmero de clusters.No existe ningn criterio general que nos permita determinar el nmero ptimo de clusters, pues influyen factores como el nmero de elementos con valores extremos, las distribuciones que siguen las variables etc.Una forma de determinar el nmero ptimo de cluster es examinar atentamente el historial del algoritmo de aglomeracin y el dendograma del mismo.Un factor a tener muy en cuenta es el tamao de los clusters resultantes.Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved.

Anlisis cluster jerrquicoCopyright 2010 CAE Inc. All rights reserved. Anlisis cluster jerrquico

Copyright 2010 CAE Inc. All rights reserved.