Analisis a Una Fuente de 2000 Datos Con Mineria de Datos

UNIVERSIDAD TECNOLGICA METROPOLITANA FACULTAD DE INGENIERA DEPARTAMENTO DE INFORMTICA Y COMPUTACIN

1

Tcnicas de Minera de

Datos Anlisis a una Fuente de Datos

Electivo de formacin especializada

KnowledgeDiscovery in Database

Integrantes: Pedro Salas Nicols Oyarzn Profesor: Vctor Escobar Jeria


2

NDICE ndice de Ilustraciones ................................................................................................................................................... 3

1. Introduccin............................................................................................................................................................... 4

2. Objetivos .................................................................................................................................................................... 5

1.1. Objetivo General ................................................................................................................................................. 5

1.2. Objetivos Especficos .......................................................................................................................................... 5

3. Tcnicas de minera de datos .................................................................................................................................... 6

3.1. Tcnicas a usar .................................................................................................................................................... 8

4. Software de Anlisis Elegido .................................................................................................................................... 10

4.1. Interfaz principal de Weka ................................................................................................................................ 10

5. Anlisis de Datos ...................................................................................................................................................... 12

5.1. Fuente de Datos ................................................................................................................................................ 12

5.2. Proceso ............................................................................................................................................................. 13

5.3. Clasificacin de Datos, rbol de Decisin ......................................................................................................... 16

5.4. Asociacin ......................................................................................................................................................... 23

6. Conclusiones ............................................................................................................................................................ 27

7. Bibliografa ............................................................................................................................................................... 28


3

NDICE DE ILUSTRACIONES Ilustracin 1: Clasificacin de Tcnicas Minera de Datos ............................................................................................. 6

Ilustracin 2: Tcnicas Supervisadas y No Supervisadas ............................................................................................... 7

Ilustracin 3: Interfaz principal de weka ..................................................................................................................... 10

Ilustracin 4: Ventana explorer de weka ..................................................................................................................... 11

Ilustracin 5: Formato ARff .......................................................................................................................................... 12

Ilustracin 6: Ventana explorer de weka ..................................................................................................................... 14

Ilustracin 7: Ventana para seleccionar archivo .......................................................................................................... 15

Ilustracin 8: Muestra de datos de registro ................................................................................................................ 15

Ilustracin 9: Ventana classify y seleccin de algoritmo ............................................................................................. 16

Ilustracin 10:Seleccin de variables ........................................................................................................................... 17

Ilustracin 11: Muestra de resultados Classify ............................................................................................................ 18

Ilustracin 12: Procentaje de error de los resultados ................................................................................................. 19

Ilustracin 13: Metodo de seleccion para visualizar el rbol ...................................................................................... 21

Ilustracin 14: rbol DE Decisin ................................................................................................................................. 21

Ilustracin 15: muestra de resultado a partir del sexo ................................................................................................ 22

Ilustracin 16: rbol de decisin a partir del sexo ....................................................................................................... 23

Ilustracin 17: Ventana Associate de Weka y seleccin de algoritmo ........................................................................ 24

Ilustracin 18: REsultados de asociacin ..................................................................................................................... 25

Ilustracin 19: RElaciones de asociacin ..................................................................................................................... 25


4

1. INTRODUCCIN Hoy en da se utiliza la minera de datos en diferentes campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en anlisis de mercados y comercio, en seguros y salud privada, en educacin, en procesos industriales, en medicina, en biologa y bioingeniera, en telecomunicaciones y en muchas otras reas. Lo esencial para empezar a trabajar en minera de datos, sea cual sea el campo en que se aplique, es la comprensin de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato cientfico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los softwares de computador permiten obtener los resultados sin necesidad de descifrar el desarrollo matemtico de los algoritmos que estn debajo de los procedimientos. Las tcnicas de minera de datos persiguen el descubrimiento automtico del conocimiento contenido en la informacin almacenada de modo ordenado en grandes bases de datos. Estas tcnicas tienen como objetivo descubrir patrones, perfiles y tendencias a travs del anlisis de los datos utilizando tecnologas de reconocimiento de patrones, redes neuronales, lgica difusa, algoritmos genticos y otras tcnicas avanzadas de anlisis de datos.


5

2. OBJETIVOS

1.1. OBJETIVO GENERAL

Analizar una fuente de datos mediante el uso de un software de minera de datos.

1.2. OBJETIVOS ESPECFICOS

Entender el funcionamiento del uso de software para la minera de datos.

Utilizar tcnicas de minera de datos.


6

3. TCNICAS DE MINERA DE DATOS Entre las tcnicas de minera de datos que se pueden distinguir: Tcnicas predictivas: Donde las variables pueden clasificarse inicialmente en dependientes e independientes. Lo cual permite realizar predicciones y as prever el comportamiento futuro de algn tipo de entidad. Tcnicas descriptivas: En las que todas las variables tienen inicialmente el mismo estatus. Ayudan a entender la comprensin de lo que se est analizando. Tcnicas auxiliares: Son herramientas de apoyo ms superficiales y limitadas, empleadas normalmente para propsitos de verificacin de los resultados obtenidos con las otras tcnicas (predictivas o descriptivas). A continuacin (ver Ilustracin 1) se pueden observar gran cantidad de tcnicas de Data Mining

ILUSTRACIN 1: CLASIFICACIN DE TCNICAS MINERA DE DATOS


7

Se observa que las tcnicas de clasificacin pueden pertenecer tanto al grupo de tcnicas

predictivas (discriminantes, rboles de decisin y redes neuronales) como a las descriptivas

(clustering y segmentacin). Las tcnicas de clasificacin predictivas suelen denominarse

tcnicas de clasificacin ad hoc ya que clasifican individuos u observaciones dentro de grupos

previamente definidos. Las tcnicas de clasificacin descriptivas se denominan tcnicas de

clasificacin post hoc porque realizan clasificacin sin especificacin previa de los grupos.

Los algoritmos de minera de datos se clasifican en dos grandes categoras: supervisados o predictivos y no supervisados o de descubrimiento del conocimiento (Ilustracin 2.)

ILUSTRACIN 2: TCNICAS SUPERVISADAS Y NO SUPERVISADAS


8

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relacin entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la prediccin en datos cuya etiqueta es desconocida. Cuando una aplicacin no es lo suficientemente madura no tiene el potencial necesario para una solucin predictiva, en ese caso hay que recurrir a los mtodos no supervisados o de descubrimiento del conocimiento que descubren patrones y tendencias en los datos actuales (no utilizan datos histricos).

3.1. TCNICAS A USAR

Las tcnicas de Data Mining que se utilizan en este informe se pueden clasificar en Clasificacin, Asociacin y Segmentacin o Clustering. Clasificacin: En la clasificacin, los mtodos tienen la intencin de aprender diferentes funciones que clasifiquen los datos dentro de un conjunto predefinido de clases. Dado un nuevo nmero de clases predefinidas, un nmero de atributos y un conjunto de datos de aprendizaje o entrenamiento, los mtodos de clasificacin pueden automticamente predecir la clase de los datos previamente no clasificados. Las claves ms problemticas relacionadas con la clasificacin son las evaluacin de los errores de clasificacin y la potencia de prediccin. Las tcnicas matemticas ms usadas para la clasificacin son los rboles de decisin binarios, las redes neuronales, programacin lineal y estadstica. Utilizando un rbol de decisin binario, con un modelo de induccin de rbol en el formato Si-No, podremos posicionar los datos en las diferentes clases segn el valor de sus atributos. Sin embargo, esta clasificacin puede no ser ptima si la potencia de prediccin es baja. Con el uso de redes neuronales, se puede construir un modelo de induccin neuronal. En este modelo, los atributos son capas de entrada y las clases asociadas con los datos son las capas de salida. Entre las capas de entrada y de salida hay un gran nmero de conexiones ocultas que aseguran la fiabilidad de la clasificacin (como si fuesen las conexiones de una neurona con las de su alrededor).El modelo de induccin neuronal ofrece buenos resultados en muchos anlisis de data mining, cuando hay un gran nmero de relaciones se complica la implementacin del mtodo por el gran nmero de atributos. Usando tcnicas de programacin lineal, el problema de la clasificacin es visto como un caso especial de programacin lineal. La programacin lineal optimiza la clasificacin de los datos, pero puede dar lugar a modelos complejos que requieran gran tiempo de computacin. Otros mtodos estadsticos, como la regresin lineal, regresin discriminante o regresin logstica tambin son populares y usados con frecuencia en las procesos de clasificacin.


9

rboles de decisin: El aprendizaje de rboles de decisin est englobado como una metodologa del aprendizaje supervisado. La representacin que se utiliza para las descripciones del concepto adquirido es el rbol de decisin, que consiste en una representacin del conocimiento relativamente simple y que es una de las causas por la que los procedimientos utilizados en su aprendizaje son ms sencillos que los de sistemas que utilizan lenguajes de representacin ms potentes, como redes semnticas, representaciones en lgica de primer orden etc. No obstante, la potencia expresiva de los rboles de decisin es tambin menor que la de esos otros sistemas. El aprendizaje de rboles de decisin suele ser ms robusto frente al ruido y conceptualmente sencillo, aunque los sistemas que han resultado del perfeccionamiento y de la evolucin de los ms antiguos se complican con los procesos que incorporan para ganar fiabilidad. La mayora de los sistemas de aprendizaje de rboles suelen ser no incrementales, pero existe alguna excepcin.

Asociacin: La relacin entre un tem de una transaccin y otro tem en la misma transaccin es utilizada para predecir patrones. Por ejemplo, un cliente compra un ordenador (X) y a la vez compra un ratn (Y) en un 60% de los casos. Este patrn ocurre en un 5,6% de las compras de ordenadores. La regla de asociacin en esta situacin es que X implica Y, donde 60% es el factor de confianza y 5,6% el factor de soporte. Cuando el factor de confianza y al factor de soporte estn representados por las variables lingsticas alto y bajo, la regla de asociacin se puede escribir en forma de lgica difusa, como: cuando el factor de soporte es bajo, X implica Y es alto. Este sera el tpico ejemplo de datamining de estudio realizado en supermercados con la asociacin entre la venta de paales de beb y cerveza. Usan los algoritmos de reglas de asociacin y rboles de decisin.


10

4. SOFTWARE DE ANLISIS ELEGIDO Weka 3.4.7.- Hemos utilizado la herramienta Weka para la demostracin de algunas de las tcnicas de minera de datos. Es un entorno para experimentacin de anlisis de datos que permite aplicar, analizar y evaluar las tcnicas ms relevantes de anlisis de datos, principalmente las provenientes del aprendizaje automtico, sobre cualquier conjunto de datos del usuario. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamada de su propio cdigo Java. Weka contiene herramientas de datos pre-procesamiento, clasificacin, regresin, clustering, reglas de asociacin y visualizacin. Una caracterstica sobresaliente de este software es que es de cdigo abierto publicado bajo la Licencia Pblica General de GNU.

4.1. INTERFAZ PRINCIPAL DE WEKA

ILUSTRACIN 3: INTERFAZ PRINCIPAL DE WEKA

Presionamos el botn de Explorador (Ilustracin 3) y nos abrir una nueva ventana la cual nos permite carga de informacin que tengamos almacenada en algn medio como una base de datos (Ilustracin 4).


11

ILUSTRACIN 4: VENTANA EXPLORER DE WEKA

Descripcin de las pestaas superiores.

Pre procesos: Permite cargar toda la informacin que tengamos y visualizar los datos, posee filtros para la ejecucin del mismo. Clasificacin: Permite acceso a las tcnicas de clasificacin y regresin y nos permite el rbol de ejecucin dentro del flujo de datos Clster: Se puede decir que es igual a clasificacin, pero nos permite obtener un porcentaje de error y sacar la medida de todo el conjunto de datos. Asociacin: Esta es la accin ms importante ya que nos permite saber cules son las relaciones entre toda la informacin que ingresamos y que a simple vista no vemos.


12

Seleccin de atributos: Determina cuales son los atributos ms importantes para la ejecucin de la minera de datos. Visualizacin: Permite ver de manera grficas los resultados que se obtuvieron a travs de la minera de datos.

5. ANLISIS DE DATOS

5.1. FUENTE DE DATOS

A continuacin se detalla la fuente de datos escogida para realizar las tareas de minera de datos. El fichero Titanic.arff contiene datos sobre las caractersticas de los 2201 pasajeros del Titanic. Estos datos son reales y provienen del (S.S.)" (British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton Publishing, 1990). El formato arff (Attribute-Relation File Format) es el formato oficial de Weka y consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos, con una lnea por tupla y los valores de una misma tupla separados por comas (en la misma lnea del fichero de texto). Adicionalmente, los ficheros cabecera con informacin adicional acerca de los nombres y tipos de datos asociados a los distintos atributos de la relacin, tal como se muestra a continuacin en la Ilustracin 5.

ILUSTRACIN 5: FORMATO ARFF


13

En el caso del fichero de datos correspondiente a los datos de los pasajeros del Titanic, slo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el fichero Titanic.arff: Clase (0 = tripulacin, 1 = primera, 2 = segunda, 3 = tercera) Edad (1 = adulto, 0 = nio) Sexo (1 = hombre, 0 = mujer) Sobrevivi (1 = s, 0 = no)

5.2. PROCESO

Cargar un archivo. arff A continuacin se muestra la interfaz de cmo es carga un archivo .arff en Weka, en este caso cargaremos una bases de datos con la cual se trabaja que ya tenemos creada en nuestro equipo la cual corresponde a la tripulacin que abord el Titanic (Ilustracin 6).


14

ILUSTRACIN 6: VENTANA EXPLORER DE WEKA

Presionamos el botn Open File y buscamos el archivo en nuestro sistema (Ilustracin 7).


15

ILUSTRACIN 7: VENTANA PARA SELECCIONAR ARCHIVO

A continuacin se muestran los datos de los registros que contiene la base de datos Titanic.

ILUSTRACIN 8: MUESTRA DE DATOS DE REGISTRO


16

Observamos cmo se habilitan todas las opciones de la parte inferior y vemos en la parte izquierda los diferentes atributos que contiene el registro: Clase, edad, sexo, sobrevivi. Observamos cmo a partir de que seleccionamos cada uno del lado derecho se muestran la cantidad de registros y en la parte superior el nmero de registros por ejemplo la clase tiene 325 registros de primer clase, 285 la segunda clase, 706 de tercera y un total de 885 tripulantes.

5.3. CLASIFICACIN DE DATOS, RBOL DE DECISIN

A continuacin se aplica el primer mtodo de minera de datos, la Clasificacin, la cual nos permite obtener como resultado un rbol de decisiones. Se presiona el botn superior Classify como se muestra en la imagen y seleccionamos el algoritmo J48 presionando el botn Choose.

ILUSTRACIN 9: VENTANA CLASSIFY Y SELECCIN DE ALGORITMO


17

Una vez seleccionado el algoritmo podemos realizar diferentes tipos de entrenamiento para la minera de datos como son:

Use training set: El aprendizaje de Weka es realizado por todos los registros que se encuentran cargados.

Supplied test set: Se puede seleccionar un archivo. arrf que se encarga del aprendizaje de la minera de datos

Cross-validacin: El aprendizaje ser a partir de una cantidad de campos que queramos.

Percentage-split: Se encarga de especificar de registros sern utilizados para el aprendizaje de la minera de datos.

En esta ocasin seleccionamos la primera opcin Use training set. En el siguientes recuadro vemos las diferentes variables que se encuentran en el archivo .arff de los registros que se subieron, siempre la variable base o la variable muestra ser la ltima ingresada. En este caso seleccionamos el ltimo.

ILUSTRACIN 10:SELECCIN DE VARIABLES


18

Y procedemos a presionar el botn Start, nos arroja los siguientes resultados el cual nos dar un recuadro con el resumen del rbol generado (Ilustracin 11).

ILUSTRACIN 11: MUESTRA DE RESULTADOS CLASSIFY

Este recuadro contiene informacin de los registros el cual dice: Si una persona es del sexo femenino:

Tripulacin: Sobrevivieron 3 de los 23

Primera clase: Sobrevivieron 4 de los 145

Segunda clase: Sobrevivieron 13 de los 106

Tercera clase: No sobrevivieron 90 de los 196. Si una persona es del sexo masculino:

Tripulacin: No sobrevivieron 192 de los 862

Primera clase o Nio: Sobrevivieron los 5 o Adulto: No sobrevivieron 57 de los 175

Segunda clase: sobrevivieron 13 de los 106 o Nio: Sobrevivieron los 11 o Adulto: No sobrevivieron 14 de los 168

Tercera clase: No sobrevivieron 88 de los 510.


19

Adems nos muestra la cantidad de hojas y tamao del rbol:

Tambin podemos apreciar el porcentaje del error que se puede generar:

ILUSTRACIN 12: PROCENTAJE DE ERROR DE LOS RESULTADOS


20

Un dato importante que debemos tener en cuenta son los resultados que nos arroja la matriz de confusin:

La cual se interpreta de la siguiente manera: muestra en la diagonales que tanto porcentaje de error o de confiabilidad se puede tener en la diagonal entre mayor se al resultado de su respectiva letra mayor es el grado de confiabilidad, en este caso vemos que 1470>441 y 270>20 por lo que los resultados obtenidos son confiables.

Para poder visualizar el rbol de ejecucin (Ilustracin 14) damos click sobre el algoritmo y seleccionamos la opcin visualize tree (Ilustracin 13).


21

ILUSTRACIN 13: METODO DE SELECCION PARA VISUALIZAR EL RBOL

ILUSTRACIN 14: RBOL DE DECISIN

Podemos generar el rbol no a partir de si sobrevivi o no si no a partir del sexo (Ilustracin 15).


22

ILUSTRACIN 15: MUESTRA DE RESULTADO A PARTIR DEL SEXO

Se puede apreciar la matriz de confusin donde los parmetros son mucha ms precisos que los anteriores.

Se aprecian 323 puntos buenos y solo 170 errores para a (sexo femenino) , para b que es sexo masculino 147 errores y 1561 puntos buenos. Por los tanto podemos decir que los datos son confiables y si los podemos tomar en cuenta. El rbol de ejecucin resulta (Ilustracin 16):


23

ILUSTRACIN 16: RBOL DE DECISIN A PARTIR DEL SEXO

Si una persona no sobrevivi:

Sexo masculino: No sobrevivieron 126 de los 1490 Si una persona es del sexo masculino:

Clase o Tripulacin: Sobrevivieron 20 de los 212 hombres o Primera Clase

Edad Nio: Sobrevivieron 1 de 6 hombres

Adulto: Sobrevivieron 57 de 197 mujeres o Segunda Clase: Sobrevivieron 25 de 118 mujeres o Tercera Clase: Sobrevivieron 88 de 178 mujeres

5.4. ASOCIACIN

Podemos entrar a la opcin de asociacin de la siguiente forma nos dirigimos a la pestaas superiores de la interfaz de Weka y damos click en la opcin de asociacin (Ilustracin 17).


24

ILUSTRACIN 17: VENTANA ASSOCIATE DE WEKA Y SELECCIN DE ALGORITMO

Esta opcin es una de las ms interesantes ya que en ella podemos ver informacin oculta detrs de la informacin de todos los registros ingresados, primero que nada damos a seleccionar el algoritmo de asociacin A priori y apretamos start.

Los resultados que debemos ver sern los siguientes (Ilustracin 18):


25

ILUSTRACIN 18: RESULTADOS DE ASOCIACIN

En esta informacin podemos ver la cantidad de instancias, la relacin, la cantidad de atributos, y la ms importante es la que encontramos la final de los resultados:

ILUSTRACIN 19: RELACIONES DE ASOCIACIN


26

En estas lneas vemos que el algoritmo encontr 10 recomendaciones de informacin de la relacin de todos los registros que ingresamos, el conf representa el porcentaje de acierto, por ejemplo la interpretacin de la primera lnea sera as:

1.- Las personas que tiene la clase tripulacin es igual a adulto, esto quiere decir que todas las personas de la tripulacin eran adultas con un 100% de certeza. 2.- En la segunda vemos que todas las personas que sean de tripulacin y de sexo masculino todos son adultos con un 100% de certeza 3.- Todas las personas del sexo masculino y que no sobrevivieron fueron adultas, esto con 0.97 de certeza. 4.- Todas las personas de la clase tripulacin eran de sexo masculino, esto con un 0.97 de certeza. 5.- Todas las personas de la clase tripulacin y adultos eran de sexo masculino, esto con un 0.97 de certeza. 6.- Todas las personas de la clase tripulacin, eran adultas y de sexo masculino, esto con un 0.97 de certeza. 7.- Todas las personas que no sobrevivieron, eran adultas, esto con un 0.97 de certeza. 8.- Todas las personas de sexo masculino, eran adultos, esto con un 0.96 de certeza. 9.- Todas las personas adultas que no sobrevivieron, eran de sexo masculino, esto con un 0.92 de certeza. 10.- Todas las personas que no sobrevivieron, eran de sexo masculino, esto con un 0.92 de certeza. Podemos decir que estos datos son muy obvios pero cuando tenemos una gran cantidad de informacin este tipo de informacin a veces no se aprecia a simple vista.


27

6. CONCLUSIONES

Las herramientas de minera de datos permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. Para el modelo del rbol de decisiones, podemos seleccionar distintos atributos como base para realizar el anlisis, como en este caso, utilizamos las variables de sobrevivi y sexo los cuales dan resultados diferentes, cada uno con su grado de exactitud, lo cual nos da una mayor posibilidad para analizar los datos y buscar los mas correctos. Tambin podemos decir que a travs de la tcnica de asociacin se llego a resultados muy obvios pero cuando tenemos una gran cantidad de informacin con una mayor cantidad de atributos este tipo de informacin a veces no se aprecia a simple vista. En general se obtuvieron modelos de prediccin precisos que logran reglas con alto valor de certeza y que permiten caracterizar los datos analizados y diseos de prueba eficientes para proceder con posteriores anlisis.


28

7. BIBLIOGRAFA

Lopez CP. Mineria de Datos y Herramientas. 1st ed. Reguera AO, editor. Espaa: Paraninfo S.A.; 2007.

http://churriwifi.wordpress.com/2010/02/26/teoria-de-data-mining/

http://cs.uns.edu.ar/~cic/dm2007/downloads/datasets/titanic.arff

http://grupofivasa.blogspot.com/2009/09/tareas-en-data-mining.html

http://es.slideshare.net/verito/ejercicio-en-weka

http://elvex.ugr.es/decsai/intelligent/workbook/D2%20Association.pdf

Documents

Analisis a Una Fuente de 2000 Datos Con Mineria de Datos