View
219
Download
0
Category
Preview:
Citation preview
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
1/29
minera de datos
Ph.D. (c) MSc. Carlos Alberto Cobos Lozadaccobos unicauca.edu.co
http://www.unicauca.edu.co/~ccobosGrupo de I+D en Tecnologas de la Informacin (GTI)Departamento de SistemasFacultad de Ingeniera Electrnica y Telecomunicaciones
Universidad del Cauca
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
2/29
Definicin
Gartner Group (www.gartner.com): es el proceso de descubrir nuevas ysignificantes correlaciones, patrones y tendencias en grandes
de reconocimiento de patrones as como tcnicas estadsticas ymatemticas
MIT Technology Review (enero 2001) la selecciona como una de las 10tecnologas emergentes que cambiarn al mundo, ejemplo: BostonCeltis (basketball) en Septiembre-Diciembre de 2003 busca experto enDM
Witten & Frank (2000): es la extraccin de informacin implcita,previamente desconocida y potencialmente til desde los datos
Fayyad (1997): es la aplicacin de algoritmos para extraer patrones de
los datos, siendo esto una parte del descubrimiento de conocimiento
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
3/29
Definicin
Conexin Datos: smbolos Informacin: datos ue son
Informacin
Conocimiento
Entender lospatrones
Entender losprincipios
procesados para que seantiles; proveen respuestas apreguntas del tipo quin,qu, dnde y cundo
Conocimiento: aplicacin dedatos e informacin apreguntas del tipo cmo o
Datos Entendimiento
n en er as
relacionespor qu
Sabidura: la comprensin delos principios
http://www.systems-thinking.org/dikw/dikw.htm
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
4/29
Justificacin
John Naisbitt: estamos ahogndonos en informacinero hambrientos de conocimiento
Explosin en recoleccin de datos: ventas en supermercados Las bodegas de datos como almacenamiento global y confiable
El incremento en el acceso a los datos desde la web El incremento en la competencia en una economa global El desarrollo de herramientas comerciales y acadmicas de
, , , ,
PolyAnalyst, SAS El gran crecimiento en la capacidad de computo y
almacenamiento
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
5/29
Justificacin
Confluyen varias disciplinas
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
6/29
Proceso de desarrollo
CRISP-DM (Cross Industry Standard Process for Data Mining)
Comprensin delnegocio
Anlisis de losdatos
Preparacin delos datos
ModelamientoEvaluacin
Despliegue Datos
SEMMA (Sample, Explore, Modify, Model, Assess): ms orientado alas caractersticas tcnicas del desarrollo del proyecto, propietario
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
7/29
Falacias de la minera de datos
1. Existen herramientas de minera de datos que
resolvern nuestras problemas
2. El proceso de minera de datos es autnomorequiriendo muy poca intervencin humana
3. La inversin en procesos de minera de datosse paga por si misma y rpidamente
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
8/29
Falacias de la minera de datos
4. Las herramientas o paquetes de minera de
5. La minera de datos identifica las causas de
nuestros problemas de negocios o deinvestigacin
6. Con minera de datos se limpiaran y ordenaranautomticamente nuestras bases de datos
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
9/29
Tareas de la minera de datos
Descripcin Clasificacin
Estimacin Prediccin
A ru acin or similitud
(Clustering) Asociacin
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
10/29
Tareas de la minera de datos
Descripcin
tendencias
Los modelos de minera de datos deben ser lo mstransparentes posibles. rboles de decisin vs. RedesNeuronales
Tcnicas estadsticas (media, moda, mediana,desviacin estndar, mnimo , mximo, rango,correlaciones) y grficas, algoritmos genticos
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
11/29
Demo 1 con Weka
En Weka
clasificacion-drug.arff Se visualizan los datos en la cuadricula Se visualizan los datos en el formato arff
Se explorar la pestaa de pre-procesamiento: atributos, medidasy grficas
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
12/29
Tareas de la minera de datos
Clasificacin Establecer a que valor
Determinar si una enfermedadparticular esta presente
registro Clasifica los ingresos (altos,
medios, bajos) basado en laedad, genero, ocupacin
Determinar si una operacinespecifica con tarjeta decrdito es fraudulenta
Ubicar a un estudiante en untrack especifico de cursos
estado financiero indica unaamenaza de terrorismo Determinar el tipo de medicina
ms adecuada para unpaciente
Redes neuronales, rboles dedecisin (C4.5, C5.0, CART),k-vecino ms cercano
habilidades Determinar si otorgar una
hipoteca es una buen o maladecisin (riesgo)
Tomado de [1] para uso educativo
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
13/29
Demo 2 con Weka
En Weka
clasificacion-drug.arff Uso del rbol de decisin J48 Visualizacin del rbol y explicacin de los resultados Matriz de confusin Instancias correctamente clasificadas Optimizacin basada en costos, ejemplo de tnel metacarpiano y
el costo de falsos ositivos falsos ne ativos
Importancia de los expertos: nuevo atributo a5/a6
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
14/29
Tareas de la minera de datos
Estimacin Similar a Clasificacin, pero la
variable ob etivo es numrica
Tcnicas estadsticas (ejemplo,regresin lineal simple,
Estimar la presin de la sangre deun paciente basado en la edad,genero, ndice de masa corporal ylos niveles de sodio en la sangre
Estimar la cantidad de dinero queuna familia de cuatro personas
seleccionada al azar gastara en lascompras de regreso al colegio Estimar el promedio de un
estudiante de postgrado basado ensu romedio en los resultados
corre ac n, regres n m p e ,redes neuronales
universitarios de pregrado
Tomado de [1] para uso educativo
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
15/29
Tareas de la minera de datos
Prediccin Similar a clasificacin y
Tcnicas estadsticas, redesneuronales, rboles de decisinC4.5, C5.0, CART , k-vecino ms,
resultados se ubican en elfuturo Predecir el incremento en el
nmero de muertes enaccidentes de trfico si el
prximo ao se aumenta ellimite de velocidad Predecir el ganador de la
segunda temporada de ftbol
cercano, algoritmos genticos
basado en los resultadosestadsticos de los equipos Predecir el precio del
inventario en tres (3) meses Tomado de [1] para uso educativo
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
16/29
Tareas de la minera de datos
Agrupacin por similitud(Clustering)
Agrupar los resultados debsquedas en Internet
instancias/objetos decaractersticas similares y sediferencien de los que estn enotras clases
No hay variable objetivo Es a menudo un procesopreliminar en el proceso de
minera de datos En auditoria, segmentar el
Agrupacin Jerrquica, K-means, Red Kohonen, FuzzyC-means
compor am en o nanc ero
entre benignas y sospechosas Reducir el nmero de atributos
a tratar en un DataSet
Tomado de [1] para uso educativo
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
17/29
Demo 3 con Weka
En Weka Uso de la estaa de clusterin con el archivo clusterin -sencillo.arff La columna clase es slo para introducir el ejemplo, pero en un
problema de clustering normalmente los datos no estn pre-clasificados
Uso de la pestaa de Visualizacin para ver la distribucin de las
clases en cada uno de los atributos Visualmente se definen cuales caractersticas son apropiadas
(varianza-desviacin en cada eje)
dimensiones o caractersticas seleccionadas Remover la clase en la pestaa de pre-procesamiento Ejecucin de SimpleKmeans con 3 clusters Mostrar como hacer validacin cuando se conoce la clase
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
18/29
Tareas de la minera de datos
Asociacin Encontrar los atributos ue
Determinar la
van juntos Conocido como anlisis de
afinidad o anlisis de lacanasta de mercado
Si Entonces Cuales tems se compran
donde una nuevadroga genera efectossecundarios peligrosos
Reglas de asociacin
Establecer cualessituaciones degradan la redde telecomunicaciones
con algoritmos Apriori, GRI, FP Grow
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
19/29
Demo 4 con Weka
En Weka Uso de la estaa de Asociacin con el archivo Basket.arff Se usa informacin de la tarjeta Se deja informacin slo de los productos comprados en cada
transaccin Se usa el algoritmo apriori Explicacin del soporte Explicacin de la confianza
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
20/29
Aplicaciones
Mejorar la eficiencia del marketing Identificar prospectos
Escoger el canal de comunicacin para alcanzar losprospectos Crear mensajes apropiados para grupos de prospectos
Ejemplo: un mensaje en la pgina de deportes del peridico, otrodistinto en la pgina de poltica
Ejemplo: un mensaje destacando el precio para usuarios sensiblesal precio y otro destacando la conveniencia del producto (comprasy/o pedidos nocturnos, dominicales y festivos)
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
21/29
Aplicaciones
Retener clientes rentables
,crditos) Prevenir fraudes
Recuperar clientes Mejorar la satisfaccin de los clientes
Incrementar ventas Mejorar la rentabilidad de sus clientes
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
22/29
Aplicaciones
venta cruzada (cross-selling) e incremento de
-
Retener talento humano Definir lneas de capacitacin y retencin de
talento humano
Gestin de la cadena de suministro
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
23/29
Industrias donde aplica:
Aplicaciones
Proveedores
Seguros Telecomunicaciones Venta al por menor (e-commerce)
Venta al por mayor Turismo Educacin
Gente
Deptos.Administrativos
AuditoriaDeptos.
Operativos
Productos
Salud
Otros
Clientes
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
24/29
Aplicaciones
En industrias manufactureras (vehculos), encontrarcuales situaciones generan la mayor cantidad de
rec amos garan as En educacin, encontrar relaciones entre tipos de
estudios y origen de los estudiantes en una universidad
Predecir condiciones financieras especificas que llevanuna empresa a la banca rota
Organizar una campaa de turismo interno para eldepartamento
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
25/29
Aplicaciones
Clasificacin de datos estelares Dia nostico medico
Tnel carpiano Medicinas en tratamientos
Text Mining Web Mining
Contenido Estructura - Navegacin Uso
Bio-Informtica
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
26/29
Aplicaciones en GTI
Bsqueda en Internet BIM (2008): Ontologas, Resultado de los motores de bsqueda
oog e, a oo, , er e usuar o, ner a e ex os DSS para viveros automatizados (2008)
Bodegas de datos y OLAP
Clasificacin (C4.5, C5.0, CART) http://www.unicauca.edu.co/biotecnologia/ediciones/vol6/3.pdf
- http://www.revistas.unal.edu.co/index.php/ingeinv/article/download/18177/19087
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
27/29
Aplicaciones en GTI
DSS para el repositorio de acceso pblico de objetos deaprendizaje (SPAR, 2009)
Bodegas, OLAP y Minera Web (de contenidos)
Sistema de recomendacin de patrones pedaggicosbasado en ontologas y minera de datos (2009) Singular Value Decomposition, Frobenius, k-nn
Reconocimiento Balstico (2010) rocesam en o y n s s e m genes, gor mos en cos,
los k vecinos ms cercanos (k-nn) y validacin cruzada http://revistas.uis.edu.co/index.php/revistauisingenierias/article/view/505
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
28/29
Aplicaciones en GTI
Bsqueda en Internet Clustering en general (Harmony Search, k-means) (2009)
Web Document Clustering Global-Best Harmony Search y Fp-growth (2010) Algoritmos memticos con tcnicas de niching (2010)
En proceso (2010 2011) -
Web Document Clustering basado en Cuckoo search Web Document Clustering desde una perspectiva hper-
heurstica Web Document Clustering basado en Mquinas de Soporte
Vectorial
f
8/3/2019 01 Introduccion a La Mineria de Datos 29 [Modo de ad
29/29
Referencias
1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T.Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2
. , . . . .
ISBN: 0-471-75647-4. E-Book. 385 pages. February 2006, Wiley-IEEEPress.3. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie Maclennan.
Wiley Publishing, Indiana, 2005.4. Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and
Algorithms, John Wiley & Sons 2003 (343 pages). ISBN: 0471228524.5. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin:
Datawarehouse y Datamining. Departamento de Sistemas Informticos yComputacin. Universidad Politcnica de Valencia.
. . . .
6. Wang, John (Editor). Data Mining: Opportunities and Challenges.Hershey, PA, USA: Idea Group Inc., 2003.
Recommended