Español Data Mining Techniques - Gordon S

Embed Size (px)

Citation preview

ReconocimientosSomos afortunados ser rodeados por algunos los mineros{} de datos ms talentosos en todas partes, entonces nuestras primeras gracias van a nuestros colegas, pasado y presente, en el Data Miners, Inc, de quien hemos aprendido tanto: Will Potts, Dorian Pyle, y Brij Masand. Hay tambin los clientes con quien trabajamos tan estrechamente que los consideramos nuestros colegas y amigos tambin: Harrison Sohmer, Stuart E. La sala, III, y Michael Benigno estn en aquella categora. Nuestro redactor, Bob Elliott, nos guard (ms o menos) en la lista y nos ayud a mantener un estilo consecuente. El Instituto de SAS y el Instituto de Depsito de Datos nos han dado oportunidades incomparables durante los 12 aos pasados para la enseanza. Debemos especial gracias a Herb Edelstein (ahora retirado), Herb Kirk, Anne Milley, Bob Lucas, Hillary Kokes, Karen Washburn, y muchos otros quines han hecho estas clases posibles. Durante el ao pasado, mientras escribamos este libro, varios amigos y los colegas han sido muy soportantes. Nos gustara reconocer a Diane y Savvas Mavridis, Steve Mullaney, Tintorero de Lounette, Maciej Zworski, John Wallace, Paul Rosenblum, y profesor universitario Wedding. Tambin queremos reconocer a toda la gente con quien hemos trabajado en tanteos de datos que extraen compromisos durante los aos. Hemos aprendido algo de cada uno de ellos. Entre muchos quines nos han ayudado a lo largo de los aos:Y, por supuesto, toda la gente a la que agradecimos en la primera edicin todava merece del reconocimiento:Bob Flynn Marc GoodmanBryan McNeely Vals de Claire Budden David Isaac David Dena d'Ebin Diana Lin profesor universitario Peppers Ed Horton Edward Ewen Fred Chapman Gary DrescherFinalmente, nos gustara agradecer a nuestra familia y amigos, en particular Stephanie y Giuseppe, que han soportado con la gracia los sacrificios por escrito este libro.IntroduccinHace quince aos, Michael y yo escribimos la primera versin de este libro. Un poco ms de 400 pginas, el libro realiz nuestro objetivo de contemplar el campo de la minera de datos rellenando el hueco entre el tcnico y el prctico, ayudando a la gente comercial a entender los datos que extraen tcnicas y ayudando a la gente tcnica a entender las aplicaciones comerciales de estas tcnicas. Cuando Bob Elliott, nuestro redactor en Wiley, nos pidi escribir la tercera edicin de Datos que Extraen Tcnicas, felizmente dijimos "s", cmodamente olvidando los sacrificios que la escritura de un libro requiere en nuestras vidas personales. Tambin sabamos que la nueva edicin sera bastante refundida de las dos ediciones anteriores. En los 15 aos pasados, el campo ha ensanchado y tan tiene el libro, tanto figuradamente como literalmente. La segunda edicin, publicada en 2004 y ampliado a 600 pginas, introdujo dos nuevos captulos tcnicos claves que cubren anlisis de supervivencia y algoritmos estadsticos que se haban hecho entonces (y todava son) cada vez ms importante para mineros{mineras} de datos. Otra vez, esta versin introduce nuevas reas tcnicas, en particular minera de texto y componentes principales, y una riqueza de nuevos ejemplos y descripciones tcnicas realzadas en todos los captulos. Estos ejemplos vienen de una amplia seccin de industrias, incluso servicios financieros, vender al por menor, telecomunicaciones, medios, seguro, asistencia mdica, y servicios webbased. Como practicantes en el campo, tambin hemos seguido aprendiendo. Entre nosotros, ahora tenemos aproximadamente medio siglo de la experiencia en la minera de datos. Desde 1999, Michael y yo hemos estado enseando cursos por la Serie de Conocimiento Comercial en el Instituto de SAS (esta serie es separada del lado de software del negocio y hace entrar a expertos exteriores para ensear no el software cursos especficos), el Instituto de Depsito de Datos, y clases locales en muchas compaas diferentes. Nuestro papel como instructores en estos cursos nos ha presentado en miles de las personas comerciales diversas que trabajan en muchas industrias. Uno de estos cursos, "los Datos Comerciales que Extraen Tcnicas," estaban basados en la segunda edicin de este libro. Estos cursos proporcionan una riqueza de reaccin sobre el sujeto de la minera de datos, sobre lo que la gente hace en el verdadero mundo, y como presentar mejor estas ideas entonces ellos pueden ser fcilmente entendidos. La mayor parte de esta reaccin es reflejada en esta nueva edicin. Parecemos aprender tanto de nuestros estudiantes como nuestros estudiantes aprenden de nosotros. Michael tambin ha estado enseando un curso en el anlisis de mercadotecnia en la Escuela Carroll del Colegio de Boston de la Direccin durante los dos aos pasados. Las dos primeras ediciones de Datos que Extraen Tcnicas son tambin populares en cursos en muchos colegios y universidades, tanto incluso cursos comerciales como incluso, cada vez ms, los programas de minera de datos que han aparecido en varias universidades durante la dcada pasada. Aunque no querido como un libro de texto, los Datos que Extraen Tcnicas ofrezcan una descripcin excelente para estudiantes de todos los tipos. Durante los aos, hemos puesto varios juegos de datos a disposicin en nuestro sitio Web, que los instructores usan para sus cursos. Este libro es dividido en cuatro partes. La primera parte habla del contexto comercial de la minera de datos. El captulo 1 introduce la minera de datos, junto con ejemplos de como es usado en el verdadero mundo. El captulo 2 explica el ciclo virtuoso de la minera de datos y como la minera de datos puede ayudar a entender a clientes. Este captulo tiene varios ejemplos que muestran como la minera de datos es usada en todas partes del cliente lifecycle. El captulo 3 es un contorno de la metodologa de la minera de datos. Esta metodologa total es refinada por los Captulos 5 y 12, para la minera de datos dirigida y no dirigida, respectivamente. El captulo 4 cubre el negociola estadstica, introduciendo algunas ideas tcnicas claves que son usadas en todas partes del resto del libro. Este captulo tambin tiene un estudio del caso ampliado de MyBuys, mostrando a las fuerzas y las debilidades de los mtodos diferentes para analizar los resultados de pruebas de mercadotecnia A/B. Las ediciones ms tempranas colocaron todos los datos que extraen tcnicas en una seccin sola. Hemos decidido partir las tcnicas en dos categoras distintas, tcnicas tan dirigidas y no dirigidas cada uno tiene sus propias secciones. La seccin en datos dirigidos que extraen ventajas refinando los datos que extraen metodologa en el Captulo 3 para minera de datos dirigida. Los captulos siguientes cubren datos dirigidos que extraen tcnicas, incluso tcnicas estadsticas, rboles de decisin, red de los nervios, razonamiento basado en la memoria, anlisis de supervivencia, y algoritmos genticos. Los datos dirigidos que extraen tcnicas fueron todos cubiertos en la segunda edicin. Sin embargo, los hemos realzado de varios modos importantes, en particular por la inclusin de ms ejemplos de su uso en el verdadero mundo. El captulo de rbol de decisin (el Captulo 7) ahora incluye un estudio del caso en la elevacin que modela del Banco{de la Orilla} estadounidense y tambin introduce mquinas de vector de apoyo. El captulo de red de los nervios (el Captulo 8) habla de la funcin de base radial redes de los nervios. El captulo basado en la memoria que razona (el Captulo 9) ahora tiene dos estudios del caso muy interesantes, un en como Shazam identifica canciones y el otro en la utilizacin de MBR para ayudar a radilogos a determinar si mammograms son normales o anormales. El captulo 10 en el anlisis de supervivencia incluye una discusin muy necesaria en el valor de cliente. El captulo 11 en algoritmos genticos incluye la inteligencia de enjambre, otro concepto relacionado del mundo "de la biologa computacional" que tiene aplicaciones prometedoras para la minera de datos. La tercera seccin es dedicada a datos no dirigidos que extraen tcnicas. El captulo 12 explica cuatro sabores diferentes a la minera de datos no dirigida. Los algoritmos de Clustering han sido partidos en dos captulos. El primer (el Captulo 13) se concentra en la tcnica ms comn, k-medios clustering y tres variantes, k-medianas, k-medoids, y k-modos. Esto tambin tiene una discusin realzada de racimos que hacen de intrprete, que es importante sin tener en cuenta la tcnica usada para identificarlos. El segundo captulo en el clustering (el Captulo 14) introduce muchas tcnicas, incluso clustering jerrquico, clustering divisivo, autoorganizando redes, y modelos de mezcla Gaussian (maximizacin de expectativa clustering), que es nuevo en esta edicin. El captulo 15 en el anlisis de cesta de mercado ha sido realzado con ejemplos que se extienden ms all de reglas de asociacin, incluso un estudio del caso en la mercadotecnia tnica. El captulo 16, "el Anlisis de Eslabn," el ltimo captulo en los datos no dirigidos que extraen la seccin, era casi perifrico en los aos 1990 cuando escribimos la primera edicin de este libro. Ahora, es completamente central, como ejemplificado por los tres estudios del caso en este captulo. La seccin final del libro es dedicada a datos - el nombre de la minera de datos, por decirlo as. El captulo 17 cubre las arquitecturas de ordenador que apoyan datos, como bases de datos relacionales, depsitos de datos, y mercados de datos. Esto tambin cubre Hadoop y cajones de arena analticos, ambos de los cuales son usados para tratar datos no convenientes para bases de datos relacionales e instrumentos de minera de datos tradicionales. Las dos ediciones ms tempranas tenan un captulo en la preparacin de datos para la minera de datos. Este sujeto es tan importante que esta edicin parta el tema en tres captulos. El captulo 18 es sobre el descubrimiento del cliente en los datos y edificio de firmas de cliente, la estructura de datos usada por muchos datos que extraen algoritmos. El captulo 19 cubre variables sacadas, de indirectas y puntas{consejos} en la definicin de variables que ayudan a modelos a funcionar mejor. El captulo 20 se concentra en reducir el nmero de variables, si para tcnicas como redes de los nervios que prefieren menos variables o para objetivos de visualizacin de datos. Una de las tcnicas claves en este captulo, componentes principales, es nueva en esta edicin. El captulo 21 cubre un tema que podra ser un libro por s mismo - minera de texto. El anlisis del texto aade asmuchas de las ideas encontraron antes en el libro que sentimos que el captulo que cubre la minera de texto tuvo que ir ms tarde en el libro. Su posicin al final destaca el texto que extrae como la culminacin de temas cubiertos en todas partes del libro. El estudio del caso final de DIRECTV no es slo una aplicacin interesante de la minera de texto al lado de servicio de cliente del negocio, sino tambin un ejemplo excelente de datos que extraen en la prctica. Como las dos primeras ediciones, este libro es apuntado a datos corrientes y futuros que extraen a practicantes y sus gerentes. No es querido para reveladores de software que buscan instrucciones detalladas en como poner en prctica varios datos que extraen algoritmos, ni para investigadores que tratan de mejorar estos algoritmos, aunque ambos estos grupos puedan beneficiarse de entender como tal software se acostumbra. Las ideas son presentadas en la lengua no tcnica, con el uso mnimo de frmulas matemticas y jerga arcana. En todas partes del libro, el nfasis est tan mucho en las aplicaciones verdaderas y mundiales de datos que extraen como en las explicaciones tcnicas, entonces las tcnicas incluyen ejemplos con el verdadero contexto comercial. En resumen hemos tratado de escribir el libro que nos habra gustado leer cuando comenzamos nuestros propios datos que extraen carreras. - Gordon S. Linoff, Nueva York, enero de 2011El captulo 1 Qu Extraen Datos y Por qu Lo hacen?En la primera edicin de este libro, la primera oracin del primer captulo comenz con las palabras, "Somerville, Massachusetts, a casa a uno de los autores de este libro ..." y continu a contar de dos pequeos negocios en aquella ciudad y como ellos haban formado el aprendizaje de relaciones con sus clientes. Uno de aquellos negocios, un pelo braider, ya no trenza el pelo de la nia. En los aos desde la primera edicin, la nia creci, y alej, y ya no lleva puesto su pelo en cornrows. Su padre, uno de los autores, se movi a Cambridge cercano. Pero una cosa no se ha cambiado. El autor es todava un cliente leal del Barril de Vino, donde un poco de la misma gente que primero le present en reds argelino barato en 1978 y ms tarde en las regiones que cultivan vino de Francia le ayuda ahora a explorar los vinos de Italia y Alemania. Dcadas ms tarde, el Barril de Vino todava tiene a un cliente leal. Aquella lealtad no es ningn accidente. El personal aprende los gustos de sus clientes y sus escalas de precios. Cuando pedido consejo, la respuesta est basada en el conocimiento acumulado de gustos de aquel cliente y presupuestos as como en su conocimiento de su reserva{accin}. La gente en el Barril de Vino sabe{conoce} mucho sobre el vino. Aunque aquel conocimiento sea una razn de hacer compras all ms bien que en una tienda de bebidas alcohlicas de descuento grande, su conocimiento ntimo de cada cliente es lo que guarda a clientes vuelta. Otra tienda de vino podra abrirse a travs de la calle y alquilar un personal de oenophiles experto, pero el alcanzamiento del mismo nivel del conocimiento de cliente ntimo los tomara meses o aos. Los pequeos negocios bien dirigidos naturalmente forman el aprendizaje de relaciones con sus clientes. Con el tiempo, ellos aprenden cada vez ms sobre sus clientes, y ellos usan aquel conocimiento para servirlos mejor. El resultado es clientes felices, leales y negocios provechosos. Las compaas ms grandes, con cientos de miles o millones de clientes, no disfrutan del lujo de relaciones personales actuales con cada uno. Las firmas ms grandes deben confiar en otros medios de formar el aprendizaje de relaciones con sus clientes. En particular, ellos deben aprender a tomar la ventaja llena{plena} de algo que ellos tienen en la abundancia - los datos producidos por casi cada interaccin de cliente. Este libro es sobre tcnicas analticas que pueden ser usadas para convertir datos de cliente en el conocimiento de cliente.Qu Extraen Datos?Aunque algunos datos que extraen tcnicas sean completamente nuevos, los datos que se extraen no son una nueva tecnologa, en el sentido que la gente ha estado analizando datos en ordenadores ya que los primeros ordenadores fueron inventados - y sin ordenadores durante siglos antes de esto. Durante los aos, la minera de datos ha ido por muchos nombres diferentes, como descubrimiento de conocimiento, inteligencia comercial, modelado proftico, analytics proftico, etctera. La definicin de datos que extraen como usado por los autores es: la minera de datos es un proceso comercial para explorar cantidades grandes de datos para descubrir significativomodelos y reglas. Esta definicin tiene varias partes, todo de las cuales es importante.Minera de Datos Es un Proceso ComercialLa minera de datos es un proceso comercial que se relaciona con otros procesos comerciales. En particular, un proceso no tiene un principio y un final: es en curso. Los datos que extraen ventajas con datos, luego por el anlisis informan o inspiran la accin, que, por su parte, crea datos que procrean ms minera de datos. La consecuencia prctica es que las organizaciones que quieren a excel en la utilizacin de sus datos mejorar su negocio no ven datos que extraen como una accin secundaria. En cambio, su estrategia comercial debe incluir datos que se renen, analizando datos para la ventaja a largo plazo, y actuando en los resultados. Al mismo tiempo, los datos que extraen fcilmente caben en con otras estrategias para entender mercados y clientes. El estudio del mercado, los paneles de cliente, y otras tcnicas son compatibles con minera de datos y anlisis de datos ms intensivo. La llave debe reconocer el foco en clientes y la concordancia de datos a travs de la empresa.Cantidades Grandes de DatosUno de los autores con regularidad pregunta a sus auditorios, "Cunto es muchos datos?" cuando l habla. Los estudiantes dan respuestas como, "todas las transacciones para 10 millones de clientes" "o terabytes de datos." Su respuesta ms modesta, "65,356 filas," todava consigue suspiros de la comprensin aunque Microsoft haya permitido ms de un milln de filas en hojas de clculo Excel desde 2007. Un instrumento como Excel es increblemente verstil para trabajar con relativamente pequeas cantidades de datos. Esto permite una amplia variedad de clculos en los valores en cada fila o columna; las mesas{tablas} de pivote son extraordinariamente prcticas para entender datos y tendencias; y las cartas ofrecen un mecanismo poderoso para la visualizacin de datos. En los primeros das de la minera de datos (los aos 1960 y los aos 1970), los datos eran escasos. Algunas tcnicas descritas en este libro fueron desarrolladas en juegos de datos que contienen unos cien de archivos. Detrs entonces, un juego de datos tpico podra haber tenido unos atributos sobre setas, y si ellos son venenosos o comestibles. El otro podra haber tenido atributos de coches, con el objetivo de estimar el kilometraje de gas. Independientemente de los datos particulares se ponen, esto es un testamento a la fuerza de las tcnicas desarrolladas en aquel tiempo que ellos todava trabajan en datos que ya no caben en una hoja de clculo. Como el poder de calcular es disponible en el acto, una cantidad grande de datos no es una deficiencia; esto es una ventaja. Muchas de las tcnicas en este libro trabajan mejor en cantidades grandes de datos que en pequeas cantidades - usted puede substituir datos por la inteligencia. En otras palabras, la minera de datos deja a ordenadores hacer que ordenadores hacen todo lo posible - cavan por partes y muchos datos. Este, por su parte, deja a la gente hacer que gente hace todo lo posible, que es establecido el problema y entender los resultados. Esto dijo, algunos estudios del caso en este libro todava usan relativamente pequeos tamaos de datos. Quizs el ms pequeo es un estudio del caso clustering en el Captulo 13. Este estudio del caso encuentra ciudades demogrficamente similares, entre slo{justo} unos cien de ciudades en Nueva Inglaterra. Tan poderoso como Excel es, esto no tiene una funcin incorporada que dice "grupo estas ciudades por semejanzas{parecido}." Es donde la minera de datos entra. Si el objetivo es encontrar grupos similares de Nuevas ciudades de Inglaterra, o determinar las causas del desgaste de cliente, o cualquiera de una mirada de otros objetivos rociadosen todas partes de los captulos, los datos que extraen tcnicas pueden datos de accin de palanca donde los instrumentos de escritorio ms simples ya no trabajan tan bien.Modelos Significativos y ReglasQuizs la parte ms importante de la definicin de la minera de datos es la parte sobre modelos significativos. Aunque la minera de datos pueda ser seguramente la diversin, ayudando al negocio es ms importante que el divertido del minero{de la minera}. Desde muchos puntos de vista el descubrimiento de modelos en datos no es tremendamente difcil. El lado operacional del negocio genera los datos, necesariamente generando modelos al mismo tiempo. Sin embargo, el objetivo de la minera de datos - al menos como los autores usa el trmino - no debe encontrar slo{justo} ningn modelo en datos, pero encontrar modelos que son tiles para el negocio. Este puede significar el descubrimiento de modelos ayudando a operaciones comerciales rutinarias. Considere una aplicacin de centro de llamada que adjudica{asigna} a clientes un color. "Verde" quiere decir ser muy agradable, porque el visitante es un cliente valioso, valor el gasto de quedarse feliz; " los " medios amarillos usan un poco de precaucin porque el cliente puede ser valioso sino tambin tiene signos de un poco de riesgo; y los medios "rojos" no dan al cliente ningn tratamiento especial porque el cliente es muy arriesgado. El descubrimiento de modelos tambin puede significar campaas de retencin de apuntamiento a clientes que con la mayor probabilidad se marcharn. Esto puede significar la adquisicin de cliente de optimizacin tanto para las ganancias a corto plazo en nmeros de cliente como para el medio - y ventaja a largo plazo en el valor de cliente. Cada vez ms, las compaas desarrollan modelos comerciales centrados alrededor de la minera de datos - aunque ellos puedan no usar aquel trmino. Una compaa que los autores han trabajado con detallistas de ayudas hace recomendaciones en la web; pagan a esta compaa slo cuando los compradores de web hacen clic de sus recomendaciones. Es slo un ejemplo. Algunas compaas agregan datos de fuentes diferentes, juntando{reconciliando} los datos para conseguir un cuadro de cliente ms completo. Algunas compaas, como LinkedIn, informacin de uso proporcionada por algunas personas para proporcionar servicios superiores a otros - y cada uno se beneficia cuando los reclutadores pueden encontrar los candidatos derechos por posiciones de trabajo abiertas. En todos estos casos, el objetivo es dirigir productos y servicios a la gente que con la mayor probabilidad los necesitar, haciendo el proceso de compra y la venta ms eficiente para cada uno implic.Minera de Datos y Gestin de las Relaciones con los ClientesEste libro no es sobre datos que extraen en general, pero expresamente sobre la minera de datos para la gestin de las relaciones con los clientes. Las firmas de todos los tamaos tienen que aprender a emular lo que los negocios pequeos, orientados al servicio siempre hacan bien - creacin de relaciones de uno a uno con sus clientes. La gestin de las relaciones con los clientes es un amplio tema que es el sujeto de muchos artculos, libros, y conferencias. Todo del software que rastrea plomo para hacer una campaa software de direccin para llamar software de centro es etiquetado como un instrumento de gestin de las relaciones con los clientes. El foco de este libro es ms estrecho - el papel que la minera de datos puede jugar en la gestin de las relaciones con los clientes que mejora mejorando la capacidad de la compaa de formar el aprendizaje de relaciones con sus clientes. En cada industria, las compaas previsoras se mueven hacia el objetivo de entender a cada cliente individualmente y usar aquel entendimiento para hacerlo ms fcil (y ms provechoso) para el cliente para hacer el negocio con ellos ms bien que con competidores. Estas mismas firmas aprenden a mirar el valor de cada cliente de modo que ellos sepan{conozcan} cuales valen la pena invertir el dinero y esfuerzo ala espera a y cuales deberan ser permitidos marcharse. Este cambio del foco de amplios segmentos de mercado a clientes individuales requiere cambios en todas partes de la empresa, y en ninguna parte ms tan que en mercadotecnia, ventas, y apoyo de cliente. El edificio de un negocio alrededor de la relacin de cliente es un cambio revolucionario para la mayor parte de compaas. Los bancos{las orillas} se han concentrado tradicionalmente en el mantenimiento de la extensin entre el precio que ellos pagan para traer el dinero y el precio ellos cobran{cargan} de prestar el dinero. Las compaas telefnicas se han concentrado en la unin{conexin} de llamadas por la red. Las compaas de seguros se han concentrado en el procesamiento de reclamaciones, inversiones gerentes, y mantenimiento de su proporcin de prdida. Convirtiendo una organizacin enfocada en el producto en un customercentric uno toma ms que la minera de datos. Unos datos que extraen el resultado que aconseja ofrecer a un cliente particular un artefacto en vez de un gizmo no sern ignorados si el sobresueldo del gerente depende del nmero de gizmos vendi este cuarto y no en el nmero de artefactos (aun si ste es ms provechoso o induce a clientes a ser ms provechosos a largo plazo). En un sentido estrecho, la minera de datos es una coleccin de instrumentos y tcnicas. Esto es una de varias tecnologas requeridas apoyar una empresa cntrica por el cliente. En un sentido ms amplio, la minera de datos es una actitud que las acciones comerciales deberan estar basadas en el aprendizaje, que las decisiones informadas son mejores que decisiones no informadas, y que la medicin resulta es beneficioso al negocio. La minera de datos es tambin un proceso y una metodologa para aplicar instrumentos analticos y tcnicas. Para la minera de datos para ser eficaz, las otras exigencias para CRM analtico tambin deben estar en el lugar. Para formar una relacin de aprendizaje con sus clientes, una compaa debe ser capaz de Notar lo que sus clientes hacen Recuerdan lo que esto y sus clientes han hecho con el tiempo Aprenden de lo que esto ha recordado el Acto en lo que esto ha aprendido a hacer clientes ms provechosos Aunque el foco de este libro est en la tercera bala - aprendizaje de lo que ha resultado en el pasado - que el aprendizaje no puede ocurrir en un vaco. Deben haber sistemas de procesamiento de transaccin para capturar interacciones de cliente, depsitos de datos para almacenar la informacin de comportamiento de cliente histrica, la minera de datos para traducir la historia en proyectos para la futura accin, y una estrategia de relacin de cliente de poner aquellos proyectos en prctica. La minera de datos, para repetir la definicin ms temprana, es un proceso comercial para exploracin y anlisis de cantidades grandes de datos a fin de descubrir modelos significativos y reglas. Este libro asume que el objetivo de la minera de datos es permitir que una compaa mejore su mercadotecnia, ventas, y operaciones de apoyo de cliente por un mejor entendimiento de sus clientes. Tenga presente, sin embargo, que los datos que extraen tcnicas e instrumentos descritos en este libro son igualmente aplicables en campos tan variados como aplicacin de la ley, astronoma de radio, medicina, y control del proceso de produccin industrial.Por qu Ahora?La mayor parte de datos que extraen tcnicas han existido, al menos como algoritmos acadmicos, durante dcadas (el ms viejo, anlisis de supervivencia, realmente se remonta siglos). La minera de datos se ha dado cuenta de un modo grande, aumentando dramticamente desde los aos 1990. Este es debido a la convergencia de varios factores: los Datos estn siendo producidos. Los datos son almacenados.El poder de calcular es econmico. El inters a la gestin de las relaciones con los clientes es fuerte. Los datos comerciales que extraen productos de software son disponibles en el acto. La combinacin de estos factores significa que la minera de datos aparece cada vez ms como una fundacin de estrategias comerciales. El Google no era el primer motor de bsqueda, pero esto era el primer motor de bsqueda para combinar algoritmos sofisticados para buscar con un modelo comercial basado en maximizar el valor de ingresos de acceso a una pgina de Internet desde otra pgina. A travs de casi cada esfera comercial, las compaas descubren que ellos tienen la informacin - informacin sobre suscriptores, sobre invitados de Web, sobre consignadores, y modelos de pago, llamando modelos, amigos y vecinos. Las compaas giran cada vez ms al anlisis de datos a la accin de palanca su informacin.Datos Estn Siendo ProducidosLa minera de datos aprovecha al mximo el sentido donde los volmenes grandes de datos estn disponibles. De hecho, la mayor parte de datos que extraen algoritmos requieren que cantidades algo grandes de datos construyan y entrenen modelos. Uno de los temas subyacentes de este libro es que los datos estn en todas partes y disponibles en cantidades copiosas. Este es sobre todo verdadero para compaas que tienen a clientes - y esto incluye aproximadamente todos ellos. Una persona sola que hojea un sitio Web puede generar decenas de kilobytes de datos en un da. Multiplique esto por millones de clientes y perspectivas y los volmenes de datos rpidamente exceden el tamao de una hoja de clculo sola. La Web no es el nico productor de datos voluminosos. Las compaas telefnicas y las compaas de tarjeta de crdito eran primeras en trabajar con bases de datos con el tamao del terabyte, una talla grande exotically para una base de datos tan recientemente como finales de los aos 1990. Aquel tiempo ha pasado. Los datos estn disponibles, y en volmenes grandes, pero cmo hace usted algn sentido de ello?Datos Son AlmacenadosNo slo es una cantidad grande de datos producidos, sino tambin, cada vez ms a menudo, est siendo extrado de la facturacin operacional, reservas, procesamiento de reclamaciones, y sistemas de entrada de orden{pedido} donde es generado y luego alimentado en un depsito de datos para hacerse la parte de la memoria corporativa. El almacenamiento de datos es una parte tan importante de los datos que extraen la historia que el Captulo 17 es dedicado a este tema. El almacenamiento de datos junta{reconcilia} datos de muchas fuentes diferentes en un formato comn con definiciones consecuentes para llaves y campos. Los sistemas operacionales son diseados para entregar resultados rpidamente al usuario final, que puede ser un cliente en un sitio Web o un empleado que hace su trabajo. Estos sistemas son diseados para la tarea a mano, y no para la tarea de mantener datos limpios, consecuentes para el anlisis. El depsito de datos, por otra parte, debera ser diseado exclusivamente para el apoyo de decisin, que puede simplificar el trabajo del minero{de la minera} de datos.Informtica de Poder Es EconmicaLos datos que extraen algoritmos tpicamente requieren pases mltiples sobre cantidades enormes de datos. Muchos algoritmos son tambin computacionalmente intensivos. La disminucin dramtica persistente en precios para disco, memoria, tratando el poder, y la amplitud de banda de red ha trado una vez - tcnicas costosas que fueron usadas slo en unos laboratorios financiados por el gobierno en el alcance de negocios ordinarios.Inters a Gestin de las Relaciones con los Clientes Es FuerteA travs de un amplio espectro de industrias, las compaas han venido para realizar{comprender} que sus clientes son centrales a su negocio y que la informacin de cliente es uno de sus activos claves.Cada Negocio Es un Negocio de ServicioPara compaas en el sector de servicio, la informacin confiere la ventaja competitiva. Por eso las cadenas de hotel registran su preferencia para un cuarto{espacio} de no fumadores y las compaas de alquiler de coches registran su tipo preferido del coche. Adems, las compaas que no han pensado tradicionalmente en ellos como abastecedores de servicio comienzan a pensar diferentemente. Vende un distribuidor de coche coches o transporte? Si ste, tiene sentido para la representacin de ofrecerle un coche de acreedor siempre que su propio est en la tienda, tan muchos ahora hacen. Los productos incluso en materias primas pueden ser realzados con el servicio. Una compaa petrolera de calefaccin de casa que supervisa su uso y entrega el petrleo{aceite} cuando usted necesita ms vende un mejor producto que una compaa que espera que usted se acuerde de llamar para arreglar una entrega antes de que su tanque corra seco y la helada de tubos{pipas}. Las compaas de tarjeta de crdito, los abastecedores de fondo, las lneas areas, y los detallistas de todas las clases a menudo compiten tanto o ms en el servicio como en el precio.Informacin Es un ProductoMuchas compaas encuentran que la informacin que ellos tienen sobre sus clientes es valiosa no slo a ellos, pero a otros tambin. Un supermercado con un programa de tarjeta de lealtad tiene algo que la industria de bienes embalada del consumidor amara tener - conocimiento sobre quin compra que productos. Una compaa de tarjeta de crdito sabe{conoce} algo que las lneas areas amaran saber{conocer} - quin compra muchos boletos de aeroplano. Tanto el supermercado como la compaa de tarjeta de crdito estn en una posicin para ser agentes de bolsa de conocimiento. El supermercado puede alegar que el consumidor embal compaas de bienes ms para imprimir cupones cuando los supermercados pueden prometer precios de amortizacin ms altos imprimiendo los cupones derechos para los compradores derechos. La compaa de tarjeta de crdito puede cargar las lneas areas para apuntar una promocin de aviador frecuente con la gente que viaja mucho, pero mosca en otras lneas areas. El Google sabe{conoce} lo que la gente busca en la Web. Esto aprovecha este conocimiento vendiendo eslabones patrocinados (entre otras cosas). Las compaas de seguros pagan para asegurarse que ofrecern alguien buscando en "el seguro de automvil" un eslabn a su sitio. Los servicios financieros pagan para eslabones patrocinados para aparecer cuando alguien busca en una frase como "nuevas finanzas de hipoteca." De hecho, cualquier compaa que colecciona datos valiosos est en una posicin para hacerse un agente de bolsa de informacin. La Gaceta de Rpidos de Cedro aprovecha su posicin dominante en un rea de 22 condados de Iowa del Este para ofrecer servicios de venta directa a negocios locales. El papel usa sus propias pginas de necrologa y anuncios de boda para guardar su base de datos de mercadotecnia corriente.Datos Comerciales que Extraen Productos de Software Se han Hecho DisponiblesHay siempre un retraso entre el tiempo cuando los nuevos algoritmos primero aparecen en diarios acadmicos y excitan la discusin en conferencias y el tiempo cuando software comercial que incorpora aquelloslos algoritmos se hacen disponibles. Hay otro retraso entre la disponibilidad inicial de los primeros productos y el tiempo que ellos consiguen la amplia aceptacin. Para la minera de datos, el perodo de disponibilidad extendida y aceptacin ha llegado. Muchas de las tcnicas hablaron en este libro comenzado en los campos de estadstica, inteligencia artificial, o aprendizaje de mquina. Despus de unos aos en universidades y laboratorios del gobierno, una nueva tcnica comienza a ser usada por unos adoptadores tempranos en el sector comercial. En este punto en la evolucin de una nueva tcnica, el software est tpicamente disponible en el cdigo fuente al usuario intrpido complaciente a recuperarlo va el FTP, compilarlo, y entender{calcular} como usarlo leyendo la tesis de Doctor en Filosofa del autor. Slo despus de unos pioneros hechos acertado con una nueva tcnica hace esto comienza a aparecer en verdaderos productos que vienen con los manuales del usuario, ayudan a lneas, y formacin{entrenamiento} de clases. Hoy da, las nuevas tcnicas estn siendo desarrolladas; sin embargo, mucho trabajo tambin es dedicado a ampliacin y mejoramiento de tcnicas existentes. Todas las tcnicas habladas en este libro estn disponibles en productos de software comerciales y abiertos y de la fuente, aunque ningn producto solo incorpore todos ellos.Habilidades para el Minero{la Minera} de DatosQuin puede ser un minero{una minera} de datos? La respuesta no es cada uno, porque algunas habilidades especficas son necesarias. Un minero{una minera} de datos bueno tiene que tener habilidades con nmeros y una familiaridad bsica con la estadstica (y un conocimiento ms fuerte de la estadstica es siempre til). Los captulos 4 y 6 cubren muchos de los conceptos estadsticos claves requeridos para la minera de datos. Tener un conocimiento trabajador bueno de Excel es tambin muy til, porque esto es la hoja de clculo predominante en el mundo comercial. Las hojas de clculo como Excel son muy tiles para analizar cantidades ms bien pequeas de datos y para presentar los resultados a un amplio auditorio. Por supuesto, la familiaridad con datos que extraen tcnicas es crtica para un minero{una minera} de datos. El bulto de este libro es dedicado a varias tcnicas. El entendimiento de las tcnicas ellos mismos es importante; ms importante entiende cuando y como ellos son tiles. Quizs tan importante como los detalles tcnicos es el demystification de datos que extraen tcnicas. Aunque muchos sean completamente sofisticados, ellos estn a menudo basados en una fundacin muy accesible. Estas tcnicas no son mgicas. Incluso cuando usted no puede explicar exactamente como ellos llegan a una respuesta, es posible entenderlos, sin un Doctor en Filosofa en matemticas o estadstica. Las tcnicas son mejores que la magia, porque ellos son tiles y ayuda solucionan problemas verdaderos y mundiales. Otra habilidad muy importante para un minero{una minera} de datos es realmente una actitud: la carencia del miedo de cantidades grandes de datos y el complejo que trata que podra ser necesario para apretar resultados. Trabajando con juegos de datos grandes, los depsitos de datos, y los cajones de arena analticos son claves a la minera de datos acertada. Finalmente, la minera de datos no produce aproximadamente resultados tcnicos. Ningunos datos que extraen el modelo, por ejemplo, alguna vez realmente hicieron algo ms que cambiaron trozos alrededor del interior un ordenador. Los resultados tienen que ser usados para ayudar a la gente (o cada vez ms, procesos automatizados) toman decisiones ms informadas. La produccin de los resultados tcnicos es el final del principio del proceso de minera de datos. Siendo capaz de trabajar con otra gente, comunique resultados, y reconozca lo que realmente es necesario son habilidades crticas para un minero{una minera} de datos bueno. En todas partes de este libro son muchos ejemplos de la minera de datos en el contexto comercial, tanto en los dos siguientes captulos como en todas partes de los captulos tcnicos dedicados a cada tcnica. La minera de datos es un proceso de aprendizaje basado en datos, como descrito en las siguientes secciones, y cualquier minero{minera} de datos bueno debe estar abierto a nuevas ideas.El Ciclo Virtuoso de Minera de DatosEn la primera parte del siglo diecinueve, los molinos de tejido eran las historias de xito industriales. Estos molinos aparecieron en las ciudades crecientes y ciudades a lo largo de ros en Inglaterra y Nueva Inglaterra para enjaezar la hidroelectricidad. El agua, atropellando ruedas hidrulicas, condujo el hilado, la labor de punto, y el tejido de mquinas. Durante un siglo, el smbolo de la revolucin industrial era el agua que mana sobre ruedas que proporcionan el poder para mquinas de tejido. El mundo comercial se ha cambiado. Las viejas ciudades de molino son ahora curiosidades histricas pintorescas. Mucho tiempo los edificios de molino junto a ros son depsitos, centros comerciales, estudios de artista, y otros negocios diversos. Incluso las empresas manufactureras a menudo proporcionan ms valor en servicios que en bienes. Los autores fueron golpeados por una campaa de anuncio por un fabricante de cemento internacional principal, Cemex, que present el hormign como un servicio. En vez de concentrarse en la calidad de cemento, su precio, o disponibilidad, el anuncio imagin un puente sobre un ro y vendi la idea que "el cemento" es un servicio que une{conecta} a la gente construyendo puentes entre ellos. Hormign como un servicio? Bienvenidos al siglo veintiuno. El mundo se ha cambiado. El acceso al poder elctrico o mecnico es ya no el criterio para el xito comercial. Para productos de mercado pblico, los datos sobre interacciones de cliente son la nueva fuerza hidrulica; el conocimiento conduce las turbinas de la economa de servicio y, porque la lnea entre servicio y fabricacin se hace borrosa, la mayor parte de la economa industrial tambin. La informacin de datos enfoca ventas y esfuerzos de mercadotecnia apuntando a clientes, mejora diseos de producto dirigindose a verdaderas necesidades de cliente, y realza la asignacin de recurso entendiendo y prediciendo preferencias de cliente. Los datos estn en el corazn de muchos procesos comerciales principales. Es generado por transacciones en sistemas operacionales sin tener en cuenta la industria - venta al por menor, telecomunicaciones, fabricacin, asistencia mdica, utilidades, transporte, seguro, tarjetas de crdito, y servicios financieros, por ejemplo. La adicin al diluvio de datos internos es fuentes externas de demogrfico, estilo de vida, e informacin de crdito en clientes de venta al pblico; crdito, financiero, e informacin de mercadotecnia en clientes comerciales; e informacin demogrfica en vecindades de todos los tamaos. La promesa de la minera de datos es encontrar los modelos interesantes que estn al acecho en todos estos mil millones y los billones de trozos que estn en el disco o en la memoria de ordenador. Simplemente el descubrimiento de modelos no es bastante. Usted debe responder a los modelos y acto en ellos, por ltimo convirtiendo datos en informacin, informacin en accin, y accin en el valor. Este es el ciclo virtuoso de la minera de datos en una cscara de nuez. Conseguir esta promesa, datos que extraen necesidades de hacerse un proceso comercial esencial, incorporado en otros procesos incluso mercadotecnia, ventas, apoyo de cliente, diseo de producto, y control de existencias. El ciclo virtuoso coloca la minera de datos en el contexto ms grande del negocio, cambiando el foco lejos del mecanismo de descubrimiento a las acciones basadas en los descubrimientos. Este libro enfatiza resultados procesables de la minera de datos (y este uso "de los procesables" no debera ser definitivamente aturdido con su definicin en la esfera legal, donde esto significa que un poco de accin tiene tierras{razones} para la demanda judicial). La literatura de mercadotecnia hace la minera de datos parecer tan fcil. Slo{justo} aplique los algoritmos automatizados creados por las mejores mentes en la academia, como redes de los nervios, rboles de decisin, y algoritmos genticos, y usted est en su camino a xitos indecibles. Aunque los algoritmos sean importantes, los datos que extraen la solucin son ms que slo{justo} un juego de tcnicas poderosas y estructuras de datos. Las tcnicas deben ser aplicadas a los problemas derechos, en los datos derechos. El ciclo virtuoso de la minera de datos es un proceso de aprendizaje iterativo que aade resultados con el tiempo. El xito en la utilizacin de datos transformar una organizacin de reactivo apreventivo. Este es el ciclo virtuoso de la minera de datos, usada por los autores para extraer la ventaja mxima de las tcnicas descritas ms tarde en el libro. Antes de explicar el ciclo virtuoso de la minera de datos, mire a un estudio del caso de datos que extraen en la prctica.Un Estudio del Caso en Minera de Datos Comercialrase una vez, haba un banco{una orilla} con un problema comercial. Un comercio particular, las lneas de equidad de casa del crdito, dejaba de atraer a bastantes clientes buenos. Hay varios modos que el banco{la orilla} podra atacar este problema. El banco{la orilla} podra bajar, por ejemplo, tasas de inters por prstamos de equidad de casa. Este hara entrar a ms clientes y cuota de mercado de aumento a cargo de mrgenes bajados. Los clientes existentes podran cambiar a los precios inferiores, mrgenes adelante deprimentes. Incluso peor, asumiendo que los precios iniciales eran razonablemente competitivos, bajando los precios podra hacer entrar a los clientes peores - el desleal. Los competidores pueden atraerlos fcilmente lejos con ligeramente mejores trminos. El sidebar "Fabricacin de Dinero o Prdida del Dinero" habla de los problemas de retener a clientes leales.La Fabricacin de Dinero o Perdiendo Dinero?Los prstamos de equidad de casa generan ingresos para bancos{orillas} de pagos de inters por los prstamos, pero a veces combate de compaas con servicios que pierden el dinero. Como un ejemplo, las Inversiones de Fidelidad una vez ponen su servicio que paga cuenta del tajo porque este servicio consecuentemente perdi el dinero. Un poco de anlisis de ltima hora lo salv, mostrando que los clientes ms leales y ms provechosos de la Fidelidad usaron el servicio. Aunque esto perdiera el dinero, la Fidelidad hizo mucho ms dinero en las otras cuentas de estos clientes. Despus de todo, los clientes que confan en su institucin financiera para pagar sus cuentas{proyectos de la ley; billetes de banco} tienen un nivel muy alto de la confianza en aquella institucin. El recorte de tales servicios sobre el valor aadido puede exacerbar por descuido el problema de rentabilidad haciendo a los mejores clientes mirar en otra parte para el mejor servicio. Incluso los productos como prstamos de equidad de casa ofrecen un enigma para algunos bancos{orillas}. Un cliente que posee una casa y tiene una cantidad grande de la deuda de tarjeta de crdito es un candidato bueno por una lnea de crdito de equidad de casa. Este est bien para el cliente, porque la lnea de crdito por lo general tiene una tasa de inters mucho inferior que la tarjeta de crdito original. Debera el banco{la orilla} animar a clientes a cambiar su deuda de tarjetas de crdito a prstamos de equidad de casa? La respuesta es ms complicada que parece. A corto plazo, tal interruptor est bien para el cliente, exactamente porque es malo para el banco{la orilla}: Menos inters pagado por el cliente significa menos ingresos para el banco{la orilla}. Dentro del banco{de la orilla}, tal interruptor tambin causa un problema. El grupo de tarjeta de crdito puede haber trabajado mucho para adquirir a un cliente que pagara el inters cada mes. Aquel grupo no quiere perder a sus clientes buenos. Por otra parte, la conmutacin del cliente puede construir una relacin de toda la vida que incluir muchos prstamos de coches, hipotecas, y productos de inversin. Cuando el foco est en el cliente, la vista{opinin} a largo plazo es a veces lo que es ms importante y esto puede entrar en conflicto con objetivos a corto plazo.En este ejemplo particular, el banco{la orilla} era el Banco{la Orilla} de Amrica (BofA), que estaba preocupado de ampliar su carpeta de prstamos de equidad de casa despus de que varias campaas de correo directas cedieron resultados decepcionantes. El Grupo de Activos de Consumidor Nacional (NCAG) decidi usar la minera de datos para atacar el problema, proporcionando una introduccin buena al ciclo virtuoso de la minera de datos. (A los autores les gustara agradecer al Tintorero Lounette, Larry Flynn, y Jerry Modes que trabaj en este problema y Larry Scroggins para permitir que nosotros usramos el material de un Banco{una Orilla} del estudio del caso de Amrica.)La Identificacin del Desafo Comercial de BofABofA tena que hacer un mejor trabajo de la mercadotecnia prstamos de equidad de casa a clientes. Usando sentido comn y asesores financieros, esto subi con estas perspicacias: la Gente con nios de edad del colegio quiere tomar prestado contra su equidad de casa para pagar cuentas{proyectos de la ley; billetes de banco} de matrcula. La gente con ingresos altos pero variables quiere usar la equidad de casa para allanar los picos y valles en sus ingresos. Estas perspicacias pueden o poder no haber sido verdaderas. Sin embargo, la literatura de mercadotecnia para el producto de lnea de equidad de casa reflej esta vista{opinin} del cliente probable, como hizo las listas preparadas para el telemarketing. Estas perspicacias conducidas a los resultados decepcionantes mencionados antes.Aplicacin de Minera de DatosBofA trabaj con datos que extraen a asesores de la Hiperparalela (entonces un vendedor de instrumento de minera de datos que fue absorbido posteriormente en Yahoo!) traer una variedad de datos que extraen tcnicas para tener que ver con el problema. No haba ninguna escasez de datos. Durante muchos aos, BofA haba estado almacenando datos en sus millones de clientes de venta al pblico en una base de datos relacional grande en un ordenador paralelo poderoso de Teradata. Los datos de 42 sistemas del registro fueron limpiados, transformados, alineados, y luego se alimentaron en el depsito de datos corporativo. Con este sistema, BofA podra ver todas las relaciones cada cliente mantenido con el banco{la orilla}. Esta base de datos histrica era realmente digna del nombre - algunos archivos se remontaron hasta 1914! El cliente ms reciente registra tena aproximadamente 250 campos, incluso campos demogrficos como ingresos, nmero de nios, y tipo de la casa, as como datos internos. Estos atributos de cliente fueron combinados en una firma de cliente, que fue analizada entonces usando los instrumentos de minera de datos de la Hiperparalela. Los rboles de decisin (una tcnica habl en el Captulo 7) las reglas sacadas de clasificar a clientes bancarios existentes como probablemente o con poca probabilidad responder a una oferta de prstamo de equidad de casa. El rbol de decisin, entrenado en miles de ejemplos de clientes que haban obtenido el producto y miles quin no tena, finalmente reglas aprendidas de decir la diferencia entre ellos. Despus de que las reglas fueron descubiertas, el modelo que resulta fue usado para aadir an otro atributo al registro de cada perspectiva. Este atributo, "la perspectiva buena para lneas de equidad de casa de la bandera" de bandera de crdito, fue generado por unos datos que extraen el modelo. Despus, una tcnica secuencial que encuentra modelo (como el que descrito en el Captulo 15 en anlisis de cesta de mercado y anlisis de modelo secuencial) fue usada para determinar cuando los clientes con la mayor probabilidad querran un prstamo de este tipo. El objetivo de este anlisis era descubrir una secuencia de acontecimientos que precedan con frecuencia a solicitaciones acertadas en el pasado. Finalmente, una tcnica clustering (descrito en el Captulo 13) fue usada automticamente para segmentar a los clientes en grupos con atributos similares. En cierta ocasin, el instrumento encontr catorce racimos de clientes, muchos de los cuales no parecieron en particular interesantes. De estos catorce racimos, sin embargo, uno tena dos propiedades intrigantes: el 39 por ciento de la gente en el racimo tena tanto cuentas comerciales como personales. Este racimo explic a ms de un cuarto de los clientes que haban sido clasificados por el rbol de decisin como respondedores probables a una oferta de prstamo de equidad de casa. Este resultado sugiri a mineros{mineras} de datos inquisitivos que la gente podra usar prstamos de equidad de casa para comenzar negocios.La interpretacin en los ResultadosCon esta nueva perspicacia, NCAG (la unidad comercial para lneas de equidad de casa del crdito) combin con la Divisin de Banca Minorista e hizo lo que los bancos{las orillas} hacen en tales circunstancias: Ellos patrocinaron el estudio del mercado para dirigirse a clientes. Cuatro veces por ao, BofA pondra en circulacin una revisin a las ramas bancarias para averiguar lo que realmente se encontraba con la primera lnea. Con el conocimiento ganado de la minera de datos, el banco{la orilla} tena uno ms pregunta para aadir a la lista: "van a los beneficios del prstamo estar acostumbrado comienzan un negocio?" El resultado de los datos que extraen el estudio era una pregunta en una revisin interior. Los resultados de la revisin confirmaron las sospechas despertadas por la minera de datos. Como consiguiente, el NCAG cambi el mensaje de su campaa "del uso el valor de su casa para enviar sus nios al colegio" a algo ms en las lneas "de ahora que la casa es vaca, use su equidad para hacer lo que usted siempre quera hacer." A propsito, el estudio del mercado y la minera de datos a menudo son usados para finales similares - para ganar un mejor entendimiento de clientes. Aunque poderoso, el estudio del mercado tiene algunos defectos: los Respondedores pueden no ser representativos de la poblacin en conjunto. Es decir en el juego de respondedores pueden influir, en particular los grupos apuntados por esfuerzos de mercadotecnia pasados (formndose lo que es llamado una muestra oportunista). Los clientes (clientes en particular descontentados y antiguos clientes) tienen poca razn de ser provechosos o honestos. Cualquier accin dada puede ser la culminacin de una acumulacin de motivos. Los clientes bancarios pueden marcharse porque una rama se cerr, el banco{la orilla} ech un control, y ellos tuvieron que esperar demasiado mucho tiempo en ATM. El estudio del mercado puede recoger slo la causa prxima, aunque la secuencia sea ms significativa. A pesar de estos defectos, dirigindose a clientes y antiguos clientes proporciona perspicacias que no pueden ser proporcionadas de ningn otro modo. Este ejemplo con BofA muestra que los dos mtodos son compatibles.Punta{Consejo}Cuando haciendo el estudio del mercado en clientes existentes, usando la minera de datos para tener en cuenta lo que es conocido ya sobre ellos es una idea buena.La medicin de los Efectos de Minera de DatosA consecuencia de una campaa de mercadotecnia que se concentra en un mejor mensaje, el precio de respuesta para campaas de equidad de casa aument del 0.7 por ciento al 7 por ciento. Segn Dave McDonald, el vicepresidente del grupo, las implicaciones estratgicas de la minera de datos no son nada salvo la transformacin del lado de venta al pblico del banco{de la orilla} de una institucin de mercadotecnia de masas a una institucin de aprendizaje. "Queremos ponernos al punto donde ejecutamos constantemente programas de mercadotecnia - no slo{justo} cada tres meses mailings, pero programas en una base consecuente." l tiene una visin de un proceso de mercadotecnia de cerrar-lazo donde los datos operacionales alimentan un proceso de anlisis rpido que conduce a programar la creacin para ejecucin y pruebas, que por su parte generan datos adicionales para rejuvenecer el proceso. En resumen el ciclo virtuoso de minera de datos.Pasos del Ciclo VirtuosoEl ejemplo BofA muestra el ciclo virtuoso de datos que extraen en la prctica. La figura 1.1 muestra las cuatro etapas{escenas}: 1. Identificacin de oportunidades comerciales. 2. La minera de datos para transformar los datos en informacin procesable. 3. La interpretacin en la informacin. 4. Medicin de los resultados. Cuando estos pasos sugieren, la llave al xito incorpora la minera de datos en procesos comerciales y ser capaz de criar lneas de la comunicacin entre los mineros{} de datos tcnicos y los usuarios comerciales de los resultados. La figura 1.1 el ciclo virtuoso de datos que extraen focos en resultados comerciales, ms bien que explotar slo{justo} tcnicas avanzadas.Identifique Oportunidades ComercialesEl ciclo virtuoso de datos que extraen ventajas identificando las oportunidades comerciales derechas. Lamentablemente, hay demasiados estadsticos buenos y los analistas competentes cuyo trabajo es esencialmente gastado porque ellos solucionan problemas que no ayudan al negocio. Los mineros{} de datos buenos quieren evitar esta situacin. La evitacin gast ventajas de esfuerzo analticas con una buena voluntad de actuar en los resultados. Muchos procesos comerciales normales son candidatos buenos por la minera de datos: Planificacin para una nueva introduccin de producto que Planea campaas de venta directa Entendiendo desgaste/mantequera de clienteLa evaluacin de resultados de una prueba de mercadotecnia que Asigna presupuestos de mercadotecnia para atraer a los clientes ms provechosos stos son ejemplos de donde la minera de datos puede realzar esfuerzos comerciales existentes, permitiendo a directores ejecutivos tomar decisiones ms informadas - apuntando un grupo diferente, cambiando la mensajera, etctera. Para evitar gastar el esfuerzo analtico, es tambin importante medir el impacto de cualesquiera acciones son tomados a fin de juzgar el valor de los datos que extraen el esfuerzo s mismo. Cuando George Santayana dijo (en su cotizacin{cita} llena{plena}, de la cual slo la ltima oracin es por lo general recordada): el Progreso, lejos de consistir en el cambio, depende de la retentiva. Cuando el cambio es absoluto, all no permanece ningn siendo para mejorar y ningn juego de direccin para la mejora posible: y cuando la experiencia no es retenida, cuando entre salvajes, el infancia es perpetuo. Aquellos que no aprenden del pasado son condenados para repetirlo. En los datos que extraen el contexto, este tambin se aplica: Si usted no puede medir los resultados de extraer los datos, entonces usted no puede aprender del esfuerzo y no hay ningn ciclo virtuoso. Las medidas de esfuerzos pasados y preguntas ad hoc sobre el negocio tambin sugieren datos que extraen oportunidades: Qu tipos de clientes respondieron a la ltima campaa? Dnde viven los mejores clientes? Son largos espera en cajeros automticos una causa del desgaste de cliente? Usan los clientes provechosos el apoyo de cliente? Qu productos deberan ser promovidos con la leja de Clorox? La entrevista de expertos comerciales es otro modo bueno para ser comenzado. Como la gente en el lado comercial puede no ser familiar con la minera de datos, ellos pueden no entender como actuar en los resultados. Explicando el valor de la minera de datos a una organizacin, tales entrevistas proporcionan un foro para la comunicacin de doble sentido. Uno de los autores una vez particip en una serie de reuniones en una compaa de telecomunicaciones para hablar del valor de analizar archivos de detalle de llamada (los archivos de las llamadas completadas hechas por cada cliente). Durante una reunin, los participantes eran lentos en el entendimiento como este podra ser til. Entonces, un colega indic{advirti} que estar al acecho dentro de sus datos era la informacin en la cual los clientes usaron facsmiles en casa (hablan de los detalles del proyecto que resulta en el Captulo 16 en el anlisis de eslabn). Esta observacin consigui el pensamiento de participantes. Haga clic! El uso de facsmile sera un indicador bueno de quin trabajaba de la casa. Para la muchedumbre de trabajo en casa, la compaa ya haca adaptar un bulto de producto para sus necesidades. Sin embargo, sin pinchar de la gente que entendi los datos y las tcnicas, este grupo de mercadotecnia nunca habra pensado averiguar datos para encontrar una muchedumbre de trabajo en casa. La conexin al tcnico y el negocio destac una oportunidad muy valiosa.Punta{Consejo}Dirigindose a usuarios comerciales sobre datos que extraen oportunidades, asegrese que ellos se concentran en los problemas comerciales y no en tecnologa y algoritmos. Deje al foco de expertos tcnico en la tecnologa y deje al foco de expertos comercial en el negocio.Transforme Datos en InformacinLa minera de datos, el foco de este libro, transforma datos en resultados procesables. El xito es sobre la fabricacin del sentido comercial de los datos, no usando algoritmos particulares o instrumentos. Los numerosos escollos interfieren con la capacidad de usar los resultados de la minera de datos: formatos de datos malos, como no incluso el cdigo postal en la direccin de cliente. Los campos de datos confusos, como una fecha de entrega que significa "fecha de entrega planeada" en un sistema "y fecha de entrega actual" en otro sistema. La carencia de la funcionalidad, como una aplicacin de centro de la llamada que no permite anotaciones en una base percustomer. Las ramificaciones legales, como necesidad para proporcionar una razn legal rechazando un prstamo ("y mi red de los nervios me dijo as" no son aceptables). Los factores organizativos, porque algunos grupos operacionales estn poco dispuestos a cambiar sus operaciones, en particular sin incentivos. La carencia de la oportunidad, porque los resultados que vienen demasiado tarde pueden ser ya no procesables. Los datos vienen a muchas formas, a muchos formatos, y de sistemas mltiples, como mostrado en la Figura 1.2. La identificacin de las fuentes de datos derechas y juntndolos{reconcilindolos} es factores de xito crticos. Cada datos que extraen el proyecto tienen cuestiones de datos: los sistemas inconsecuentes, llaves de mesa{tabla} que no hacen juego a travs de bases de datos, registran superpuesto cada pocos meses, etctera. Las quejas sobre datos son la excusa de nmero uno para no hacer algo. Los captulos 17, 18, y 19 hablan de varias cuestiones que implican datos, que comienzan con el almacenamiento de datos y trabajan por las transformaciones en un formato conveniente para la minera de datos. La verdadera pregunta es, "Qu puede ser hecho con datos disponibles?" Este es donde las tcnicas descritas ms tarde en este libro entran. Los Datos de la figura 1.2 son nunca limpios. Esto viene a muchas formas, de muchas fuentes tanto internas como externas.Una compaa de telecomunicaciones inalmbrica una vez quiso reunir un grupo de minera de datos despus haber adquirido ya a un servidor poderoso y unos datos que extraen el paquete de software. En esta etapa{escena} tarda, la compaa se puso en contacto con los autores para ayudar a investigar datos que extraen oportunidades. Una oportunidad se hizo aparente. Un factor clave para el desgaste de cliente era sobrellamadas: los nuevos clientes que usan ms minutos que permitido por su precio planean durante su primer mes. Los clientes aprenderan sobre el uso de exceso cuando la primera cuenta{proyecto de la ley; billete de banco} lleg - algn da durante el medio del segundo mes. Antes de aquel tiempo, los clientes haban dirigido cuentas{proyectos de la ley; billetes de banco} grandes para el segundo mes as como el primer y eran an ms infelices. Lamentablemente, el grupo de servicio de cliente tambin tuvo que esperar el mismo ciclo de facturacin a descubrir el uso de exceso. No haba ningn tiempo de plomo{ventajoso} para ser preventivo. Sin embargo, el grupo de minera de datos naciente tena recursos y haba identificado y haba investigado las comidas de datos apropiadas. Con un poco de programacin relativamente simple, el grupo era capaz de identificar a estos clientes unos das despus de su primera sobrellamada. Con esta informacin, el centro de servicio de cliente podra ponerse en contacto en peligro con clientes y moverlos en proyectos de facturacin apropiados hasta antes del primerla cuenta{el proyecto de la ley; el billete de banco} sali. Este sistema simple era un triunfo grande, y un escaparate para la minera de datos. Simplemente teniendo un grupo de minera de datos - con las habilidades, hardware, software, y acceso - era el factor de permiso para reunir los gatillos apropiados para salvar en peligro a clientes.Acto en la InformacinTomar medidas es el objetivo del ciclo virtuoso de la minera de datos. Como ya mencionado, la accin puede tomar muchas formas. La minera de datos toma decisiones comerciales ms informadas. Con el tiempo, las decisiones mejor informadas deberan conducir a mejores resultados. A veces, "la accin" hace simplemente lo que habra sido hecho de todos modos - pero con ms (o menos) confianza que la accin trabajar. Incluso este es un xito para la minera de datos, porque reducir el nivel de preocupacin es una cosa buena. Ms tpicamente, las acciones estn de acuerdo con lo que el negocio hace de todos modos: la Incorporacin resulta en sistemas de recomendacin automatizados, cuando los clientes parecen el Envo en lnea de mensajes a clientes y perspectivas va correo directo, correo electrnico, telemarketing, etctera; con la minera de datos, los mensajes diferentes pueden ir a la gente diferente el servicio de cliente de Prioritizing que Ajusta niveles de inventario Etctera los resultados de la minera de datos deben alimentarse en procesos comerciales que tocan a clientes y afectan la relacin de cliente.Mida los ResultadosLa importancia de medir resultados ha sido destacada ya, aunque este sea la etapa{escena} en el ciclo virtuoso con la mayor probabilidad para ser pasado por alto. El valor de medida y mejora continua es extensamente reconocido, y an menos atencin que esto merece, porque esto no tiene ninguna returnon-inversin inmediata. Cuntos los casos comerciales son puestos en prctica sin nadie volviendo para ver cmo bien la realidad emparej los proyectos? Los individuos mejoran sus propios esfuerzos comparndose y aprendiendo, haciendo a preguntas sobre por qu los proyectos emparejan o no emparejan lo que realmente pas, y queriendo aprender cuando y como las asunciones ms tempranas se equivocaron. Que trabajos para individuos tambin trabaja para organizaciones. Comnmente, los esfuerzos de mercadotecnia son medidos basados en medidas financieras - y stos son muy importantes. Sin embargo, el modelado de esfuerzos tambin debera ser medido. Considere lo que pas una vez en un banco{una orilla} canadiense grande que tena un plan de vender cruz cuentas de inversin a sus clientes. Este mensaje de mercadotecnia estaba por todas partes del banco{de la orilla}: en televisin y publicidad de radio, en carteles en la rama, en mensajes imprimidos al dorso de recibos de ATM, en mensajes mientras los clientes estaban en el asimiento para el servicio de cliente, etctera. Los clientes no podan perder los mensajes. Esta historia, sin embargo, concierne un canal diferente, correo directo. Unos datos que extraen el esfuerzo identificaron a clientes con la mayor probabilidad para responder a una oferta de campaa de inversin. Una campaa de mercadotecnia fue diseada y apuntada en clientes que probablemente responderan. En este caso, sin embargo, el banco{la orilla} incluy un grupo holdout especial: Este grupo fue predito para responder bien, pero no recibi el correo directo. (El sidebar "Minera de Datos y Pruebas de Mercadotecnia" habla de esta idea ms detalladamente.) Posesinlos respondedores potenciales son una accin bastante polmica para el gerente de correo directo. Los mineros{} de datos dicen, "Este es un grupo que pensamos responder, pero no ponerse en contacto con todos ellos; excluya unos as podemos aprender de esta prueba." Lo que fue aprendido completamente vali el coste de no ponerse en contacto con algunos clientes buenos. Entre clientes que marcaron alto para la oferta de cuenta de inversin, la misma proporcin abri cuentas sin tener en cuenta si ellos recibieron la oferta o no. El modelo, en efecto, encontr realmente clientes que abriran las cuentas. Sin embargo, la prueba de mercadotecnia tambin encontr que la comunicacin de mercadotecnia era superflua. Considerando todos los otros esfuerzos de mercadotecnia, esta campaa de correo directa particular no fue necesaria. El tiempo para comenzar a pensar en la medida es al principio identificando el problema comercial. Cmo puede resultados ser medido? Una compaa que enva cupones para animar ventas de sus productos sin duda medir el precio de amortizacin de cupn. Sin embargo, los Redentores del cupn pueden haber comprado el producto de todos modos. Otra medida apropiada es aumentada ventas en tiendas{depsitos} particulares o regiones, aumentos que pueden ser atados al esfuerzo de mercadotecnia particular. Tales medidas pueden ser difciles de hacer, porque ellos requieren la informacin de ventas ms detallada. Sin embargo, si el objetivo es aumentar ventas, tiene que haber un modo de medir este directamente o indirectamente. Por otra parte, los esfuerzos de mercadotecnia pueden ser todo "el sonido y furia, no significando nada."Minera de Datos y Pruebas de MercadotecniaLas pruebas de mercadotecnia son una parte importante de la mercadotecnia analtica, como es la minera de datos. Los dos a menudo complementan el uno al otro, y las pruebas de mercadotecnia son una parte importante del entendimiento si los datos que extraen esfuerzos trabajan. Tpicamente dos cosas deberan ser probadas usando la minera de datos para un tratamiento de mercadotecnia. Primero, trabaja el mensaje de mercadotecnia? Segundo, extraen los datos el funcionamiento de modelado? La llave debe usar grupos holdout con inteligencia para entender estos dos factores. En la prctica, cuatro grupos potenciales existen: Grupo Objetivo: Recibe el tratamiento y tiene tanteos modelos que indican la respuesta. Grupo de Control: Recibe el tratamiento y es escogido a bulto o basado en tanteos modelos inferiores. Grupo de Holdout: no recibe el tratamiento y es escogido a bulto o basado en tanteos modelos inferiores. Grupo Holdout Modelado: no recibe el tratamiento y tiene tanteos modelos que indican la respuesta. Estos cuatro grupos son indicados en la figura siguiente:Estos cuatro grupos son usados para medir la eficacia tanto del mensaje como del esfuerzo que modela.Las respuestas de estos cuatro grupos entonces proporcionan la informacin til. La utilizacin de estos grupos para el modelado es llamada el modelado de respuesta incremental y es hablada ms detalladamente en el Captulo 5. En el ejemplo donde el banco{la orilla} canadiense aprendi que el esfuerzo de correo directo era innecesario, los precios de respuesta para Holdout modelado eran el mismo en cuanto al Grupo Objetivo. Este indica que el tratamiento no tiene un efecto. La diferencia entre el Grupo Objetivo y el Grupo de Control mide si el modelado trabaja. La carta siguiente es un ejemplo de otro banco{orilla} que usa tales cartas para medir la eficacia de sus campaas. Esta carta es la carta actual del banco{de la orilla}:Esta carta fcilmente muestra que la diferencia en respuesta a determina si el tratamiento trabaja y si los trabajos que modelan.Las dos primeras barras muestran que el Grupo Objetivo tiene un precio de respuesta ms alto que el Grupo de Control, indicando que el modelado trabaja. Las dos segundas barras muestran que el Grupo de Control tiene un precio de respuesta ms alto que el Grupo Holdout, indicando que el tratamiento de mercadotecnia trabaja. Slo{justo} la medicin de estos cuatro grupos es realmente el principio de medir la eficacia de la minera de datos. Por ejemplo, tanteos modelos a menudo estn rotos en deciles. En tales casos, es importante incluir una muestra de todo deciles en la campaa para estar seguro que el modelo trabaja. Por supuesto, cada uno en la cumbre deciles es incluido en el esfuerzo (porque este consigue el objetivo comercial). Para ms abajo deciles, slo una muestra es incluida. La muestra debera ser bastante grande para determinar si los deciles realmente trabajan - algo que es completamente importante usando modelos. El captulo 4 explica el fondo de estadstica para determinar el tamao derecho para tales pruebas.Los informes estndares, que pueden llegar semanas o meses despus de intervenciones de mercadotecnia han ocurrido, contenga resmenes. Los gerentes de marketing pueden no tener las habilidades tcnicas de espigar conclusiones importantes de tales informes, aun si la informacin est all. El entendimiento del impacto en medios de retencin de cliente que rastrean viejos esfuerzos de mercadotecnia durante perodos an ms largos de tiempo. Las aplicaciones de reportaje bien diseadas pueden ser una ayuda grande para grupos de mercadotecnia y analistas de mercadotecnia. Sin embargo, para algunas preguntas, hasta ms detalle es necesario. Pensando en cada esfuerzo de mercadotecnia cuando un pequeo caso comercial es una idea buena. La comparacin de expectativas a resultados actuales hace posible de reconocer oportunidades prometedoras de explotar en la siguiente ronda del ciclo virtuoso. Usted es el abordaje a menudo demasiado ocupado del siguiente problema de dedicar la energa a la medicin del xito de esfuerzos corrientes. Este es un error. Cada datos que extraen el esfuerzo, o acertado o no, tienen lecciones que pueden ser aplicadas a futuros esfuerzos. La pregunta es que medir y como acercarse a la medida entonces esto proporciona la mejor entrada para el futuro uso. Como un ejemplo, vaya al principio con que medir para una campaa de adquisicin apuntada. La medida cannica es el precio de respuesta: Cunta gente apuntada por la campaa realmente respondi? Este deja mucha informacin que est en la mesa{tabla}. Para un esfuerzo de adquisicin que usa un resultado modelo (donde un resultado alto indica una probabilidad ms alta de la respuesta), algunos ejemplos de preguntas que tienen el valor futuro son: hizo una campaa este el alcance e hizo entrar a clientes provechosos? Model un ms alto resultado indican un precio de respuesta ms alto? Fueron retenidos estos clientes as como seran esperados? Cules son las caractersticas de los clientes ms leales alcanzados por esta campaa? Compraron los clientes recin adquiridos productos adicionales? Trabajaron algunos mensajes o las ofertas mejor que otros? Los clientes alcanzados por la campaa responden por canales alternos? Todas estas medidas proporcionan la informacin para tomar decisiones ms informadas en el futuro. La minera de datos es sobre la unin{conexin} del pasado - por el aprendizaje - a futuras acciones. Una medida particular es el valor de cliente de toda la vida. Cuando su nombre implica, este es una estimacin del valor de un cliente durante el curso entero de su relacin (o quizs durante algn perodo fijo en el futuro, como durante los prximos dos aos). En algunas industrias, los modelos completamente complicados han sido desarrollados para estimar el valor de cliente de toda la vida. Incluso sin modelos sofisticados, estimaciones de trmino ms corto, como el valor despus de un mes, seis meses, y un ao, pueden resultar ser completamente tiles. Hablan del valor de cliente ms detalladamente en el siguiente captulo.Minera de Datos en el Contexto del Ciclo VirtuosoConsidere una compaa de telecomunicaciones grande en los Estados Unidos. Tal compaa tiene a millones de clientes. Esto posee cientos o miles de interruptores localizados en centrales, que estn tpicamente en varios estados en husos horarios mltiples. Cada interruptor puede manejar miles de llamadas simultneamente - incluso rasgos avanzados como espera de llamada, vocacin de conferencia, reenvo de llamadas, correo vocal, y servicios digitales. Los interruptores, entre los dispositivos de calcular ms complejos an se desarrollaron, estn disponibles de un puado de fabricantes. Una compaa telefnica tpica tiene versiones mltiples de varios interruptores de cada uno de los vendedores. Cada uno de estos interruptores proporciona volmenes de datos en su propio formatoen cada llamada y llamada intentada - volmenes medidos en decenas de gigabytes cada da. Adems, cada estado tiene sus propias regulaciones que afectan la industria, sin contar leyes federales y regulaciones que son sujetas de frecuentar mejor dicho cambios. Para aadir a la confusin, la compaa ofrece miles de proyectos de facturacin diferentes a sus clientes, que recorren de usuarios residenciales ocasionales a la Fortuna 100 corporaciones. Cmo hace esta compaa - o alguna compaa similar con volmenes grandes de datos y los nmeros grandes de clientes - manejan su proceso de facturacin, el pan y mantequilla de su negocio, responsable de sus ingresos? La respuesta es simple: muy con cuidado! Las compaas han desarrollado procesos detallados para manejar operaciones estndares; ellos tienen polticas y procedimientos. Estos procesos son robustos. Las cuentas{Los proyectos de la ley; Los billetes de banco} salen a clientes, aun cuando el negocio reorganiza, aun cuando los administradores de base de datos son durante vacaciones, aun cuando los ordenadores estn temporalmente abajo, justo cuando las leyes y el cambio de regulaciones, aun cuando los interruptores son mejorados, y cuando los huracanes golpean. Si una organizacin puede manejar un proceso tan complicado como sacando cuentas{proyectos de la ley; billetes de banco} exactas cada mes a millones de clientes residenciales, comerciales, y del gobierno, seguramente incorporando la minera de datos en procesos de decisin debera ser bastante fcil. Este es el caso? Las compaas grandes tienen dcadas de desarrollo de experiencia y realizacin de aplicaciones crticas por la misin para dirigir su negocio. La minera de datos es diferente del sistema operacional tpico (ver la Mesa{Tabla} 1.1). Las habilidades necesarias para dirigir un sistema operacional acertado no necesariamente conducen a datos acertados que extraen esfuerzos. La mesa{tabla} 1.1 Minera de Datos Se diferencia de Procesos Comerciales Operacionales TpicosO tpicos pe m Syste racional de Operaciones e informes sobre datos histricos el flujo Previsible y peridico del trabajo, tpicamente atado al Foco de calendario en artculos individuales, uno por uno (la aguja en el almiar) el uso Limitado del Foco de datos por toda la empresa en lnea del negocio (como cuenta, regin, cdigo de producto, minutos del uso, etctera), no durante tiempos de Respuesta de cliente a menudo medidos en segundos/milisegundos (para sistemas interactivos) esperando semanas/mes informes el Sistema del registro para datos Datos Descriptivos y reiterativos que Extraen Syste m de Anlisis en datos histricos a menudo aplicados a los datos ms corrientes para determinar futuras acciones el flujo Imprevisible del trabajo segn negocio y necesidades de mercadotecnia que Se concentran en grupos ms grandes en un tiempo, tratando de tener sentido del almiar T l ms datos, mejor los resultados (generalmente) Se concentran en entidad procesable, producto, cliente, regin de ventas procesos Iterativos con tiempos de respuesta a menudo medidos en Copia de horas o minutos de datos CreativosLos problemas dirigidos por la minera de datos se diferencian de problemas operacionales - un sistema de minera de datos no procura reproducir resultados anteriores exactamente. De hecho, la rplica de esfuerzos anteriores puede conducir a resultados desastrosos. Esto puede causar campaas de mercadotecnia que apuntan a la misma gente repetidas veces. Usted no quiere aprender de analizar datos que un racimo grande de clientes encaja el perfil de los clientes se puso en contacto en la campaa anterior. Los datos que extraen procesos tienen que tomar tales cuestiones en cuenta, a diferencia de sistemas operacionales tpicos que quieren reproducir los mismos resultados repetidas veces - si completando una llamada telefnica, enviando a una cuenta{a un proyecto de la ley; a un billete de banco}, autorizando una compra de crdito, rastreando el inventario, u otras operaciones diarias innumerables. La minera de datos es un proceso creativo. Los datos contienen muchas correlaciones obvias que son intiles o simplemente representan polticas comerciales corrientes. Por ejemplo, el anlisis de datos de un detallista grande revel que la gente que compra contratos de mantenimiento tambin muy probablemente comprar aparatos electrodomsticos grandes. A menos que el detallista quisiera analizar la eficacia de ventas de contratos de mantenimientocon aplicaciones{aparatos}, tal informacin es peor que intil porque el mantenimiento se contrae en cuestin slo son vendidos con aplicaciones{aparatos} grandes. Gastando{Pasando} millones de dlares en el hardware, el software, y los mineros{} de datos para encontrar tales resultados son una basura{un desperdicio} de recursos que pueden ser mejor aplicados en otra parte en el negocio. Los analistas deben entender lo que es de valor al negocio y como quedar los datos en sacar las pepitas. Los datos que extraen resultados se cambian con el tiempo. Los modelos expiran y hacerse menos tiles cuando el tiempo contina. Una causa es aquellos aos de datos rpidamente. Los mercados y los clientes se cambian rpidamente tambin. La minera de datos proporciona la reaccin en otros procesos que pueden tener que cambiarse. Las decisiones tomadas en el mundo comercial a menudo afectan procesos corrientes e interacciones con clientes. A menudo, mirar datos encuentra imperfecciones en sistemas operacionales, imperfecciones que deberan ser fijadas para realzar el futuro entendimiento de cliente.Lecciones CultasLa minera de datos es una parte importante de la gestin de las relaciones con los clientes. El objetivo de gestin de las relaciones con los clientes es recrear, al grado posible, la relacin de aprendizaje ntima de la cual un pequeo negocio bien dirigido disfruta con sus clientes. Las interacciones de una compaa con sus clientes generan volmenes grandes de datos. Estos datos son al principio capturados en sistemas de procesamiento de transaccin como cajeros automticos, archivos de interruptor telefnicos, y archivos de explorador de supermercado. Los datos pueden ser coleccionados entonces, limpiados, y resumidos para la inclusin en un depsito de datos de cliente. Un depsito de datos de cliente welldesigned contiene un registro histrico de interacciones de cliente que se hace la memoria de la corporacin. Los instrumentos de minera de datos pueden ser aplicados a este registro histrico para aprender cosas sobre clientes que permitirn que la compaa los sirva mejor en el futuro. Este captulo present varios ejemplos de aplicaciones comerciales de minera de datos como couponing mejor apuntado, fabricacin de recomendaciones, venta de cruz, retencin de cliente, y reduccin de riesgo de crdito. Los datos que se extraen son el proceso de encontrar modelos tiles y reglas en volmenes grandes de datos. Para ser acertado, la minera de datos debe hacerse una parte integrante de un proceso comercial ms grande, el ciclo virtuoso de la minera de datos. El ciclo virtuoso de la minera de datos es sobre enjaezar el poder de datos y transformarlo en resultados comerciales procesables. Como el agua una vez gir las ruedas que condujeron mquinas en todas partes de un molino, los datos deben ser juntados y diseminados en todas partes de una organizacin para proporcionar el valor. Si los datos son el agua en esta analoga, entonces la minera de datos es la rueda, y el ciclo virtuoso extiende el poder de los datos a todos los procesos comerciales. El ciclo virtuoso de la minera de datos es un proceso de aprendizaje basado en datos de cliente. Esto comienza identificando las oportunidades comerciales derechas de la minera de datos. Las mejores oportunidades comerciales son aquellos que sern interpretados sobre. Sin la accin, poco o ningn valor debe ser ganado de aprender sobre clientes. Tambin muy importante mide los resultados de la accin. Este completa el lazo del ciclo virtuoso, y a menudo sugiere datos adicionales que extraen oportunidades. El siguiente captulo pone la minera de datos en el contexto de clientes ellos mismos, comienzo con el cliente lifecycle y despus con varios ejemplos del ciclo virtuoso en la accin.Datos del captulo 2 que Extraen Aplicaciones en Mercadotecnia y Gestin de las Relaciones con los ClientesLos datos que extraen tcnicas no existen en un vaco; ellos existen en un contexto comercial. Aunque las tcnicas sean interesantes en su propio derecho, ellos son un medio a un final. Este captulo es sobre el contexto comercial. El captulo comienza con una descripcin del cliente lifecycle y los procesos comerciales asociados con cada etapa{escena}. Cada etapa{escena} del cliente lifecycle ofrece oportunidades de gestin de las relaciones con los clientes y minera de datos, como descrito en todas partes del captulo. El cliente lifecycle es un tema central porque los procesos comerciales apoyados por la minera de datos son organizados alrededor de esto lifecycle. Los temas comerciales dirigidos en este captulo son presentados en la aproximadamente{bruscamente} orden ascendente de la complejidad de la relacin de cliente. Esta relacin comienza con clientes como perspectivas, movimientos por la relacin de cliente establecida, y se termina con la retencin y winback. En el curso de la discusin de las aplicaciones comerciales, el captulo introduce el material tcnico como apropiado, pero se van de los detalles de datos especficos que extraen tcnicas para captulos posteriores.Dos Cliente LifecyclesEl cliente de trmino lifecycle puede referirse a dos cosas diferentes - el propio personal del cliente lifecycle, o el lifecycle de la relacin de cliente. De unos datos que extraen el punto de vista, ste es por lo general ms importante.Lifecycle del ClienteLos clientes, si ellos son individuos, casas, o negocios, se cambian con el tiempo. Los arranques se hacen firmas establecidas. Unos se hacen objetivos de entrada en funciones. Unos siguen creciendo independientemente. Finalmente, muchos fallan. Lifecycle de un individuo es marcado por acontecimientos de vida, como graduarse la escuela secundaria, teniendo nios, consiguiendo un trabajo, etctera. Estas etapas{escenas} de vida son importantes para mercadotecnia y gestin de las relaciones con los clientes. El movimiento, por ejemplo, es un acontecimiento significativo. Cuando la gente se mueve, ellos podran comprar el nuevo mobiliario, suscribirse al papel local, abrir una nueva cuenta bancaria, etctera. Saber{conocer} quin se mueve es til para apuntar a tales individuos, sobre todo para distribuidores de mobiliario, peridicos, compaas de cable, y bancos{orillas} (entre otros), sobre todo dentro de unos das o semanas despus del movimiento. Este es verdadero para otros acontecimientos de vida tambin, de graduarse de escuela secundaria y colegio, a casarse, teniendo nios, cambiando empleos, retirar, etctera. El entendimiento de estas etapas{escenas} de vida permite a compaas definir productos y mensajes que resuenan con grupos particulares de las personas.Algunos negocios son organizados alrededor de etapas{escenas} de vida particulares. Una tienda nupcial se especializa en vestidos de boda; tal negocio crece no porque las mujeres se casan ms a menudo, pero por reputacin y recomendaciones. Las compaas mviles del mismo modo, no tienen que animar a sus clientes recientes a trasladarse; ellos tienen que hacer entrar a nuevos clientes. Para la mayor parte de negocios, el individuo del cliente lifecycle es menos importante. En cualquier caso, las relaciones de cliente gerentes basadas en etapas{escenas} de vida son difciles, porque: la Identificacin de acontecimientos en una manera oportuna es provocativa. Muchos acontecimientos son antiguos, o muy raros. Los acontecimientos de etapa{escena} de la vida son generalmente imprevisibles y de su control. Estos defectos no los dan intil, por ningn medio, porque las etapas{escenas} de vida proporcionan un entendimiento crtico de necesidades de cliente probables. Sin embargo, la mayor parte de procesos comerciales son organizados alrededor de lifecycle diferente - el lifecycle de la relacin de cliente.El Cliente LifecycleLa relacin comercial con un cliente evoluciona con el tiempo. Aunque cada negocio sea diferente, la relacin de cliente coloca a clientes en cinco fases principales, como mostrado en la Figura 2.1: las Perspectivas estn en el mercado objetivo, pero no son todava clientes. Los respondedores son perspectivas quines han expuesto algn inters - por ejemplo, llenando una aplicacin o registrndose en un sitio Web. Los nuevos clientes son respondedores que han hecho un compromiso, por lo general un acuerdo para pagar, como haber hecho una primera compra, habiendo firmado un contrato, o habiendo registrado en un sitio con alguna informacin personal. Los clientes establecidos son aquellos nuevos clientes que vuelven, para quien la relacin se ensancha con esperanza o se hace ms profundo{crece}. Los antiguos clientes son aquellos que se han marchado, a consecuencia del desgaste voluntario (porque ellos han desertado a un competidor o ya no ven el valor en el producto), el desgaste forzado (porque ellos no han pagado sus cuentas{proyectos de la ley; billetes de banco}), o esper el desgaste (porque ellos estn ya no en el mercado objetivo; por ejemplo, porque ellos se han movido). La definicin precisa de las fases depende del negocio. Para un sitio de e-medios, una perspectiva puede ser alguien en la Web; un respondedor, alguien que ha visitado el sitio; un nuevo cliente, alguien que se ha registrado; y un cliente establecido, un invitado de repeticin. Los antiguos clientes son aquellos que no han vuelto dentro de algn tiempo que depende en la naturaleza del sitio. Para otros negocios, las definiciones podran ser completamente diferentes. Las compaas de seguros de vida, por ejemplo, tienen un mercado objetivo. Los respondedores son aquellos que llenan una aplicacin - y luego a menudo hacen tomar su sangre para anlisis de sangre. Los nuevos clientes son aquellos candidatos que son aceptados, y los clientes establecidos son aquellos que pagan sus premios para pagos de seguros. La figura 2.1 el cliente lifecycle progresa por etapas{escenas} diferentes.Relaciones de Suscripcin contra Relaciones Basadas en el acontecimientoOtra dimensin del cliente lifecycle relacin es el compromiso inherente en cada interaccin. Considere los modos siguientes de ser a un cliente de una compaa telefnica: la Fabricacin de una llamada en un telfono pblico (si usted todava puede encontrar el que!) Compra de una tarjeta telefnica pagada por adelantado para un nmero de juego de minutos Comprando un telfono mvil pagado por adelantado que Compra una postpaga telfono mvil sin el contrato de plazo fijo que Compra un telfono mvil con un contrato los primeros tres son ejemplos de relaciones basadas en el acontecimiento. Los ltimos dos son ejemplos de relaciones subscriptionbased. Las dos siguientes secciones exploran las caractersticas de estas relaciones ms detalladamente.Punta{Consejo}Una relacin de facturacin en curso es un signo bueno de una relacin de suscripcin en curso. Tales relaciones de cliente en curso ofrecen la oportunidad de engranar en un dilogo con clientes en el curso de actividades econmicas.Relaciones Basadas en el acontecimientoLas relaciones basadas en el acontecimiento estn basadas en transacciones. El cliente puede o poder no volver; el rastreo de clientes con el tiempo podra ser difcil o imposible. En los ejemplos ms tempranos, la compaa telefnica puede no tener mucha informacin en absoluto sobre el cliente, sobre todo cuando el cliente paga en el dinero efectivo.Las transacciones annimas todava tienen la informacin; sin embargo, claramente un poco de oportunidad existe para proporcionar mensajes directos a clientes que no proporcionan ninguna informacin de contacto. Cuando las relaciones basadas en el acontecimiento predominan, las compaas por lo general se comunican con perspectivas transmitiendo mensajes extensamente (por ejemplo, publicidad, anuncios de Web, marketing de boca en boca, y otros por el estilo) ms bien que apuntar mensajes en individuos especficos. En estos casos,