Especialista en Business Intelligence Analysis Services SSAS (Sesión 13) Microsoft SQL Server 2008...
Preview:
Citation preview
- Diapositiva 1
- Especialista en Business Intelligence Analysis Services SSAS
(Sesin 13) Microsoft SQL Server 2008 R2 (2013) Suscribase a
http://addkw.com/ o escrbanos a service@addkw.com
- Diapositiva 2
- Especialista en BI (SSAS) Agenda SQL Server Analysis Services
Minera de Datos Conceptos Algoritmos de minera de datos
Clasificacin, regresin, segmentacin, asociacin y anlisis de
secuencia. Modelos de Minera de Datos Arboles de decisin Clustering
Tipos de datos y tipos de contenido Aplicaciones Source: SAP
AG
- Diapositiva 3
- Heterogeneous data sources End-to-End BI Offering END USER
TOOLS AND PERFORMANCE MANAGEMENT APPS Excel PerformancePoint Server
BI PLATFORM SQL Server Reporting Services SQL Server Reporting
Services SQL Server Analysis Services SQL Server Analysis Services
SQL Server DBMS SQL Server Integration Services SharePoint Server
DELIVERY Reports Dashboards Excel Workbooks Excel Workbooks
Analytic Views Analytic Views Scorecards Plans
- Diapositiva 4
- Ayudan a identificar patrones en los datos, que le permiten
determinar las razones por las que suceden las cosas, y a crear
reglas y recomendaciones, con las que puede predecir lo que ocurrir
en el futuro. Minera de Datos
- Diapositiva 5
- Utiliza el anlisis matemtico para deducir los patrones y
tendencias que existen en los datos. Normalmente, estos patrones no
se pueden detectar mediante la exploracin tradicional de los datos
porque las relaciones son demasiado complejas o porque hay
demasiados datos. Minera de Datos
- Diapositiva 6
- Los modelos de minera de datos se pueden aplicar a situaciones
empresariales como las siguientes: Pronstico: clculo de las ventas
y prediccin de las cargas del servidor o del tiempo de inactividad
del servidor. Riesgo y probabilidad: eleccin de los mejores
clientes para la distribucin de correo directo, determinacin del
punto de equilibrio probable para los escenarios de riesgo, y
asignacin de probabilidades a diagnsticos y otros resultados.
Recomendaciones: determinacin de los productos que se pueden vender
juntos y generacin de recomendaciones. Bsqueda de secuencias:
anlisis de los artculos que los clientes han introducido en el
carrito de la compra y prediccin de posibles eventos. Agrupacin:
distribucin de clientes o eventos en grupos de elementos
relacionados, y anlisis y prediccin de afinidades. Minera de
Datos
- Diapositiva 7
- Cada proyecto de minera de datos contiene los cuatro tipos
siguientes de objetos: orgenes de datos; vistas del origen de
datos, que se basan en los orgenes de datos; estructuras de minera
de datos, que definen cmo se utilizan los datos en el modelo; y
modelos de minera de datos, que crean y almacenan los patrones.
Minera de Datos
- Diapositiva 8
- Mientras que una estructura de DM define el dominio de datos,
un modelo de DM define el modo de aplicar los datos de ese dominio
a un problema determinado. Una vez creada una estructura, puede
agregar varios modelos de DM a dicha estructura. Minera de
Datos
- Diapositiva 9
- Es un conjunto de clculos y reglas heursticas que permite crear
un modelo de minera de datos a partir de los datos. Para crear un
modelo, el algoritmo analiza primero los datos proporcionados, en
busca de tipos especficos de patrones o tendencias. El algoritmo
usa los resultados de este anlisis para definir los parmetros
ptimos para la creacin del modelo de minera de datos. A
continuacin, estos parmetros se aplican en todo el conjunto de
datos para extraer patrones procesables y estadsticas detalladas.
Algoritmos de Minera de Datos
- Diapositiva 10
- Analysis Services incluye los siguientes tipos de algoritmos:
Algoritmos de clasificacin, que predicen una o ms variables
discretas, basndose en otros atributos del conjunto de datos.
Algoritmos de regresin, que predicen una o ms variables continuas,
como las prdidas o los beneficios, basndose en otros atributos del
conjunto de datos. Algoritmos de segmentacin, que dividen los datos
en grupos, o clsteres, de elementos que tienen propiedades
similares. Algoritmos de asociacin, que buscan correlaciones entre
diferentes atributos de un conjunto de datos. La aplicacin ms comn
de esta clase de algoritmo es la creacin de reglas de asociacin,
que pueden usarse en un anlisis de la cesta de compra. Algoritmos
de Minera de Datos
- Diapositiva 11
- Analysis Services incluye los siguientes tipos (continuacin):
Algoritmos de anlisis de secuencias, que resumen secuencias o
episodios frecuentes en los datos, como un flujo de rutas web. La
minera de datos le permite generar varios modelos en una nica
estructura de minera de datos, por lo que en una solucin de minera
de datos puede usar un algoritmo de clsteres, un modelo de rboles
de decisin y un modelo de Bayes nave para obtener distintas vistas
de los datos. Tambin puede usar varios algoritmos dentro de una
nica solucin para realizar tareas independientes: por ejemplo,
podra usar la regresin para obtener predicciones financieras, y un
algoritmo de red neuronal para realizar un anlisis de los factores
que influyen en las ventas. Algoritmos de Minera de Datos
- Diapositiva 12
- rboles de decisin de Microsoft Son utilizados principalmente
con propsitos de clasicacin, pero son tambin tiles para descubrir
caractersticas de los datos que no son directamente visibles. Un
rbol de decisin es un modelo predictivo, que permite que las
observaciones acerca de las caractersticas de un elemento conduzcan
a conclusiones acerca de un valor objetivo. (Leonardo Jimnez
Moscovitz - Fundacin Universitaria Konrad Lorenz). Modelos
- Diapositiva 13
- Un rbol de decisin es un modelo de prediccin. Un rbol de
decisin tiene unas entradas las cuales pueden ser un objeto o una
situacin descrita por medio de un conjunto de atributos y a partir
de esto devuelve una respuesta la cual en ltimas es una decisin que
es tomada a partir de las entradas. Los valores que pueden tomar
las entradas y las salidas pueden ser valores discretos o
continuos.discretoscontinuos De forma ms concreta, refirindonos al
mbito empresarial, podemos decir que los rboles de decisin son
diagramas de decisiones secuenciales que nos muestran sus posibles
resultados. stos ayudan a las empresas a determinar cuales son sus
opciones al mostrarles las distintas decisiones y sus resultados
(Wikipedia). Modelos
- Diapositiva 14
- rboles de decisin de Microsoft Para los atributos discretos, el
algoritmo hace predicciones basndose en las relaciones entre las
columnas de entrada de un conjunto de datos. Especficamente, el
algoritmo identifica las columnas de entrada que se correlacionan
con la columna de prediccin. Por ejemplo, en un escenario para
predecir qu clientes van a adquirir probablemente una bicicleta, si
nueve de diez clientes jvenes compran una bicicleta, pero solo lo
hacen dos de diez clientes de edad mayor, el algoritmo infiere que
la edad es un buen elemento de prediccin en la compra de
bicicletas. Modelos
- Diapositiva 15
- rboles de decisin de Microsoft Para los atributos continuos, el
algoritmo usa la regresin lineal para determinar dnde se divide un
rbol de decisin. Si se define ms de una columna como elemento de
prediccin, el algoritmo genera un rbol de decisin independiente
para cada columna de prediccin. Ejemplo Marketing desea identificar
las caractersticas de los clientes antiguos que indicarian si es
probable que realicen alguna compra futura. El DB almacena
informacin demogrfica. Mediante los rboles de decisiones que
analizan esta informacin, Marketing puede generar un modelo que
predice si un cliente va a comprar productos, basndose en el estado
de las columnas conocidas sobre ese cliente, como la demografa o
los patrones de compra anteriores. Modelos
- Diapositiva 16
- Clustering (agrupamiento): Proceso de dividir un conjunto de
datos en grupos mutuamente excluyentes de tal manera que cada
miembro de un grupo est lo "ms cercano" posible a otro, y grupos
diferentes estn lo "ms lejos" posible uno del otro, donde la
distancia est medida con respecto a todas las variables disponibles
(http://www.monografias.com/trabajos/datamining/datamining.shtml).
Modelos
- Diapositiva 17
- El modelo de clsteres de Microsoft es un algoritmo de
segmentacin suministrado por Analysis Services. El algoritmo
utiliza tcnicas iterativas para agrupar los casos de un conjunto de
datos dentro de clsteres que contienen caractersticas similares.
Estas agrupaciones son tiles para la exploracin de datos, la
identificacin de anomalas en los datos y la creacin de
predicciones. Modelos
- Diapositiva 18
- Clustering: Se diferencia de otros modelos de minera de datos,
como el modelo de rboles de decisin, en que no se tiene que
designar una columna de prediccin para generar un modelo de
agrupacin en clsteres. El algoritmo de clsteres entrena el modelo
de forma estricta a partir de las relaciones que existen en los
datos y de los clsteres que identifica el algoritmo. Ejemplo
Considere un grupo de personas que comparten informacin demogrfica
similar y que adquieren productos similares de la empresa. Este
grupo de personas representa un clster de datos. En una base de
datos pueden existir varios clsteres como stos. Mediante la
observacin de las columnas que forman un clster, puede ver con
mayor claridad la forma en que los registros de un conjunto de
datos se relacionan entre s.. Modelos
- Diapositiva 19
- Los tipos de datos indican al motor de minera de datos si los
datos del origen de datos son numricos o de texto y cmo deben
procesarse los datos. Tipos de Datos
- Diapositiva 20
- El tipo de contenido describe el comportamiento del contenido
incluido en la columna. Por ejemplo, si el contenido de una columna
se repite en un intervalo concreto, como los das de la semana,
puede especificar el tipo de contenido de esa columna como cclico.
Los tipos de contenido utilizados son: Discrete El tipo de
contenido discreto indica que la columna contiene un nmero finito
de valores no continuos. Por ejemplo, una columna de gnero es una
columna de atributos discreta muy habitual, en la que los datos
representan un nmero especfico de categoras. Continuo Continuo
indica que la columna contiene valores que representan datos
numricos en una escala que permite valores intermedios. A
diferencia de una columna discreta, que representa datos numerables
y finitos, una columna continua representa medidas escalables;
adems, es posible que los datos contengan un nmero infinito de
valores fraccionarios. Una columna de temperaturas es un ejemplo de
una columna de atributos continua. El tipo de contenido Continuous
es compatible con los siguientes tipos de datos: Date, Double y
Long. Tipos de Contenido
- Diapositiva 21
- (Continuacin) Discretizado La discretizacin es el proceso
mediante el cual los valores de un conjunto de datos continuo se
incluyen en grupos o depsitos para que haya un nmero limitado de
valores posibles. Slo se pueden discretizar los datos numricos. El
tipo de contenido Discretized es compatible con los siguientes
tipos de datos: Date, Double, Long y Text. Clave El tipo de
contenido clave indica que la columna identifica una fila de forma
inequvoca. Normalmente, en una tabla de casos, la columna de clave
es un identificador numrico o de texto. Establezca el tipo de
contenido en key para indicar que la columna no debe utilizarse
para el anlisis, sino para realizar el seguimiento de los
registros. Este tipo de contenido es compatible con los siguientes
tipos de datos: Date, Double, Long y Text. Secuencia de claves El
tipo de contenido secuencia de claves solamente se puede utiliza en
modelos de agrupacin en clsteres de secuencia. Cuando se establece
el tipo de contenido en key sequence, se indica que la columna
contiene valores que representan una secuencia de eventos. Los
valores estn ordenados y no tienen que estar separados por una
distancia equivalente. Este tipo de contenido es compatible con los
siguientes tipos de datos: Double, Long, Text y Date. Tipos de
Contenido
- Diapositiva 22
- (Continuacin) Clave temporal El tipo de contenido clave
temporal solamente se puede utilizar en modelos de serie temporal.
Cuando se establece el tipo de contenido en key time, se indica que
los valores estn ordenados y que representan una escala de tiempo.
Este tipo de contenido es compatible con los siguientes tipos de
datos: Double, Long y Date. Tabla El tipo de contenido tabla indica
que la columna contiene otra tabla de datos, con una o ms columnas
y una o ms filas. El tipo de datos de esta columna siempre es
Table. Cclico El tipo de contenido cclico indica que la columna
contiene valores que representan un conjunto ordenado cclico. Por
ejemplo, los das numerados de la semana es un conjunto ordenado
cclico, ya que el da nmero uno sigue al da nmero siete. Este tipo
de contenido es compatible con todos los tipos de datos. Tipos de
Contenido
- Diapositiva 23
- (Continuacin) Ordenado El tipo de contenido ordenado indica
tambin que la columna contiene valores que definen una secuencia u
orden. Sin embargo, en este tipo de contenido los valores
utilizados para la ordenacin no implican ninguna relacin de
distancia o magnitud entre los valores del conjunto. Por ejemplo,
si una columna de atributos ordenados contiene informacin acerca de
una lista de niveles de especializacin que vayan del uno al cinco,
no existe informacin implcita entre los niveles de especializacin;
un nivel cinco de especializacin no es necesariamente cinco veces
mejor que un nivel uno de especializacin. Las columnas de atributos
ordenados se consideran discretas en trminos de tipo de contenido.
Este tipo de contenido es compatible con todos los tipos de datos
Tipos de Contenido
- Diapositiva 24
- (Continuacin) Classified Adems de los tipos de contenido
anteriores cuyo uso es comn en todos los modelos, para algunos
tipos de datos puede utilizar columnas clasificadas para definir
tipos de contenido. En la lista siguiente se describen los tipos de
contenido que admite Analysis Services para las columnas
clasificadas. PROBABILITY El valor de la columna es la probabilidad
del valor asociado, un nmero entre cero y uno. VARIANCE El valor de
la columna es la varianza del valor asociado. STDEVEl valor de la
columna es la desviacin estndar del valor asociado.
PROBABILITY_VARIANCE El valor de la columna es la varianza de la
probabilidad del valor asociado. PROBABILITY_STDEV El valor de la
columna es la desviacin estndar de la probabilidad del valor
asociado. SUPPORT El valor de la columna es el peso, o factor de
duplicacin del caso, del valor asociado. Tipos de Contenido
- Diapositiva 25
- Algunos algoritmos requieren tipos de datos y de contenido
especficos para que funcionen correctamente. Por ejemplo, el
algoritmo Bayes naive de Microsoft no puede utilizar columnas
continuas como entrada ni predecir valores continuos. Algunos tipos
de contenido, como Key Sequence, slo son utilizados por un
algoritmo concreto. Tipos de Contenido
- Diapositiva 26
- La tabla siguiente proporciona sugerencias para los tipos de
tareas para las que se usa normalmente cada algoritmo. Eleccin de
Algoritmo por tarea
- Diapositiva 27
- La informacin proporcionada por el Visor de rbol de contenido
genrico de Microsoft tambin se encuentra disponible si se consulta
el modelo de minera de datos. Puede crear consultas en el contenido
del modelo de minera de datos usando instrucciones de Extensiones
de minera de datos (DMX). Por ejemplo, en SQL Server Management
Studio, se puede realizar una consulta de contenido ejecutando la
siguiente instruccin de DMX: SELECT * FROM [ ].CONTENT Consultar un
modelo de DM