CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
On-Line Analytical Processing Introducción
Datawarehouse
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Agenda● Introducción.● Niveles de análisis OLAP● Características del OLAP● Herramientas OLAP● Tipos de Sistemas OLAP● ROLAP y MOLAP
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● On-line Analytical Processing (OLAP) es una
tecnología en el acceso y análisis de datos en línea; en el que se usan herramientas analíticas, que facilitan el análisis de la información del negocio.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● La información se halla organizada en
actividades (hechos), se analiza en perspectiva de sus dimensiones y indicadores (métricas) que permiten la flexibilidad de la ejecución de consultas complejas.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● Permite a los usuarios una fácil y amigable
navegación por la información, obteniendo el nivel de granulidad (detalle) que requiere para la toma de decisiones.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Niveles de análisis OLAP● Los servicios de OLAP proveen de múltiples
niveles de análisis:– Consultas complejas (grandes volumnes).– Comparación de datos (intensivo).– Encontrar patrones.– Análisis de tendencias.– Reportes, etc.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Característica del OLAP● Consolidad: Lainformación se encuentra
agrupada desde toda las áreas de la organización y almacenada en un repositorio central y único.
● Consistente: Todos los usuario tienen la misma versión de los datos.
● Orientada al objetivo: Solo contiene información que permita tomar decisiones.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Característica del OLAP● Histórica: Toda la información de la empresa
esta almacenada como fotografía en el repositorio.
● Solo lectura: El sistema OLAP s para solo consultas.
● Atómica: La información OLAP contiene data sumarizada y resumida.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP– Los servidores OLAP son una tecnología
superior para aplicaciones de inteligencia.– Las aplicaciones OLAP realizan consultas a un
nivel agregado de la información. ● Como totales de ventas por línea de producto,
regióny vendedor.– Las bases de datos OLAP son optimizadas para
el análisis.– Consultas rápidas y consistentes a cualquier
nivel de sumarización de la información.– Las bases de datos OLAP son alimentadas de
distintas fuentes de información.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.
● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPUna consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
medida hecho
Parámetros de la consulta: por categoría de producto y por trimestre
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
“2012”
“Bebidas”Pr
oduc
to
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento de
“Bebidas”, por categoría y trimestre”
Trimestre
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
Presentación tabular (relacional) de los datos seleccionados
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
T4T3T2T1
Zumos
Refrescos
categoría
trimestre Presentación matricial (multidimensional) de los datos seleccionados
Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● La realización de las consultas no es relevante, se puede hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.
● Las herramientas OLAP tienen operadores de refinamiento o manipulación de consultas.
– ROLL– DRILL– SLICE & DICE– PIVOT
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● El carácter agregado de las consultas en el análisis de datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos:
– agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando a los grupos actuales.
– disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPSi se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
“2012”
“Bebidas”
Prod
ucto
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento de “Bebidas”, por categoría,
trimestre y ciudad”
Trimestre
el usuario no necesita diseñar este
nuevo informe
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte
DRILL ACROSS Almacén
(Ciudad)
Informe mas detallado
¡ la operación de DRILL se realiza sobre el informe original !
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPCategoría Trimestre VentasCiudad
T2
T1
400000
T2 700000
Refrescos T1
Arequipa
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Trujillo
Refrescos
Refrescos
Refrescos
Arequipa
Trujillo
1000000
1000000
* Se asumen dos ciudades: Arquipa y Trujillo.
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-ciudad) para las ciudades de Arequipa y Trujillo.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
T1 T2 T3 T4
Arequipa
Zum
osR
efr e
sco s
1000000
300000
400000
500000
100000
200000
500000
2000000
Presentación matricial de los datos seleccionados.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original:
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por
categorías” ?
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
“2012”
“Bebidas”
Prod
ucto
Alm
acén
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento de “Bebidas”, por categorías”
Trimestre
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
ROLL ACROSS Tiempo
(Trimestre)
Informe mas agregado
trimestretrimestre categoríacategoría importeimporte
¡ la operación de ROLL se realiza sobre el informe original !
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
Categoría Ventas
Refrescos 8000000
Zumos 12900000
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● Las operaciones de agregación (ROLL) y disgregación (DRILL) se pueden hacer sobre:
– atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP
● departamento – categoría - producto (Producto)● año - trimestre – mes - día (Tiempo)
– sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS
● Producto – Almacén -Tiempo
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte
DRILL DOWN Tiempo
(mes)¡ la operación de DRILL se realiza sobre el informe original !
“Importe total de ve
ntas en este
año, del departamento de
“Bebidas”, por ca
tegoría y mes”
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPCategoría Trimestre VentasMes
T1
T1
500000
Refrescos T1
Enero
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categoría-trimestre) de la consulta original se disgrega en tres nuevos grupos (categoría-trimestre-mes).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● Otras operaciones de OLAP:– SLICE & DICE: seleccionar y proyectar datos
en el informe.– PIVOT: reorientación de las dimensiones en el
informe.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysClothingCosmetics
Sto
re 1 $5,2
$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Sto
re 2 $5,6
$1,4$2,6$1,1
Productos Q1 Q2
$8,9$0,75$4,6$1,5
$7,2$0,4$4,6$0,5
PIVOT
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPVentas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysQ
1 $5,2$1,9
Productos Store1
ElectronicsToysQ
2 $8,9$0,75
SLICE & DICE
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAPLas herramientas de OLAP se caracterizan* por:
ofrecer una visión multidimensional de los datos (matricial). no imponer restricciones sobre el número de dimensiones. ofrecer simetría para las dimensiones. permitir definir de forma flexible (sin limitaciones) sobre las
dimensiones: restricciones, agregaciones y jerarquías entre ellas.
ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.
ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd para almacen de datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSETipos de Sistemas OLAP
● El almacén de datos y las herramientas OLAP se pueden basar físicamente en varias organizaciones:
– Sistemas ROLAP● Se implementan sobre tecnología relacional,
pero disponen de algunas facilidades para mejorar el rendimiento (índices de mapas de bits, índices de JOIN).
● El motor OLAP se encuentra en un servidor dedicado.
● Permite el análisis de una enorme cantidad de datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSETipos de Sistemas OLAP
– Sistemas MOLAP● Disponen de estructuras de almacenamiento
específicas (arrays) y técnicas de compactación de datos que favorecen el rendimiento del almacén.
– Sistemas HOLAP● Sistemas híbridos entre ambos.● Almacena algunos datos en un motor relacional
y otros en una base de datos multidimensional.
– Sistemas DOLAP o Desktop OLAP ● OLAP de escritorio.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAP
● Sistemas ROLAP:– El almacén de datos se construye sobre un
SGBD Relacional.– Los fabricantes de SGBD relacionales ofrecen
extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAP
● Sistemas ROLAP:– Extensiones de los SGBD relacionales:– índices de mapa de bits– índices de JOIN– técnicas de particionamiento de los datos– optimizadores de consultas– extensiones del SQL (operador CUBE, roll-up)
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAP
Sistemas MOLAP.
Sistema de propósito específico:
estructuras de datos (arrays)
técnicas de compactación.
El objetivo de los sistemas MOLAP es almacenar físicamente los datos en estructuras multidimensionales de forma que la representación externa y la representación interna coincidan.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAP
Warehouse
ServidorMOLAP
– El servidor MOLAP construye y almacena datos en estructuras multidimensionales.
– La herramienta de OLAP presenta estas estructuras multidimensionales.
Herramienta
OLAP
Estructuras multidimensionales
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAPMOLAP:– Datos
• Arrays• Extraídos del almacén de datos
– almacenamiento y procesos eficientes
– la complejidad de la BD se oculta a los usuarios
– el análisis se hace sobre datos agregados y métricas o indicadores precalculados. Warehouse
ServidorMOLAP
Herramienta
OLAP
Estructuras multidimensionales
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAP
HerramientaOLAP
HerramientaOLAP
Servidor Relacional
Desktop
Servidor Multidimensional
Warehouse
MOLAPROLAP
Cl ie
nte
Serv
ido r
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEROLAP y MOLAPROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
pueden aprovechar la tecnología relacional. pueden utilizarse sistemas relacionales genéricos (más baratos
o incluso gratuitos).
el diseño lógico corresponde al físico si se utiliza el diseño de Kimball.
MOLAP:
generalmente más eficientes que los ROLAP.
el coste de los cambios en la visión de los datos.
la construcción de las estructuras multidimensionales.