Upload
cristian-cahua-berrocal
View
218
Download
1
Tags:
Embed Size (px)
Citation preview
Metodologas para el
Data WareHousing
Docente: Arstegui Guilln Oscar.
Mapa del Curso
Inteligencia de Negocios
Metodologa Kimball
Planeamiento del Proyecto
Modelo del Negocio
Modelado Dimensional
Modelado Fsico
ETL
Reportes
Minera de Datos
Tabla de Contenido
AntecedentesMetodologa KimballPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoObjetivos
Presentar los enfoques para el desarrollo de DWH
Presentar la metodologa de Kimball
ANTECEDENTES
Metodologas OLAP / OLTP
DWH no es solamente crear un conjunto de reportes que corren peridicamente.
Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
Sistemas de InformacinData WarehouseLos procesos a automatizar son repetibles y previsibles.Modelado Entidad Relacin.Atencin en una rpida modificacin en lnea de los datos.El uso de los datos es exploratorio y menos predictible.Modelado multidimensional.Enfocado en la carga y la presentacin de los datosConceptos Clave
Datamart. Repositorio de datos especifico.Diseado para responder las preguntas especficas.Diseado para servir las necesidades de unidades de negocio (ventas, comercializacin, operaciones, contabilidad, etc.)Es construido usando modelado dimensionalData warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas.Es una coleccin empresarial de datamarts.Contiene data masiva e integradaInteligencia de Negocios.Reportes y anlisis de datos almacenadas en el DWHData warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.Metodologas para el DWH
Top-DownBottom-UpHybridFederatedProfesionalBill InmonRodolfo KimballMuchos profesionalesDoug HackneynfasisDWHDataMartsDWH y DataMartsIntegrado a entornos BI heterogneosDiseoModelo normalizado basado en la empresaEl modelo dimensional de datamarts, usa esquema de estrellaModelos locales y uno o mas esquemas de estrellaUna arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacinArquitecturaCompuesto de varios niveles de reas de inters y datamarts dependientesrea de inters y datamartsModelo empresarial normalizado de alto nivel;datamarts inciales.Realidad del cambio en organizaciones y sistemasData setDWH datos a nivel atmico;datamarts datos sumarizadosContiene datos atmicos y sumarizadosCarga datamarts con datos atmicos y sumarizados va un rea de inters no persistenteUso de cualquiera significado posible para integrar las necesidades de negocioHistoria de DWH
Inmon.
1990Publica Building the Data Warehouse
Mejora su libro y define una arquitectura como una coleccin de fuentes dispares en almacenes de datos detalles y variantes en el tiempo.
Kimball
1996Publica The Data Warehouse Toolkit
2002Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.
Top-Down
Botton-Up
*
Enfoques acerca del DWH
Bill Inmon Normalizado.Building the Data WarehouseCorporate Information FactoryRalph Kimball -> Dimensional.The Data Warehouse Lifecycle ToolkitThe Data Warehouse ToolkitEnfoques acerca del DWH
Bill Inmon Top-DownEl DWH usa modelo de datos de toda la empresaEl DWH es un depsito de datamartsMs tiempo para implementar.Fracasos por falta de paciencia y de compromisoRalph Kimball -> Bottom-UpInicia con un datamart, luego otros datamarts.El flujo de datos:fuente datamartdatamart DWH
Rpido de implementar, por etapasNecesita asegurar:La consistencia de la metadata.Estar seguro que cada cosa es llamado por su nombre.ENFOQUE INMON
El modelo Inmon
Consiste de todas las bases y sistemas de informacin de una organizacinModelo CIF (Corporate Information Factory)Fabrica de Informacin corporativa.Define el medio ambiente de las bases de datos como:OperacionalDWH atmicoDepartamentalIndividualEl DH es parte de un todo ms grande (CIF)Modelado Inmon
Tres niveles en el modelado de los datos
Entidad RelacinRelaciones entre entidades, atributos y relacionesModelo MID-Level (MID-Level Model o *DIS*)Conjunto de items de datosConjunto de datos por departamentoCuatro construcciones:Agrupamiento de datos primarios
Agrupamiento de datos secundarios
Conectores
Datos de Tipo de
Modelo de datos fsicoOptimizado para mejor rendimiento (de-normalizadoModelado Inmon
Relacin entre los niveles Uno y Dos del modelo de datos de InmonENFOQUE KIMBALL
Enfoque Kimball
El modelo dimensional se inicia con tablas:De hechos De dimensionesLos hechos contienen metricasLas dimensiones contienen atributosPuede contener grupos de datos repetidosLos datos no estn normalizadosAccesible al usuario finalEl ciclo de vida Kimball
El ciclo de vida Kimball
Ilustra el flujo general de implementacin de un DWH.Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.Ciclos de vida KLC, SDLC, y DBLC
Kimball LifeCycle
System Development Life Cycle
Data Base Life Cycle
DB Initial Study
Ejecucin
Operacin
Mantenimiento
DB Design
Comprobacin
Planificacin
Anlisis
Diseo del
Sistema detallado
Ejecucin
Mantenimiento
Ciclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoPlanificacin del programa/proyecto
Visin de programas y proyectos de KimballProyecto, se refiere a una iteracin simple del KLCDesde el lanzamiento hasta el despliegue.
Programa, se refiere a la amplia coordinacin progresiva de recursos, infraestructura, tiempos y comunicacin a travs de mltiples proyectosUn programa contiene proyectos mltiples
En la realidad los programas no necesariamente inician antes del proyecto, aunque debera ser as.Planificacin del programa/proyecto
Planificacin de proyecto.Definir el alcance Entender los requerimientosdel negocio.
Identificar tareasProgramacin de tareasPlanificar el uso de los recursos.Asignar la carga de trabajo a los recursosEl documento final representa un plan del proyecto.Administracin del programa/proyecto
Refuerza el plan del proyecto.Actividades:Monitoreo del estado de los procesos y actividades.Rastreo de problemasDesarrollo de un plan de comunicacin comprensiva que direccione la empresa y las reas de TILnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas (tracks) concurrentes:TecnologaDatosAplicaciones de BIEl flujo de actividad de las lneas, se indican por las flechasLa dependencia entre tareas se indican por el alineamiento vertical de las tareasEjercicio 1
Identifique roles para el equipo de desarrollo de un DWHEjercicio 1
Identifique roles para el equipo de desarrollo de un DWHFront Office: Sponsor y DirectoresEjecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.Lnea regular: Equipo de proyecto principal.Analista del sistema de negocioModelador de datosDBADiseador ETLDesarrollador de aplicaciones para el usuario final.Equipos especiales: Seguridad, CalidadEjercicio 1
Ejercicio 2
Identifique los recursos necesarios para el desarrollo del proyecto.Ejercicio 2
Identifique los recursos necesarios para el desarrollo del proyecto.Los recursos pueden ser:HumanosEquipamientoServicios de tercerosTiempoCiclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoDefinicin de requerimientos del negocio
El xito del proyecto depende de una comprensin slida de las necesidades de negocio.Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseoRequerimientos del Negocio
Requerimientos de uso de informacinTipo de informacin que las personas necesitan.Tipo de anlisis.Requerimiento de datosFuente de datosCalidad de datos y limpieza de datosAlmacenamiento de datosCarga de datosProceso de definicin de requerimientos
Bus Matrix
Relaciona los procesos organizacionales a las entidades u objetos que participan en el proceso.Cada fila es un proceso y cada columna una dimensinPriorizacin de Procesos
Recoleccin de Requerimientos
Quin va ha ir a recoger los requerimientos?.Los usuarios pueden ser clasificados como:Ejecutivos SeniorAdministradores de departamentos claveAnalistas de negocioDBA de sistemas operacionalesPersonal de TILos ejecutivos senior le darn un sentido de direccin y alcance para su almacn de los datos.Ciclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoDiseo de la arquitectura tecnolgica
Marco arquitectural completo del proyectoConsideraciones a tomarse en cuenta:Las necesidades de negocioMedio ambiente tecnolgico actualDireccin tcnica estratgica planeada.Seleccin de producto e instalacin
Basado en la arquitectura tcnica diseada.Evaluacin y seleccin dePlataforma de hardwareDBMS (base de datos)Herramienta ETLHerramientas de consultas (query tools)Herramienta de reportes.Instalacin de productos/componentes/herramientas. Prueba de productos instalados para garantizar la integracin de extremo a extremo con el entorno del DWH.Ciclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoLnea de datos
Diseo del modelo dimensional
Diseo del modelo fsico
ETL
Modelado dimensional
Anlisis de los datos de un proceso de negocio para:identificar la granularidad de las tablas de hechosdimensiones y atributos asociadoshechos numricos.Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente.Mejora el entendimiento y desempeo de consultas al DWLas construcciones primarias son:Tablas de hechosTablas de dimensionesModelado dimensional tabla de hechos
Contiene mtricas derivadas de un proceso de negocio o un evento.Ventas, contabilidad, logstica, etc.El MD debe ser estructurado alrededor de un proceso del negocioSe disea vistas similares y consistentes de los datos para toda la organizacin.La granularidad de la tabla de hechos, debe ser el ms atmico posibleEsto permite mayor flexibilidad y extensibilidad.Modelado dimensional tabla de dimensiones
Contiene la descripcin de atributos y caractersticas asociadas con medidas de eventos tangibles y especficos, tales como clientes, productos, representantes de ventas.Los atributos de dimensin son usados por limitar, agrupar, o rotular una pregunta. Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensin simples.Esquema de estrella
Una tabla de hechosVarias tablas de dimensiones.Ejemplo:Asuma este esquema para una cadena de venta al por menor.El hecho puede ser el ingreso de dinero.Esquema de copo de nieve
Es una variacin del esquema de estrella.Es un esquema ms complejo que el esquema de estrella porque las tablas que describen las dimensiones estn normalizadas.Esquema de copo de nieve
Desventajas:Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco).Normalizar las tablas de dimensin pueda deteriorar la ejecucin de un DWH. Ventajas:Es apropiado si se presenta alguna de las siguientes condiciones:Una dimensin es esparcidaUna dimensin tiene una lista muy larga de atributosEn la prctica, muchos DWH normalizarn algunas dimensiones y otros no (usan una combinacin de copo de nieve y de estrella)Diseo fsico
Preparando el entorno de base de datos.Preparando la seguridad apropiada.Estrategia preliminar de afinamiento (tuning) de indexacin y agregacin.Si son apropiadas las bases de datos OLAP que se disean durante este proceso.ETL Diseo y desarrollo
Es la fase ms importante.Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.Capacidades de sistema ETL:ExtraccinLimpieza y conformidadEntrega y administracinETL
Los datos en bruto son extrados de los sistemas operacionales y transformados en informacin significativa para el negocioLos procesos ETL deben diseados mucho antes que cualquier datos sea extrada de la fuenteSe verifica la calidad de los datos de entrada.Las condiciones de calidad de datos se controlan continuamenteCiclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoAplicacin del BI
Aplicaciones que consultan, analizan y presentan informacin desde el modelo dimensional.Las aplicaciones BI entregan valor al negocio desde la solucin DW/BI.La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones.Diseo de Aplicaciones BI.
Desarrollo de aplicaciones BI.
Aplicacin del BI
Diseo de Aplicaciones BI.Identifica las aplicaciones de BI candidatas y interfaces de navegacin apropiadasOrienta las necesidades de los usuarios.Produce la especificacin de las aplicaciones BIDesarrollo de aplicaciones BI.Configuracin de la metadata del negocio y de la infraestructura de herramientas.Construccin y validacin de aplicaciones BI analticas y operacionales y un portal de navegacin.Ciclo de Vida
Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimientoDespliegue
Si la planificacin se ha ejecutado se puede asegurar:Los resultados de las lneas de tecnologa, datos y aplicacin del BI.Disponibilidad de la infraestructura de capacitacin y apoyo.El despliegue debe ser bien sincronizado.El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentacin, y validacin de datos, no estn listos para la liberacin de produccin.Mantenimiento
Cuando el sistema esta en produccinIncluye:Tareas tcnico operacionales que son necesarias para mantener el sistema operando ptimamente.Monitorio del uso.Tuning del desempeo.Mantenimiento de la tabla de ndices.Backup del sistema.Apoyo permanente, capacitacin y comunicacin con los usuarios finalesCrecimiento
Los DWH tienden a expandirse(si son exitosos)
Es considerado como un signode xito.
Nuevos requerimientos debenser priorizados.
Empezar el ciclo de nuevoConstruir sobre las bases ya establecidas.Enfoque en los nuevos requerimientosPREGUNTAS