59
Metodologías para el Data WareHousing Docente: Aréstegui Guillén Oscar.

Sem03 - Metodologías Para El Data WareHousing

Embed Size (px)

Citation preview

  • Metodologas para el
    Data WareHousing

    Docente: Arstegui Guilln Oscar.

  • Mapa del Curso

    Inteligencia de Negocios

    Metodologa Kimball

    Planeamiento del Proyecto

    Modelo del Negocio

    Modelado Dimensional

    Modelado Fsico

    ETL

    Reportes

    Minera de Datos

  • Tabla de Contenido

    AntecedentesMetodologa KimballPlanificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Objetivos

    Presentar los enfoques para el desarrollo de DWH

    Presentar la metodologa de Kimball

  • ANTECEDENTES

  • Metodologas OLAP / OLTP

    DWH no es solamente crear un conjunto de reportes que corren peridicamente.

    Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.

    Sistemas de InformacinData WarehouseLos procesos a automatizar son repetibles y previsibles.Modelado Entidad Relacin.Atencin en una rpida modificacin en lnea de los datos.El uso de los datos es exploratorio y menos predictible.Modelado multidimensional.Enfocado en la carga y la presentacin de los datos
  • Conceptos Clave

    Datamart. Repositorio de datos especifico.Diseado para responder las preguntas especficas.Diseado para servir las necesidades de unidades de negocio (ventas, comercializacin, operaciones, contabilidad, etc.)Es construido usando modelado dimensionalData warehouse. Repositorio de datos organizacional Almacena datos de toda la empresa y de todas las reas.Es una coleccin empresarial de datamarts.Contiene data masiva e integradaInteligencia de Negocios.Reportes y anlisis de datos almacenadas en el DWHData warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.
  • Metodologas para el DWH

    Top-DownBottom-UpHybridFederatedProfesionalBill InmonRodolfo KimballMuchos profesionalesDoug HackneynfasisDWHDataMartsDWH y DataMartsIntegrado a entornos BI heterogneosDiseoModelo normalizado basado en la empresaEl modelo dimensional de datamarts, usa esquema de estrellaModelos locales y uno o mas esquemas de estrellaUna arquitectura de arquitecturas; comparte dimensiones, hechos, reglas, definiciones a travs de la organizacinArquitecturaCompuesto de varios niveles de reas de inters y datamarts dependientesrea de inters y datamartsModelo empresarial normalizado de alto nivel;datamarts inciales.Realidad del cambio en organizaciones y sistemasData setDWH datos a nivel atmico;datamarts datos sumarizadosContiene datos atmicos y sumarizadosCarga datamarts con datos atmicos y sumarizados va un rea de inters no persistenteUso de cualquiera significado posible para integrar las necesidades de negocio
  • Historia de DWH

    Inmon.

    1990Publica Building the Data Warehouse

    Mejora su libro y define una arquitectura como una coleccin de fuentes dispares en almacenes de datos detalles y variantes en el tiempo.

    Kimball

    1996Publica The Data Warehouse Toolkit

    2002Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.

    Top-Down

    Botton-Up

    *

  • Enfoques acerca del DWH

    Bill Inmon Normalizado.Building the Data WarehouseCorporate Information FactoryRalph Kimball -> Dimensional.The Data Warehouse Lifecycle ToolkitThe Data Warehouse Toolkit
  • Enfoques acerca del DWH

    Bill Inmon Top-DownEl DWH usa modelo de datos de toda la empresaEl DWH es un depsito de datamartsMs tiempo para implementar.Fracasos por falta de paciencia y de compromisoRalph Kimball -> Bottom-UpInicia con un datamart, luego otros datamarts.El flujo de datos:fuente datamart

    datamart DWH

    Rpido de implementar, por etapasNecesita asegurar:La consistencia de la metadata.Estar seguro que cada cosa es llamado por su nombre.
  • ENFOQUE INMON

  • El modelo Inmon

    Consiste de todas las bases y sistemas de informacin de una organizacinModelo CIF (Corporate Information Factory)Fabrica de Informacin corporativa.Define el medio ambiente de las bases de datos como:OperacionalDWH atmicoDepartamentalIndividualEl DH es parte de un todo ms grande (CIF)
  • Modelado Inmon

    Tres niveles en el modelado de los datos

    Entidad RelacinRelaciones entre entidades, atributos y relacionesModelo MID-Level (MID-Level Model o *DIS*)Conjunto de items de datosConjunto de datos por departamentoCuatro construcciones:

    Agrupamiento de datos primarios

    Agrupamiento de datos secundarios

    Conectores

    Datos de Tipo de

    Modelo de datos fsicoOptimizado para mejor rendimiento (de-normalizado
  • Modelado Inmon

    Relacin entre los niveles Uno y Dos del modelo de datos de Inmon
  • ENFOQUE KIMBALL

  • Enfoque Kimball

    El modelo dimensional se inicia con tablas:De hechos De dimensionesLos hechos contienen metricasLas dimensiones contienen atributosPuede contener grupos de datos repetidosLos datos no estn normalizadosAccesible al usuario final
  • El ciclo de vida Kimball

  • El ciclo de vida Kimball

    Ilustra el flujo general de implementacin de un DWH.Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente.Muchas necesidades deben ser acomodadas para lograr nica necesidad de la organizacin.No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.
  • Ciclos de vida KLC, SDLC, y DBLC

    Kimball LifeCycle

    System Development Life Cycle

    Data Base Life Cycle

    DB Initial Study

    Ejecucin

    Operacin

    Mantenimiento

    DB Design

    Comprobacin

    Planificacin

    Anlisis

    Diseo del

    Sistema detallado

    Ejecucin

    Mantenimiento

  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Planificacin del programa/proyecto

    Visin de programas y proyectos de KimballProyecto, se refiere a una iteracin simple del KLC

    Desde el lanzamiento hasta el despliegue.

    Programa, se refiere a la amplia coordinacin progresiva de recursos, infraestructura, tiempos y comunicacin a travs de mltiples proyectos

    Un programa contiene proyectos mltiples

    En la realidad los programas no necesariamente inician antes del proyecto, aunque debera ser as.
  • Planificacin del programa/proyecto

    Planificacin de proyecto.Definir el alcance Entender los requerimientos

    del negocio.

    Identificar tareasProgramacin de tareasPlanificar el uso de los recursos.Asignar la carga de trabajo a los recursosEl documento final representa un plan del proyecto.
  • Administracin del programa/proyecto

    Refuerza el plan del proyecto.Actividades:Monitoreo del estado de los procesos y actividades.Rastreo de problemasDesarrollo de un plan de comunicacin comprensiva que direccione la empresa y las reas de TI
  • Lnea de desarrollo

    Luego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas (tracks) concurrentes:TecnologaDatosAplicaciones de BIEl flujo de actividad de las lneas, se indican por las flechasLa dependencia entre tareas se indican por el alineamiento vertical de las tareas
  • Ejercicio 1

    Identifique roles para el equipo de desarrollo de un DWH
  • Ejercicio 1

    Identifique roles para el equipo de desarrollo de un DWHFront Office: Sponsor y DirectoresEjecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.Lnea regular: Equipo de proyecto principal.Analista del sistema de negocioModelador de datosDBADiseador ETLDesarrollador de aplicaciones para el usuario final.Equipos especiales: Seguridad, Calidad
  • Ejercicio 1

  • Ejercicio 2

    Identifique los recursos necesarios para el desarrollo del proyecto.
  • Ejercicio 2

    Identifique los recursos necesarios para el desarrollo del proyecto.Los recursos pueden ser:HumanosEquipamientoServicios de tercerosTiempo
  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Definicin de requerimientos del negocio

    El xito del proyecto depende de una comprensin slida de las necesidades de negocio.Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseo
  • Requerimientos del Negocio

    Requerimientos de uso de informacinTipo de informacin que las personas necesitan.Tipo de anlisis.Requerimiento de datosFuente de datosCalidad de datos y limpieza de datosAlmacenamiento de datosCarga de datos
  • Proceso de definicin de requerimientos

  • Bus Matrix

    Relaciona los procesos organizacionales a las entidades u objetos que participan en el proceso.Cada fila es un proceso y cada columna una dimensin
  • Priorizacin de Procesos

  • Recoleccin de Requerimientos

    Quin va ha ir a recoger los requerimientos?.Los usuarios pueden ser clasificados como:Ejecutivos SeniorAdministradores de departamentos claveAnalistas de negocioDBA de sistemas operacionalesPersonal de TILos ejecutivos senior le darn un sentido de direccin y alcance para su almacn de los datos.
  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Diseo de la arquitectura tecnolgica

    Marco arquitectural completo del proyectoConsideraciones a tomarse en cuenta:Las necesidades de negocioMedio ambiente tecnolgico actualDireccin tcnica estratgica planeada.
  • Seleccin de producto e instalacin

    Basado en la arquitectura tcnica diseada.Evaluacin y seleccin dePlataforma de hardwareDBMS (base de datos)Herramienta ETLHerramientas de consultas (query tools)Herramienta de reportes.Instalacin de productos/componentes/herramientas. Prueba de productos instalados para garantizar la integracin de extremo a extremo con el entorno del DWH.
  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Lnea de datos

    Diseo del modelo dimensional

    Diseo del modelo fsico

    ETL

  • Modelado dimensional

    Anlisis de los datos de un proceso de negocio para:identificar la granularidad de las tablas de hechosdimensiones y atributos asociadoshechos numricos.Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente.Mejora el entendimiento y desempeo de consultas al DWLas construcciones primarias son:Tablas de hechosTablas de dimensiones
  • Modelado dimensional tabla de hechos

    Contiene mtricas derivadas de un proceso de negocio o un evento.Ventas, contabilidad, logstica, etc.El MD debe ser estructurado alrededor de un proceso del negocioSe disea vistas similares y consistentes de los datos para toda la organizacin.La granularidad de la tabla de hechos, debe ser el ms atmico posibleEsto permite mayor flexibilidad y extensibilidad.
  • Modelado dimensional tabla de dimensiones

    Contiene la descripcin de atributos y caractersticas asociadas con medidas de eventos tangibles y especficos, tales como clientes, productos, representantes de ventas.Los atributos de dimensin son usados por limitar, agrupar, o rotular una pregunta. Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensin simples.
  • Esquema de estrella

    Una tabla de hechosVarias tablas de dimensiones.Ejemplo:Asuma este esquema para una cadena de venta al por menor.El hecho puede ser el ingreso de dinero.
  • Esquema de copo de nieve

    Es una variacin del esquema de estrella.Es un esquema ms complejo que el esquema de estrella porque las tablas que describen las dimensiones estn normalizadas.
  • Esquema de copo de nieve

    Desventajas:Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco).Normalizar las tablas de dimensin pueda deteriorar la ejecucin de un DWH. Ventajas:Es apropiado si se presenta alguna de las siguientes condiciones:Una dimensin es esparcidaUna dimensin tiene una lista muy larga de atributosEn la prctica, muchos DWH normalizarn algunas dimensiones y otros no (usan una combinacin de copo de nieve y de estrella)
  • Diseo fsico

    Preparando el entorno de base de datos.Preparando la seguridad apropiada.Estrategia preliminar de afinamiento (tuning) de indexacin y agregacin.Si son apropiadas las bases de datos OLAP que se disean durante este proceso.
  • ETL Diseo y desarrollo

    Es la fase ms importante.Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.Capacidades de sistema ETL:ExtraccinLimpieza y conformidadEntrega y administracin
  • ETL

    Los datos en bruto son extrados de los sistemas operacionales y transformados en informacin significativa para el negocioLos procesos ETL deben diseados mucho antes que cualquier datos sea extrada de la fuenteSe verifica la calidad de los datos de entrada.Las condiciones de calidad de datos se controlan continuamente
  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Aplicacin del BI

    Aplicaciones que consultan, analizan y presentan informacin desde el modelo dimensional.Las aplicaciones BI entregan valor al negocio desde la solucin DW/BI.La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones.

    Diseo de Aplicaciones BI.

    Desarrollo de aplicaciones BI.

  • Aplicacin del BI

    Diseo de Aplicaciones BI.Identifica las aplicaciones de BI candidatas y interfaces de navegacin apropiadasOrienta las necesidades de los usuarios.Produce la especificacin de las aplicaciones BIDesarrollo de aplicaciones BI.Configuracin de la metadata del negocio y de la infraestructura de herramientas.Construccin y validacin de aplicaciones BI analticas y operacionales y un portal de navegacin.
  • Ciclo de Vida

    Planificacin del proyectoRequerimientos del NegocioLnea tecnolgicaArquitectura tecnolgicaSeleccin e instalacin de productosLnea de datosModelo dimensionalModelo fsicoETLLnea de aplicacin del BIDiseo del BIDesarrollo del BIDespliegueDespliegueCrecimientoMantenimiento
  • Despliegue

    Si la planificacin se ha ejecutado se puede asegurar:Los resultados de las lneas de tecnologa, datos y aplicacin del BI.Disponibilidad de la infraestructura de capacitacin y apoyo.El despliegue debe ser bien sincronizado.El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentacin, y validacin de datos, no estn listos para la liberacin de produccin.
  • Mantenimiento

    Cuando el sistema esta en produccinIncluye:Tareas tcnico operacionales que son necesarias para mantener el sistema operando ptimamente.Monitorio del uso.Tuning del desempeo.Mantenimiento de la tabla de ndices.Backup del sistema.Apoyo permanente, capacitacin y comunicacin con los usuarios finales
  • Crecimiento

    Los DWH tienden a expandirse

    (si son exitosos)

    Es considerado como un signo

    de xito.

    Nuevos requerimientos deben

    ser priorizados.

    Empezar el ciclo de nuevoConstruir sobre las bases ya establecidas.Enfoque en los nuevos requerimientos
  • PREGUNTAS