13
DATA WAREHOUSE Luis Saravia Marco Albornoz [email protected] [email protected] Escuela de Ingeniería Comercial Escuela de Ingeniería Comercial Universidad de Valparaíso Universidad de Valparaíso Pasaje La Paz 1301, Viña del Mar Pasaje La Paz 1301, Viña del Mar CHILE CHILE Resumen Desde los inicios de la informática las empresas han usado los datos recopilados para lograr información útil para la toma de decisiones estratégicas. La gestión administrativa reconoce que su eficiencia está ligada al tratamiento y uso de la información que existe dentro de la organización. Este artículo permite orientar acerca del Data Warehouse (Almacén de datos), sus orígenes como herramienta estructurada de transacción de datos, su uso orientado a la consulta y análisis mediante el uso de una metodología de elaboración y operación. Se pretende elaborar una propuesta con motivo de mejorar la entrada de información, a través de mejoras en la gestión y manipulación de datos con la intención de que la información que resulta del empleo de almacenes de datos sea óptima y represente una ventaja competitiva para la empresa. Palabras Claves: Transacción de datos, Información de Calidad, Almacén de Datos.

Data Warehouse

Embed Size (px)

DESCRIPTION

Data Warehouse

Citation preview

DATA WAREHOUSING

DATA WAREHOUSE

Luis Saravia

Marco Albornoz [email protected]

[email protected] Escuela de Ingeniera Comercial

Escuela de Ingeniera Comercial

Universidad de Valparaso

Universidad de Valparaso

Pasaje La Paz 1301, Via del Mar

Pasaje La Paz 1301, Via del Mar CHILE

CHILE

Resumen

Desde los inicios de la informtica las empresas han usado los datos recopilados para lograr informacin til para la toma de decisiones estratgicas. La gestin administrativa reconoce que su eficiencia est ligada al tratamiento y uso de la informacin que existe dentro de la organizacin. Este artculo permite orientar acerca del Data Warehouse (Almacn de datos), sus orgenes como herramienta estructurada de transaccin de datos, su uso orientado a la consulta y anlisis mediante el uso de una metodologa de elaboracin y operacin. Se pretende elaborar una propuesta con motivo de mejorar la entrada de informacin, a travs de mejoras en la gestin y manipulacin de datos con la intencin de que la informacin que resulta del empleo de almacenes de datos sea ptima y represente una ventaja competitiva para la empresa.

Palabras Claves: Transaccin de datos, Informacin de Calidad, Almacn de Datos.Abstract

Since the inception of computer companies have used the data collected to gain information useful in making strategic decisions. The administrative management recognizes that its efficiency is related to treatment and use of information that exists within the organization. This article allows for guidance on the Data Warehouse (Data Warehouse) as a tool originally structured data transaction, the targeted use of consultation and analysis using a methodology to develop and operate. The aim is to develop a proposal on the occasion of improving input, through improvements in management and data manipulation with the intent that the information resulting from the use of data warehouses is optimal and represents a competitive advantage for the company .Key words: Transaction data, Information Quality, Data Warehouse1 Introduccin.

Una de las prioridades de toda organizacin hoy en da, es contar con informacin oportuna, veraz y disponible que permita a la alta direccin tomar decisiones adecuadas en el momento preciso. Por ello ha adquirido relevancia el trmino Business Intelligence, un conjunto de tecnologas, procesos y modelos que habilita a las empresas a que esto se logre. Dentro de estas nuevas tecnologas se encuentra el Data Warehouse, este es el centro de consolidacin de informacin de las empresas. Su funcin es soportar el procesamiento informtico al proveer una plataforma slida a partir de los datos histricos de la organizacin. Este sistema de procesos, transforma, consolida, integra y depura la informacin alimentada que la empresa genera en todos los mbitos de su actividad diaria de negocios (compras, ventas, produccin), para luego almacenarlos en un solo destino de base de datos para la toma de decisiones de tipo tctico y estratgico. El mtodo de tratamiento de informacin de los data warehouse destaca por su capacidad de ordenar y clasificar la informacin, aunque las fuentes de sta no contengan la misma configuracin entre ellas. Usualmente se confunde un data warehouse con bases de datos operacionales, aunque el nivel de complejidad en el tratamiento de informacin es muy diferente.

Base de Datos OperacionalData Warehouse.

Datos Operacionales Datos del Negocio para la Informacin.

Orientado a las AplicacionesOrientado a la toma de decisiones.

Refleja acontecer actualRefleja acontecer actual ms histrico.

Detallada.Conforme a requerimientos del usuario.

Cambia continuamente.Estable.

La data warehouse se caracteriza por ser:

IntegradoLa estructura de los datos almacenados en el data warehouse debe ser consistente, las inconsistencias de las bases proveedoras de informacin deben ser eliminadas. El detalle con que ser anexada la informacin depender de los requerimientos del usuario.TemticoLos datos integrados deben ser solamente los estrictamente tiles. Estos deben ser normalizados para evitar ambigedades, as como claros para facilitar el entendimiento por parte de los usuarios.

HistricoLos datos histricos son tremendamente tiles para la elaboracin de un data warehouse, este puede servir por ejemplo para el anlisis de tendencias, proyecciones y comparaciones.

No voltilLa informacin ingresada a un data warehouse alimenta la base de datos, pero no reemplaza la informacin agregada anteriormente. Esta informacin puede ser leda, pero no modificada.

Los principales aportes de la data warehouse a la empresa son los siguientes: Generar informacin para la toma de decisiones tcticas y estratgicas en base a informacin de tipo integrada y global.

La informacin generada registra hechos histricos, gracias a lo cual se puede tomar correcciones, as como predecir hechos cclicos.

Facilita el anlisis posterior de informacin mediante la aplicacin de tcnicas estadsticas y de simulacin.

Permite a la empresa reaccionar rpidamente ante los cambios del mercado. Simplifica la implementacin de sistemas de gestin integral de la relacin con el cliente.

Mejora la calidad de la informacin proporcionada.

Otorga competitividad en el mercado.

2 Antecedentes.El trmino data warehouse fue creado por Hill Inmon (1945). Master en ciencias de la informtica, vicepresidente de Prisma Soluciones. Empresa dedicada a proveer de soluciones informticas a empresas. Segn l "En un mercado en el que la competitividad es un elemento determinante, la habilidad de comprender y analizar correctamente los datos, convirtindolos en informacin, es un factor determinante para el xito de las compaas. El data warehouse se afianza como un instrumento clave para garantizar la disponibilidad de la informacin con un mnimo consumo de tiempo, manipulacin y proceso y con la certeza de la veracidad del dato. De esta forma, el proceso de la informacin se realiza de una manera creble y eficiente".

3 Propuesta.

Partiendo de la base que no solamente el Data Warehouse es utilizado por instituciones financieras sino que hoy en da se estn aplicando fuertemente a la industria del comercio al detalle, en donde la mayora de las cadenas comerciales cuentan con un proyecto de este tipo dentro de sus empresas. Nuestro aporte est enfocado en:

En qu beneficia la Data Warehouse a la industria del Retail?

El uso de herramientas que permitan lograr una ventaja competitiva es muy importante,y las grandes cadenas comerciales se han involucrado mucho ms con la tecnologa que las pequeas y medianas empresas.

Es fcil entender por qu, la disponibilidad de recursos para invertir es muy diferente entre unas y otras. Sin embargo, cada uno de los comercios a detalle se ha preocupado por adquirir tecnologa de acuerdo a sus posibilidades, algunas con una simple computadora, y otras ms con sistemas de informacin muy sofisticados.

Las que se han preocupado por incluir almacenes de datos dentro de sus proyectos, son aquellas que ya cuentan normalmente con un sistema ERP o sistemas independientes que estn de alguna manera comunicndose y compartiendo una base de datos central con suficiente informacin.

El implementar una herramienta de este tipo, en una empresa con poca cantidad de datos y poco estructurada, sera un gran desperdicio de dinero. Una implantacin exitosa necesita que los 3 principales actores en el proyecto estn alineados y avanzando a la par. Estos tres actores son: la herramienta tecnolgica, los procesos, y la administracin del cambio, si uno de los 3 no funciona, ser muy difcil que se tenga una buena implantacin.

Ahora bien, una empresa que considere que tiene una buena calidad en sus sistemas y datos puede pensar en la implementacin de un Data Warehouse. Cabe sealar que no ser una tarea sencilla.Normalmente estos proyectos son largos, caros y no se obtienen resultados inmediatos. Se necesita mucho anlisis y una buena educacin a los usuarios, que finalmente son quieres explotarn la informacin para tomar mejores decisiones.La implantacin de un Data Warehouse es un proceso que conforma un proceso evolutivo mediante el uso de una metodologa definida con un sistema de controles sucesivos. Se debe mencionar que esta implantacin no se puede comprar, sino que se construye.El desarrollo incremental del Data Warehouse est basado en cinco fases:

Definicin de los objetivos

a) Definicin de los requerimientos de informacin:Tal como sucede en todo tipo de proyectos, sobre todo si involucran tcnicas novedosas como son las relativas al Data Warehouse, es analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.

b) Diseo y modelizacin:Los requerimientos de informacin identificados durante la anterior fase proporcionarn las bases para realizar el diseo y la modelizacin del Data Warehouse. En esta fase se identificarn las fuentes de los datos (sistema operacional, fuentes externas) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lgico de datos del Data Warehouse. Este modelo estar formado por entidades y relaciones que permitirn resolver las necesidades de negocio de la organizacin. El modelo lgico se traducir posteriormente en el modelo fsico de datos que se almacenar en el Data Warehouse y que definir la arquitectura de almacenamiento del Data Warehouse adaptndose al tipo de explotacin que se realice del mismo. La mayor parte de estas definiciones de los datos del Data Warehouse estarn almacenadas en los metadatos y formarn parte del mismo.

c) Implementacin:La implantacin de un Data Warehouse lleva implcitos la extraccin de datos del sistema operacional, la carga debe ser planificada con una periodicidad que se adaptar a las necesidades detectadas durante las fases de diseo del nuevo sistema y la explotacin del data warehouse mediante diversas tcnicas dependiendo del tipo de aplicacin que se de a los datos:

On-line analytical processing (OLAP). Query & Reporting.

Executive Information System (EIS) informacin de gestin.

Decision Support Systems (DSS)

Visualizacin de la informacin

Minera de Datos.La informacin necesaria para mantener el control sobre los datos se almacena en los metadatos tcnicos (cuando describen las caractersticas fsicas de los datos) y de negocio (cuando describen cmo se usan esos datos). Dichos metadatos debern ser accesibles por los usuarios finales que permitirn en todo momento tanto al usuario, como al administrador que deber adems tener la facultad de modificarlos segn varen las necesidades de informacin. Con la finalizacin de esta fase se obtendr un data warehouse disponible para su uso por parte de los usuarios finales y el departamento de informtica.

d) Revisin:La construccin del data warehouse no finaliza con la implantacin del mismo, sino que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores. Despus de implantarse, debera realizarse una revisin del data warehouse planteando preguntas que permitan, despus de los seis o nueve meses posteriores a su puesta en marcha, definir cules seran los aspectos a mejorar o potenciar en funcin de la utilizacin que se haga del nuevo sistema.

e) Diseo de la estructura de cursos de formacin:Con la informacin obtenida de reuniones con los distintos usuarios se disearn una serie de cursos a medida, que tendrn como objetivo el proporcionar la formacin estadstica necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicacin. Se realizarn prcticas sobre el desarrollo realizado, las cuales permitirn fijar los conceptos adquiridos y servirn como formacin a los usuarios.

4 Aplicacin.Algunas reas en las cuales se aplican y utilizan tcnicas sobre un Data Warehouse son las siguientes:

Marketing.

Anlisis en riegos financieros.

Anlisis en riegos de crditos.

Control de gestin. Sistemas de presupuestos. Anlisis de desviaciones. Logsticas. Mejora de relacin con proveedores. Anlisis en reas de recursos humanos.Algunas de las ventajas en la aplicacin de una data warehouse son:

Los Procesos de Toma de Decisiones pueden ser mejorados mediante la disponibilidad de informacin. Las decisiones empresariales se hacen ms rpidas por gente ms informada.

Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por informacin que finalmente es incorrecta o no encontrada, es eliminada.

Conexiones y dependencias entre procesos empresariales se vuelven ms claros y entendibles. Secuencias de procesos empresariales pueden ser optimizados para ganar eficiencia y reducir costos.

Procesos y datos de los sistemas operacionales, as como los datos en el DW, son usados y examinados. Cuando los datos son organizados y estructurados para tener significado empresarial, la gente aprende mucho de los sistemas de informacin. Pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible entonces mejorar la calidad de nuevas aplicaciones.

Para la aplicacin de un Data Warehouse se necesita entre otras cosas contar con una base de datos central. Para los administradores de bases de datos resulta complicado diagnosticar y resolver problemas de rendimiento de dificultad tcnica con herramientas nativas o herramientas independientes de otros fabricantes. A veces se necesitan hasta tres o cuatro utilidades nativas distintas para analizar cantidades enormes de datos. Un Data Warehouse garantiza que la informacin que manejen los usuarios de negocio sea completa, precisa y est accesible para quien lo necesite y en el momento y formato requerido. Como consecuencia, mejora tambin el proceso de toma de decisiones, gracias a que la informacin abundante y fiable acelera las decisiones y evita un consumo de tiempo excesivo en las consultas. Por otro lado, tambin se agilizan todo tipo de procesos empresariales al compartir e integrar las fuentes de informacin, mejora el servicio al cliente y facilita el rediseo de procesos de negocio para adaptarse a nuevas circunstancias.

Para que un proyecto funcione la empresa debe asumir una serie de retos. El principal reto consiste en que valoren este tipo de proyectos en su justa medida, ya que supone la implicacin al mximo nivel directivo; es decir, no supone simplemente el despliegue de diferentes bases de datos departamentales o data marts e intentar interconectarlas de la forma ms viable posible. Supone la democratizacin de la informacin en la empresa, obviamente con mximos niveles de seguridad y sistemas de acceso establecidos, pero para que cualquier usuario corporativo pueda conseguir la informacin precisa y concerniente a su trabajo desde un nico repositorio de datos. 5 Conclusin.

El concepto de data warehouse est teniendo una gran aplicacin en la actualidad para el desarrollo de las empresas, como almacn de datos. Sus objetivos incluyen la reduccin de los costos de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre aos, ms que sobre meses de informacin. Para disear una buena arquitectura de data warehouse es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Adems, hacer un buen diseo del rea de transformacin de datos, cules son las transformaciones que se van a realizar y cmo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.

A su vez, el uso de data warehouse es una herramienta tecnolgica, siendo una poderosa estrategia para administrar cualquier tipo de empresa y organizaciones. Sin embargo el mantenimiento de un sistema data warehouse es algo complejo, requiere de recursos monetarios y una estrategia planificada.

Uno de los principales factores de riesgo con los que se topa una implantacin de un data warehouse es la calidad de la informacin. Es un factor fundamental, ya que si contamos con datos deficientes, las decisiones que se puedan tomar en base a esa informacin no sern las ms acertadas. Se debe usar en organizaciones donde se tomen decisiones basadas en la informacin. Data Warehouse no es un producto, envuelve muchas tecnologas y herramientas.

Finalmente podemos decir que la necesidad de informacin en las diferentes actividades y en los distintos niveles de direccin en la organizacin son diferentes. No siempre la informacin en tiempo real ni el detalle es la requerida. A pesar de que nos hemos referido a una tecnologa especial, con mtodos de implementacin y herramientas especializadas, la filosofa del manejo de la informacin, en sistemas de menor escala puede dejar grandes enseanzas y rutas para integrar y procesar datos desde diferentes orgenes.6 Bibliografa

Anlisis de las necesidades del comprador de un Data Warehouse [en linea], [fecha de consulta: 25 Junio 2010] disponible en: http://www.dataprix.com/analisis-necesidades-comprador-dwhBarreto, Karla, Implementacin incremental para data Warehouse [en linea], [fecha de consulta: 25 Junio 2010] http://www.gestiopolis.com/canales6/ger/data-warehouse.htmGanczarski, Joe. Data Warehouse Implementations: Critical Implementation Factors Study. VDM Verlag, 2009, [fecha de consulta: 25 Junio 2010] disponible en: .http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos.Gutierrez, Damian, Maestra en Administracin de Servicios de Tecnologa [en linea], [fecha de consulta: 25 Junio 2010] disponible en: http://www.monografias.com/trabajos17/data-warehouse/data-warehouse.shtml.

http://www.sinnexus.com/business_intelligence/datawarehouse.aspx

I Data Warehousing: Investigacin y Sistematizacin de Conceptos [en linea], [fecha de consulta: 25 Junio 2010] disponible en: http://www.dataprix.com/es/data-warehousing-investigaci-n-y-sistematizaci-n-conceptosManual de metodologia HEFESTO para Datawarehousing [en linea], [fecha de consulta: 25 Junio 2010] disponible en : http://www.dataprix.com/es/manual-metodologia-hefesto-para-datawarehousingTutorial Data Warehouse, [en linea], disponible en: http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse3

Gaona Vsquez Norberto. (2000) Data warehouse, la lucha por el poder. Consultado el 1 de Marzo de 2006 en URL[en linea], [fecha de consulta: 25 Junio 2010] disponible en : http://www.netmedia.info/informationweek/articulos.php?id_sec=6&id_art=2567&num_page=6054 http://www.idg.es/computerworld/Bill-Inmon,-Vicepresidente-de-Prism.%22El-data-wareh/seccion-/articulo-4259