24
Comparativa Herramientas ETL JORGE BUSTILLOS 2014

Comparativa herramientas ETL

Embed Size (px)

DESCRIPTION

Comparación de herramientas tanto Open Source como Comerciales para una mejor toma de decisiones de acuerdo a la necesidad del proyecto. Estudio realizado por Jorge Bustillos en el año 2014

Citation preview

Page 1: Comparativa herramientas ETL

Comparativa Herramientas

ETLJORGE BUSTILLOS

2014

Page 2: Comparativa herramientas ETL

Tabla contenidos

Introducción

¿Para que se utilizan herramientas ETL?

¿Por qué utilizar herramientas ETL?

Herramientas ETL

Pentaho Kettle

Talend

Informatica PowerCenter

Inabplex Inaport

IBM Cognos Data Manager

Oracle Warehouse Builder

Microsoft Integration Services

Comparación

Tabla comparativa

Costo total de dominio

Riesgos

Facilidad de Uso

Soporte

Implementación

Velocidad

Calidad de la data

Monitoreo

Conectividad

Page 3: Comparativa herramientas ETL

Introducción¿Para que se utilizan herramientas ETL?

¿Por qué utilizar herramientas ETL?

Page 4: Comparativa herramientas ETL

¿Para que se utilizan herramientas ETL?

Extraer data de varias fuentes de información (Legacy DB).

Enviar data a:

Un sistema optimizado de manejo de transacciones (nuevo gestor BD).

Un sistema optimizado de reporte.

Un sistema de análisis.

Sincronizar información de distintas bases de datos.

Depurado de información para remover errores

Cargar información a un Data Warehouse

Page 5: Comparativa herramientas ETL

¿Por qué utilizar herramientas ETL?

Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversión personalizados a desarrollar para migrar o concentrar al información.

Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologías de Bases de Datos entre si.

“Permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para

analizar, o en otro sistema operacional para apoyar un proceso de negocio.”

Page 6: Comparativa herramientas ETL

Herramientas ETL• Pentaho Kettle

• Talend

• Informatica PowerCenter

• Inabplex Inaport

• IBM Cognos Data Manager

• Oracle Warehouse Builder

• Microsoft Integration Services

Page 7: Comparativa herramientas ETL

Pentaho Kettle

Se utiliza a través de un acercamiento basado en meta datos, y tiene posee una GUI para acelerar los procesos.

La compañía Pentaho empezó operaciones en el año 2001.

Tiene una comunidad activa de usuarios grande, alrededor de 13,500 usuarios.

Funciona utilizando Java, presentando como ventaja el ser una solución multiplataforma.

Page 8: Comparativa herramientas ETL

Talend

Talend es una herramienta OpenSource para la integración de información.

Usa un enfoque hacia la generación de código para la manipulación de información y posee una GUI implementada en Eclipse RC.

Lanzó su primera versión en el año 2006.

Genera código en Java o Scripts en Pearl que pueden ser implementados en servidores que lo soporten.

Cuenta con una gran variedad de testimonios por parte de compañías importantes.

Page 9: Comparativa herramientas ETL

Informatica PowerCenter

Informatica tiene una muy buena suite empresarial de integración de datos.

Fue fundada en el año de 1993.

Líder actual del sector Data Integration (Gartner Dataquest).

Tiene alrededor de 2600 clientes, entre los cuales figuran Bancos como Grupo BBVA, organizaciones Gubernamentales, etc.

La compañía se enfoca meramente en soluciones para la integración de datos.

Page 10: Comparativa herramientas ETL

Inaplex Inaport

Fundado en Reino Unido desde el año 2004 para satisfacer la migración de información hacia distintas soluciones CRM y software contable como Sage y Goldmine.

Microsoft Dynamics CRM

Sage CRM Solutions Family

SalesLogix

SageCRM

ACT! by Sage

GoldMine from FrontRange

GoldMine Corporate and Premium

Page 11: Comparativa herramientas ETL

IBM Cognos Data Manager

IBM® Cognos Data Manager proporciona funciones dimensionales de extracción, transformación y carga (ETL) para conseguir una inteligencia empresarial de alto rendimiento.

Se puede integrar con la GUI de IBM Data Manager Designer  para diseñar y crear prototipos

Se pueden ejecutar compilaciones y secuencias de trabajos en sistemas remotos desde un sistema de entorno de diseño de Data Manager.

Data Manager Engine se tiene que instalar en un sistema UNIX o Linux.

Page 12: Comparativa herramientas ETL

ORACLE DATABASE 11G ORACLE WAREHOUSE BUILDER ENTERPRISE ETL OPTION

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que puede ser adquirida con Oracle Warehouse Builder como parte de la edición empresarial del motor de base de datos.

Permite ejecutar cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y transportable tablespaces.

Permite prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL

Es posible generar un modelo para configurar los ambientes de desarrollo, pruebas y producción a niveles separados

Page 13: Comparativa herramientas ETL

Microsoft SQL Server Integration Services

Puede extraer y transformar datos de diversos orígenes como archivos de datos XML, archivos planos y orígenes de datos relacionales y, después, cargar los datos en uno o varios destinos.

Se pueden realizar tareas de migración fácilmente usando tareas visuales.

Si se desea crear nueva funcionalidad, se pueden crear scripts en c# o VB

Puede conseguir conectividad mediante CLI vía DLLs tipo ensamblador.

Page 14: Comparativa herramientas ETL

Comparación• Tabla comparativa

• Costo total de dominio

• Riesgos

• Facilidad de Uso

• Soporte

• Implementación

• Velocidad

• Calidad de la data

• Monitoreo

• Conectividad

Page 15: Comparativa herramientas ETL

Tabla comparativaTALEND KETTLE POWERCENT

ERINAPORT DATA

MANAGERORACLE

WAREHOUSE

SERVER INTEGRATI

ON

COSTO

RIESGO

FACILIDAD

SOPORTE

IMPLEMENTACIÓN

VELOCIDAD

CALIDAD DATA

MONITOREO

CONECTIVIDAD

Page 16: Comparativa herramientas ETL

Costo total de dominio Significa el costo promedio de cierto producto.

Desde costo de orden, licencia, servicio, soporte, entrenamiento, consultoría y cualquier otro pago adicional, que se tenga que realizar para el uso total.

Las herramientas OpenSource son naturalmente gratis de utilizar, pero el soporte, entrenamiento y consultoría son los costos a considerar.

Series1

OpenSource Propietario Código Propio

Page 17: Comparativa herramientas ETL

Riesgos

Siempre hay un riesgo cuando se habla de la manipulación de información almacenada.

Sin embargo también se tienen que considerar los siguientes riesgos:

Exceder presupuestos.

Comprar licencias que no reditúen su valor.

Exceder tiempos.

Falta capacitación para uso de herramientas.

No cumplir con requerimientos o expectativas.

Page 18: Comparativa herramientas ETL

Facilidad de uso

Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC.

Kettle: Tiene la GUI más fácil de utilizar dentro de las alternativas OpenSource.

PowerCenter: Tiene una GUI fácil de utilizar, pero requeriere entrenamiento para aprovecharla.

Inaport: Se conecta directamente al CRM de importación.

IBM: Se puede integrar con la GUI de IBM Data Manager Designer pero este es un módulo aparte.

Oracle: Fácil cuando se trata de información almacenada en bases de datos Oracle, debido a las herramientas Data Pump y transportable tablespaces, pero no ofrece mucha compatibilidad a otras BD.

Microsoft: Se pueden realizar tareas de migración fácilmente usando tareas visuales.

Page 19: Comparativa herramientas ETL

Soporte

Talend: Soporte de paga en estados unidos.

Kettle: Soporte en EEUU, Reino Unido y consultorías asociadas.

PowerCenter: Soporte mundial vía web y consultoría.

Inaport: Soporte mundial vía web y consultoría.

IBM: Soporte mundial contratando en paquete.

Oracle: Vía soporte local Oracle Latinoamérica.

Microsoft: Soporte vía plataforma TechNet.

Page 20: Comparativa herramientas ETL

ImplementaciónTALEND KETTLE POWERCENT

ERINAPORT DATA

MANAGERORACLE

WAREHOUSE

SERVER INTEGRATI

ON

PLATAFORMA

Cualquier compatible con Java o Perl

Cualquiera compatible con Java.

SERVIDOR WINDOWS, HP-UX, IBM-UX, REDHAT, SOLARIS

WINDOWS WINDOWS SERVER, SOLARIS, HP-UX, IBM-UX, REDHAT

ORACLE LINUX, REDHAT, SUSE ENTERPRISE

WINDOWS SERVER

RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB

CPU 1 GHZ 1 GHZ 4 + CORES2GHZ

1GHZ 2GHZ x 2 cores

Varía 2.2GHZ 2 CORES

EXTRA Se puede conectar a Schedulers para automatizar cargas

Puede utilizar Slave Servers

REQUIERE .NET

Parte de Cognos Business Intelligence

Más información

Page 21: Comparativa herramientas ETL

Velocidad

Talend: Más lento que Pentaho Kettle y requiere configuración específica y manual, con conocimiento previo de la data a utilizar.

Kettle: Más rápido que Talend, sin embargo al requerir de Java Database Connector disminuye la velocidad de transacciones.

PowerCenter: Herramienta más rápida gracias a PushDown, sin embargo los cambios son en momento y no permite hacer Rollback a un estado anterior.

Inaport: Utiliza una conexión directamente proporcional a la velocidad del CRM.

IBM: Muy rápido cuando se trabaja con DB2 sin embargo la capa de compatibilidad disminuye la velocidad de conexión con distintos manejadores de base de datos.

Oracle: La velocidad es proporcional al servicio Oracle en el cual este trabajando.

Microsoft: La velocidad es proporcional al servicio MSSQL en el cual este trabajando.

Page 22: Comparativa herramientas ETL

Calidad de Data

Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias SQL personalizables utilizando Java.

Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias SQL personalizadas así como herramientas JavaScript y REGEX para la depuración de información.

PowerCenter: Ofrece DQ a través de otro producto llamado Informatica Data Quality.

Inaport: Debido a la restricción del origen de información se pude realizar tareas de DQ dentro de la misma.

IBM: Mediante Cognos Data Manager Packages se pueden incorporar herramientas para DQ.

Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder Data Profiling Features.

Microsoft: Requiere del software SQL Server Data Quality Services para ofrecer herramientas DQ.

Page 23: Comparativa herramientas ETL

Monitoreo

Talend: Tiene herramientas practicas de monitoreo y registro histórico.

Kettle: Tiene herramientas practicas de monitoreo y registro histórico.

PowerCenter: Tiene herramientas practicas y extensivas de monitoreo y registro histórico.

Inaport: Tiene herramientas practicas de monitoreo y registro histórico.

IBM: Maneja registro de históricos.

Oracle: Tiene herramientas practicas y extensivas de monitoreo y registro histórico.

Microsoft: Tiene herramientas practicas y extensivas de monitoreo y registro histórico.

Page 24: Comparativa herramientas ETL

Conectividad

Talend: Varias bases de datos, archivos planos, xml, Excel, servicios web, necesita JDBC para conexión.

Kettle: Varias bases de datos, archivos planos, xml, Excel, servicios web.

PowerCenter: Varias bases de datos, archivos planos, xml, Excel, servicios web puede exportar como servicio web.

Inaport: Cualquier conexión ODBC, MSSQL, OUTLOOK, ACT, EXCEL.

IBM: Cualquier conexión ODBC, DB2, para importación a DB2, cubos de información T1MAP.

Oracle: Solamente compatible con bases de datos Oracle mismas que la instalada en el DataWarehouse

Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET