Upload
martin-cabrera
View
2.082
Download
0
Embed Size (px)
Citation preview
Big Data en el Entorno Bancario
Martín CabreraTechnology Director
Everis, an NTT DATA Company@dmcabrera
Enteprise Data
Warehouse
Cubos
Sistemas Transaccional
es (OLTP)
Integración y Consolidació
n
Operaciones y
Analítica
Arquitectura de Datos Tradicional
CRM
ERP
Web Channel
Call Center
ETL
Datamart
Datamart
ETL
Reportes Operativos y Analíticos
CRM
ERP
Modelamiento y minería de datos
ETLAuditoría
Gaps de la Arquitectura de Datos Tradicional
• Soporte de volúmenes de datos limitado a nivel de los sistemas OLTP
• Integración y consolidación compleja a través de procesos ETL
• Excesiva normalización y rigidez a nivel de los esquemas de datos
• No es compatible con la carga de fuentes de datos no estructuradas
• No soporta naturalmente la implementación de real-time analytics
• Capacidad de escalamiento y elasticidad limitados y de alto costo
• Pensada principalmente para el mundo on-premise, lo que dificulta su extensión hacia el Cloud
30%
50%
20%
Workloads
ETLOperacionesAnalíticos
No esta preparada para la Transformación Digital
Arquitectura de Datos Moderna
Hadoop Distributed File System (HDFS)
Otro
EDW
DM
DM
Data Access APIsOLTP OLTP OLTP
Workload Interactivo Workload Real-time Workload Batch Workload Analítico
Fuentes de Datos No Estructuradas
Documentos y Correos
Web Logs & Click Streams
Social Networks
Cloud-based Services Sensors Data Geo-location
Data
¿Cómo resuelve los gaps la Arquitectura de Datos Moderna?
• Eliminando la separación conceptual y física de los datos OLTP y los datos Analíticos a partir de una Arquitectura de Datos unificada
• Eliminando las clásicas limitaciones de manejo de volúmenes de información restringidos
• Soportando bajo una misma plataforma todos los workloads requeridos actualmente, Interactivo, Real-time, Batch y Analítico
• Integrándose con los activos de datos existentes como el EDW, los DataMarts y las bases de datos OLTP más las fuentes de datos no estructuradas.
• Generando la figura de un Enterprise Data Lake disponible para toda la corporación.
• Siendo compatible con arquitecturas de tipo Cloud-Híbrida
20%
40%
40%
Workloads
ETLOperacionesAnalíticos
Siendo un habilitador fundamental para la implementación de
productos y servicios digitales
Resumen Comparativo
• Volúmenes de datos limitados y capacidad de escalamiento vertical.
• Separación conceptual y física de datos OLTP y datos analíticos rellenorellenorellen.o
• Excesiva normalización y rigidez a nivel de los esquemas de datos.
• Limitaciones importantes para resolver workloads de Real-time analytics rellenorellenorelleno
• No preparada para soportar el desarrollo de productos y servicios digitales
• Pensada principalmente para el mundo on-premise.
Arquitectura de Datos Tradicional
• Volúmenes de datos ilimitados con capacidad de escalamiento horizontal.
• Arquitectura de datos Unificada que integra fuentes de datos estructuradas y no estructuradas.
• Esquemas flexibles diseñados para cambiar frecuentemente.
• Diseñada para soportar cualquier tipo de workload, Interactivo, Real-time, Batch y Analítico.
• Fundamental para la implementación de productos y servicios digitales
• Compatible con cualquier arquitectura Cloud (privada, pública, híbrida).
Arquitectura de Datos Moderna
Web/Móvil
Sucursales
Callcenter
ETL
Enteprise Data
Warehouse
Inteligencia de
Clientes
Modelos Predictivos
Campañas Push
Modelos Riesgo
Reportes
Pérdida de Información al momento de transformar los datos
Existen datos que no estamos procesando (ej: logs)
No soporta la implementación de servicios de Real-Time Analytics
Capacidad Analítica limitada a los datos disponibles
Baja capacidad de impulsar la práctica de Data Discovery
Escenario actual en la Banca
Riesgo
Canales
Operaciones
Carga incremental (en near-real-time) de todas las fuentes de información relevantes.
Carga de fuentes no estructuradas como logs, correos e información de redes sociales.
Escenario futuro (Big Data)
Real-time Analytics API
CampañasReal-time
Data Insight Discovery
Logs
Logs
Logs
Big DataEnterprise
Platform (Data Lake)
EL
ETL
Web/Móvil
Sucursales
Callcenter
ETL
Enteprise Data
Warehouse
Modelos Predictivos
Campañas Push
Modelos Riesgo
Reportes
Data Scientist
s
Capacidad analítica potenciada por nuevas fuentes de información
Soporta la implementación de servicios real-time y la práctica de Discovery de datos
Machine Learning based models
Inteligencia de
Clientes
Riesgo
Canales
Operaciones
¿Cuáles serían los casos de uso más comunes de Big
Data en la Banca y la arquitectura sugerida?
Enterprise Data Warehouse offloading
Enterprise Data
WarehouseOLTP
ETL
1
2
Movemos información de menor valor y/o histórica desde el EDW a Hadoop ocupando Sqoop
También podemos replicar la información en Hadoop para derivar carga de explotación
Equipos Explotaci
ón
3
4
Los equipos explotan la información con las mismas herramientas que ocupan actualmente.
Enterprise Data Lake
Enterprise Data
Warehouse (EDW)
ETL
1Equipos
Explotación
3
4
OLTP
OLTP
Las bases de datos OLTP más importantes se cargan as-is en Hadoop en modalidad Batch
ETL2
El EDW puede ser cargado desde el Data Lake en Hadoop a través de procesos ETL
Enterprise Data Lake + Nuevas Fuentes
Enterprise Data
Warehouse (EDW)
ETL
1Equipos
Explotación
4
5OLTP
El Data Lake incorpora fuentes de datos No Estructuradas en modalidad Batch
ETL3
Logs
OLTP
Logs
2
Data Scientist
s
Data Insight Discovery
(Aster Data)
Advanced Analytics
(Mahout, R)
Cognitive Analytics
(IBM Watson)
Near-Real-Time Data Ingestion
Enterprise Data Warehouse
(EDW)
Equipos Explotaci
ón
4
5
OLTP
Los agentes de Flume hacen streaming de la información generada
ETL 3
Logs
OLTP
Logs
Flume Agent
Flume Agent
Flume Agent
Los Interceptors de Flume permiten enriquecer la ingesta de datos para finalmente guardarla en HDFS (Hadoop)
1
2
Data Scientist
s
Data Insight Discovery
(Aster Data)
Advanced Analytics
(Mahout, R)
Cognitive Analytics
(IBM Watson)
Real-Time Analytics con HBase
OLTP
LogsOLTP
Logs
Flume Agent
Flume Agent
Flume Agent
En el proceso de ingesta de datos, se guarda información en HBase que posteriormente servirá como input para los servicios Real-Time (ej: el consumo acumulado diario por rubro de un cliente con tarjeta de crédito).
1
Real-Time Analytics
Services API
2
3 El servicio real-time (expuesto como API) es consumido por ejemplo por la aplicación móvil cada vez que el cliente realiza un pago con tarjeta.
Con la estructura clave-valor en HBase, el servicio puede advertir al cliente de un consumo excesivo en su tarjeta e inclusive compararlo con meses y años anteriores.
Real-Time Analytics con HBase+Spark
OLTP
LogsOLTP
Logs
Flume Agent
Flume Agent
Flume Agent
1
Real-Time Analytics
Services API
3
Spark permite crear un Resilient Distributed Dataset (RDD) a partir de datos en HDFS, HBase, etc.
Su capacidad de representar los datos en memoria y de procesar los mismos de manera distribuida, permite crear servicios de real-time analytics avanzados que requieran procesar grandes volúmenes de datos.
2
Ejemplo Digital Journey soportado por BigData
Web
Red Social
El usuario se conecta a www.banco.cl
La aplicación le indica que se registre con sus credenciales de Twitter / Facebook o Linkedin
El usuario selecciona Linkedin y la aplicación solicita permisos para acceder a su perfil y su lista de contactos
La aplicación le muestra sus datos, le solicita que ingrese su número de móvil, una clave segura y le envía por SMS un código de enrolamiento para su dispositivo.
MóvilEl usuario recibe el código de enrolamiento para confirmar su regsitro
El usuario confirma su registro y ya es “Cliente Registrado”. La aplicación le da la Bienvenida y la indica que 36 de sus contactos en Linkedin ya son clientes del Banco y que 22 de ellos tienen Cta Cte y Tarjeta de Crédito, mientras que 18 tienen productos de inversión, invitándolo a contratar dichos productos
El cliente recibe un correo de bienvenida, con la misma información de sus contactos que está viendo en la aplicación web y con la invitación a seguir explorando los productos del Banco
Resumiendo
• Los Bancos (y todos los negocios digitales) necesitan una Arquitectura de Datos Moderna que soporte el procesamiento de grandes volúmenes de información (Big Data).
• El foco inicial debe estar puesto en la implementación de una Plataforma de Big Data Corporativa, tanto para fines analíticos como operativos.
• Los casos de uso más implementados son:• Database offloading• Enterprise Data Lake• Near-Real-Time Data Ingestion• Real-Time Analytics
Big Data en el Entorno Bancario
Martín CabreraTechnology Director
Everis, an NTT DATA Company@dmcabrera