Big Data en el entorno Bancario

Big Data en el Entorno Bancario

Martín CabreraTechnology Director

Everis, an NTT DATA Company@dmcabrera

[email protected]

mailto:[email protected]

Enteprise Data

Warehouse

Cubos

Sistemas Transaccional

es (OLTP)

Integración y Consolidació

n

Operaciones y

Analítica

Arquitectura de Datos Tradicional

CRM

ERP

Web Channel

Call Center

ETL

Datamart

Datamart

ETL

Reportes Operativos y Analíticos

CRM

ERP

Modelamiento y minería de datos

ETLAuditoría

Gaps de la Arquitectura de Datos Tradicional

• Soporte de volúmenes de datos limitado a nivel de los sistemas OLTP

• Integración y consolidación compleja a través de procesos ETL

• Excesiva normalización y rigidez a nivel de los esquemas de datos

• No es compatible con la carga de fuentes de datos no estructuradas

• No soporta naturalmente la implementación de real-time analytics

• Capacidad de escalamiento y elasticidad limitados y de alto costo

• Pensada principalmente para el mundo on-premise, lo que dificulta su extensión hacia el Cloud

30%

50%

20%

Workloads

ETLOperacionesAnalíticos

No esta preparada para la Transformación Digital

Arquitectura de Datos Moderna

Hadoop Distributed File System (HDFS)

Otro

EDW

DM

DM

Data Access APIsOLTP OLTP OLTP

Workload Interactivo Workload Real-time Workload Batch Workload Analítico

Fuentes de Datos No Estructuradas

Documentos y Correos

Web Logs & Click Streams

Social Networks

Cloud-based Services Sensors Data Geo-location

Data

¿Cómo resuelve los gaps la Arquitectura de Datos Moderna?

• Eliminando la separación conceptual y física de los datos OLTP y los datos Analíticos a partir de una Arquitectura de Datos unificada

• Eliminando las clásicas limitaciones de manejo de volúmenes de información restringidos

• Soportando bajo una misma plataforma todos los workloads requeridos actualmente, Interactivo, Real-time, Batch y Analítico

• Integrándose con los activos de datos existentes como el EDW, los DataMarts y las bases de datos OLTP más las fuentes de datos no estructuradas.

• Generando la figura de un Enterprise Data Lake disponible para toda la corporación.

• Siendo compatible con arquitecturas de tipo Cloud-Híbrida

20%

40%

40%

Workloads

ETLOperacionesAnalíticos

Siendo un habilitador fundamental para la implementación de

productos y servicios digitales

Resumen Comparativo

• Volúmenes de datos limitados y capacidad de escalamiento vertical.

• Separación conceptual y física de datos OLTP y datos analíticos rellenorellenorellen.o

• Excesiva normalización y rigidez a nivel de los esquemas de datos.

• Limitaciones importantes para resolver workloads de Real-time analytics rellenorellenorelleno

• No preparada para soportar el desarrollo de productos y servicios digitales

• Pensada principalmente para el mundo on-premise.

Arquitectura de Datos Tradicional

• Volúmenes de datos ilimitados con capacidad de escalamiento horizontal.

• Arquitectura de datos Unificada que integra fuentes de datos estructuradas y no estructuradas.

• Esquemas flexibles diseñados para cambiar frecuentemente.

• Diseñada para soportar cualquier tipo de workload, Interactivo, Real-time, Batch y Analítico.

• Fundamental para la implementación de productos y servicios digitales

• Compatible con cualquier arquitectura Cloud (privada, pública, híbrida).

Arquitectura de Datos Moderna

Web/Móvil

Sucursales

Callcenter

ETL

Enteprise Data

Warehouse

Inteligencia de

Clientes

Modelos Predictivos

Campañas Push

Modelos Riesgo

Reportes

Pérdida de Información al momento de transformar los datos

Existen datos que no estamos procesando (ej: logs)

No soporta la implementación de servicios de Real-Time Analytics

Capacidad Analítica limitada a los datos disponibles

Baja capacidad de impulsar la práctica de Data Discovery

Escenario actual en la Banca

Riesgo

Canales

Operaciones

Carga incremental (en near-real-time) de todas las fuentes de información relevantes.

Carga de fuentes no estructuradas como logs, correos e información de redes sociales.

Escenario futuro (Big Data)

Real-time Analytics API

CampañasReal-time

Data Insight Discovery

Logs

Logs

Logs

Big DataEnterprise

Platform (Data Lake)

EL

ETL

Web/Móvil

Sucursales

Callcenter

ETL

Enteprise Data

Warehouse

Modelos Predictivos

Campañas Push

Modelos Riesgo

Reportes

Data Scientist

s

Capacidad analítica potenciada por nuevas fuentes de información

Soporta la implementación de servicios real-time y la práctica de Discovery de datos

Machine Learning based models

Inteligencia de

Clientes

Riesgo

Canales

Operaciones

¿Cuáles serían los casos de uso más comunes de Big

Data en la Banca y la arquitectura sugerida?

Enterprise Data Warehouse offloading

Enterprise Data

WarehouseOLTP

ETL

1

2

Movemos información de menor valor y/o histórica desde el EDW a Hadoop ocupando Sqoop

También podemos replicar la información en Hadoop para derivar carga de explotación

Equipos Explotaci

ón

3

4

Los equipos explotan la información con las mismas herramientas que ocupan actualmente.

Enterprise Data Lake

Enterprise Data

Warehouse (EDW)

ETL

1Equipos

Explotación

3

4

OLTP

OLTP

Las bases de datos OLTP más importantes se cargan as-is en Hadoop en modalidad Batch

ETL2

El EDW puede ser cargado desde el Data Lake en Hadoop a través de procesos ETL

Enterprise Data Lake + Nuevas Fuentes

Enterprise Data

Warehouse (EDW)

ETL

1Equipos

Explotación

4

5OLTP

El Data Lake incorpora fuentes de datos No Estructuradas en modalidad Batch

ETL3

Logs

OLTP

Logs

2

Data Scientist

s


(Aster Data)

Advanced Analytics

(Mahout, R)

Cognitive Analytics

(IBM Watson)

Near-Real-Time Data Ingestion

Enterprise Data Warehouse

(EDW)

Equipos Explotaci

ón

4

5

OLTP

Los agentes de Flume hacen streaming de la información generada

ETL 3

Logs

OLTP

Logs

Flume Agent

Flume Agent

Flume Agent

Los Interceptors de Flume permiten enriquecer la ingesta de datos para finalmente guardarla en HDFS (Hadoop)

1

2

Data Scientist

s


(Aster Data)

Advanced Analytics

(Mahout, R)

Cognitive Analytics

(IBM Watson)

Real-Time Analytics con HBase

OLTP

LogsOLTP

Logs

Flume Agent

Flume Agent

Flume Agent

En el proceso de ingesta de datos, se guarda información en HBase que posteriormente servirá como input para los servicios Real-Time (ej: el consumo acumulado diario por rubro de un cliente con tarjeta de crédito).

1

Real-Time Analytics

Services API

2

3 El servicio real-time (expuesto como API) es consumido por ejemplo por la aplicación móvil cada vez que el cliente realiza un pago con tarjeta.

Con la estructura clave-valor en HBase, el servicio puede advertir al cliente de un consumo excesivo en su tarjeta e inclusive compararlo con meses y años anteriores.

Real-Time Analytics con HBase+Spark

OLTP

LogsOLTP

Logs

Flume Agent

Flume Agent

Flume Agent

1

Real-Time Analytics

Services API

3

Spark permite crear un Resilient Distributed Dataset (RDD) a partir de datos en HDFS, HBase, etc.

Su capacidad de representar los datos en memoria y de procesar los mismos de manera distribuida, permite crear servicios de real-time analytics avanzados que requieran procesar grandes volúmenes de datos.

2

Ejemplo Digital Journey soportado por BigData

Web

Red Social

El usuario se conecta a www.banco.cl

La aplicación le indica que se registre con sus credenciales de Twitter / Facebook o Linkedin

El usuario selecciona Linkedin y la aplicación solicita permisos para acceder a su perfil y su lista de contactos

La aplicación le muestra sus datos, le solicita que ingrese su número de móvil, una clave segura y le envía por SMS un código de enrolamiento para su dispositivo.

MóvilEl usuario recibe el código de enrolamiento para confirmar su regsitro

El usuario confirma su registro y ya es “Cliente Registrado”. La aplicación le da la Bienvenida y la indica que 36 de sus contactos en Linkedin ya son clientes del Banco y que 22 de ellos tienen Cta Cte y Tarjeta de Crédito, mientras que 18 tienen productos de inversión, invitándolo a contratar dichos productos

Email

El cliente recibe un correo de bienvenida, con la misma información de sus contactos que está viendo en la aplicación web y con la invitación a seguir explorando los productos del Banco

Resumiendo

• Los Bancos (y todos los negocios digitales) necesitan una Arquitectura de Datos Moderna que soporte el procesamiento de grandes volúmenes de información (Big Data).

• El foco inicial debe estar puesto en la implementación de una Plataforma de Big Data Corporativa, tanto para fines analíticos como operativos.

• Los casos de uso más implementados son:• Database offloading• Enterprise Data Lake• Near-Real-Time Data Ingestion• Real-Time Analytics

Big Data en el Entorno Bancario

Martín CabreraTechnology Director

Everis, an NTT DATA Company@dmcabrera

[email protected]

mailto:[email protected]