Curso de big data

1 1

Prof. Luis Joyanes Aguilar

INNOVACIONES TECNOLÓGICAS Estrategias empresariales en: Cloud Computing y Big Data EGADE Business School (campus BBVA, La Moraleja) Madrid, 2 de octubre, 2013

2 2

ESTADO DEL ARTE DE CLOUD COMPUTING


COMPUTACIÓN EN LA NUBE La nueva era de la computación

© Luis Joyanes Aguilar

EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013

Página –3–



Página –4–



CONTENIDO 1. INNOVACIONES TECNOLÓGICAS

2. CLOUD COMPUTING

3. BIG DATA y BUSINESS ANALYTICS

4. ESTRATEGIAS EMPRESARIALES PARA CLOUD COMPUTING y BIG DATA

5. CONCLUSIONES Y FUTURO

ANEXO. Libros y documentación de referencia, Referencias Web

Página –5–

6

III. BIG DATA Una introducción gerencial

y para empresas


7 7

EGADE Business School


BIG DATA El universo digital de datos



LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito

y Nubes (clouds) de procesadores

Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.

Because in the era of big data, more isn´t just more. More is different

Página –8–



LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebook cada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos)

Página –9–



Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –10–

http://boscolg.wordpress.com/2012/11/16/big-data-como-la-avalancha-de-datos-se-ha-convertido-en-un-importante-beneficio/tabla/#main



El Universo Digital – EMC / IDC

Página –11–



El Universo Digital – EMC / IDC

Página –12–



EL UNIVERSO DIGITAL DE DATOS, 2013

EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El

estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –13–




La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de

vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC

proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores por 14%.

Página –14–




En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:

Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto

significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si

pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.

Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-gran-universo-digital-la-data-crece-mas-rapido-de-lo-que-podemos-protegerla

Página –15–



El universo digital de datos, IDC 2013

Pina –16–



El universo digital de datos, 2013

Página –17–



OPEN DATA (Datos abiertos)

Página –18–




Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos.

Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos.

Página –19–




Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas

¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio

Página –20–



¿Qué son datos abiertos?

Los Datos Abiertos constituyen una iniciativa de transparencia y Gobierno Abierto que consiste en la liberación de conjuntos de datos que son de interés público. Los Datos Abiertos

son puestos a disposición de la sociedad, se promueve su libre acceso y reutilización, exceptuando aquellos datos que por razones de seguridad y privacidad previstas en la normativas vigentes no puedan ser publicados; La mayor parte de los datos generados o mantenidos por el estado son públicos. Sin embargo, no sólo el estado puede abrir sus datos: empresas, organizaciones y comunidades de información que producen o mantienen datos pueden ponerlos a

disposición, siempre en formatos abiertos y bajo licencias libres.

Página –21–




La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa.

En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco.

Página –22–




La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano.

Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros.

Página –23–



OPEN DATA EN LATAM…

Colombia

Portal de Datos Abiertos del gobierno

http://datosabiertoscolombia.cloudapp.net/frm/buscador/frmBuscador.aspx

Perú

Portal de Datos Abiertos de la Municipalidad de Lima

Portal de Datos Abiertos: http://www.datosperu.org/

Página –24–



INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA En España… además de los gobiernos autonómicos

de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org).

http://datos.gob.es/datos/?q=node/232

En Estados Unidos data.gov, en Gran Bretaña data.gov.uk

En Google (abril 2011, del número 1) la revista de negocios. //thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA.

En la Unión Europea (Iniciativa OPEN DATA): http://open-data.europa.eu/es

Página –25–

26 26

EGADE Business School


III

BIG DATA Y ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, “In-Memory”…

27 27


Arquitectura de Big Data



Harvard Business Review, octubre 2012

Página –28–



Foreign Affairs, mayo 2013

Página –29–



Revista BBVA, innovation edge, junio 2013

Página –30–



LA AVALANCHA DE DATOS

Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –31–




Twitter: (redes sociales) 90 millones de tuits (tweets) por día que representa 8

Terabytes.

Boeing: (industria) Vuelo transoceánico de un jumbo puede generar 640

Terabytes.

Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que

alimenta una base de datos de 2.5 petabytes.

Google procesa al día 20 PB de información

Página –32–



Página –33–



Página –34–



BIG DATA, bbva edge, junio 2013

Fuentes:

SAS | Big Data: www.sas.com/big-data.

IBM | Big Data at the Speed of Business

McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011.

Fuente:

Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communications/internet-minute-infographic.html

Página –35–



EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas

están buscando la mejor forma de aprovechar el exceso de información.

La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera.

Página –36–



EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 El concepto de big data a menudo se relaciona con las empresas que

ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.

Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía.

Página –37–



EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 Aún quedan numerosos obstáculos en el camino.

Algunos son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición.

Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios.

Página –38–



EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –39–



EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)

InterContinental

La cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido

Página –40–



Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –41–

http://boscolg.wordpress.com/2012/11/16/big-data-como-la-avalancha-de-datos-se-ha-convertido-en-un-importante-beneficio/tabla/#main




Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –42–



Big Data – McKinsey. Junio 2011

Big data: The next frontier for innovation, competition, and productivity.

http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

Página –43–




Big data: The next frontier for innovation, competition, and productivity.

The amount of data in our world has been

exploding. Companies capture trillions of bytes of

information about their customers, suppliers, and

operations, and millions of networked sensors are

being embedded in the physical world in devices

such as mobile phones and automobiles,

sensing, creating, and communicating data.

Página –44–




Multimedia and individuals with smartphones and

on social network sites will continue to fuel

exponential growth. Big data—large pools of data

that can be captured, communicated, aggregated,

stored, and analyzed—is now part of every sector

and function of the global economy. Like other

essential factors of production such as hard

assets and human capital, it is increasingly the

case that much of modern economic activity,

innovation, and growth simply couldn’t take place

without data.

Página –45–




The question is what this phenomenon means. Is the

proliferation of data simply evidence of an increasingly

intrusive world? Or can big data play a useful economic

role? While most research into big data thus far has

focused on the question of its volume, our study makes the

case that the business and economic possibilities of big

data and its wider implications are important issues that

business leaders and policy makers must tackle. To inform

the debate, this study examines the potential value that big

data can create for organizations and sectors of the

economy and seeks to illustrate and quantify that value. We

also explore what leaders of organizations and policy

makers need to do to capture it.

Página –46–



What do we mean by "big data"?“ : McKinsey 2011

“Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes).

Página –47–



DEFINICIÓN DE BIG DATA: IBM

What is big data?*

Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.

*http://www-01.ibm.com/software/data/bigdata/

Página –48–



Página –49–




Página –50–




Big data spans four dimensions: Volume, Velocity, Variety, and Veracity.

Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes—even petabytes—of information.

• Turn 12 terabytes of Tweets created each day into improved product sentiment analysis

• Convert 350 billion annual meter readings to better predict power consumption

Página –51–




Velocity: Sometimes 2 minutes is too late. For time-sensitive processes such as catching fraud, big data must be used as it streams into your enterprise in order to maximize its value.

• Scrutinize 5 million trade events created each day to identify potential fraud

• Analyze 500 million daily call detail records in real-time to predict customer churn faster

Página –52–




Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together.

Monitor 100’s of live video feeds from surveillance cameras to target points of interest

Exploit the 80% data growth in images, video and documents to improve customer satisfaction

Página –53–




Veracity: 1 in 3 business leaders don’t trust the information they use to make decisions. How can you act upon information if you don’t trust it? Establishing trust in big data presents a huge challenge as the variety and number of sources grows.

Big data is more than simply a matter of size; it is an opportunity to find insights in new and emerging types of data and content, to make your business more agile, and to answer questions that were previously considered beyond your reach. Until now, there was no practical way to harvest this opportunity. Today, IBM’s platform for big data uses state of the art technologies including patented advanced analytics to open the door to a world of possibilities.

Página –54–



Modelo 3V de Big Data

VOLUMEN

• Terabytes

• Records

• Transactions

• Tables, files

VELOCIDAD VARIEDAD

• Batch (por lotes) Estructurado

• Near time (casi a tiempo) No estructurado

• Real time (tiempo real) Semi-estructurado

• Streams (flujos) Todos los demás

Página –55–



Fuentes de Big Data Herramientas para análisis de datos en grandes

volúmenes de datos. Infraestructuras de Big Data

Fuentes de Big Data (Soares 2012):

Web y Social media

Machine-to-Machine (M2M, Internet de las cosas)

Biometria

Datos de transacciones de grandes datos (salud, telecomunicaciones…)

Datos generados por las personas (humanos)

Página –56–



Fuente: Soares (2013). www.MC-

Store.com Sunil Soares (2003). Big Data Governance Emerging

Imperative. Boise. MC Press Online. El autor de este

libro mantiene un blog excelente sobre Big Data y

Gobierno de Big Data

Página –57–



Big Data. Joyanes, MéxicoDF: Alfaomega (2013)

1. Web y Social Media: Incluye contenido web e información

que es obtenida de las medios sociales como Facebook, Twitter,

LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs

de periódicos y televisiones, wikis como MediaWiki, Wikipedia,

marcadores sociales como Del.icio.us, Stumbleupon…

agregadores de contenidos como Dig, Meneame… En esta

categoría los datos se capturan, almacenan o distribuyen

teniendo presente las características siguientes: Datos de los

flujos de clics, tuits, retuits o entradas en general (feeds) de

Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos

web diversos.

Página –58–




2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a

otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc.

Página –59–




3.Big Data transaccionales: Grandes datos transaccionales

procedentes de operaciones normales de transacciones de todo

tipo. Incluye registros de facturación, en telecomunicaciones

registros detallados de las llamadas (CDR), etc. Estos datos

transaccionales están disponibles en formatos tanto

semiestructurados como no estructurados. Los datos generados

procederán de registros de llamada de centros de llamada,

departamentos de facturación, reclamaciones de las personas,

presentación de documentos…

Página –60–




4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles

Página –61–




. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.

“An Overview of Biometric Recpgnition”. http://biometrics.cse.nsu.edu/info.html

Página –62–




5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que

acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad.

Página –63–



Estructura de Big Data: tipos de datos

Estructurados

No estructurados No estructurados (texto, datos de vídeo, datos de audio,,,)

Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –64–



ESTADO ACTUAL DE BIG DATA

1. Almacenamiento:

hacen falta nuevas tecnologías de almacenamiento

2. Bases de datos:

las BD relacionales no pueden con todo

3. Procesado:

se requieren nuevos modelos de programación

4. Obtención de valor:

los datos no se pueden comer crudos (en bruto)

La información no es conocimiento “accionable”

Página –65–



1. Almacenamiento

Hacen falta nuevas tecnologías de

almacenamiento

RAM vs HHD

Memorias hardware. HHD 100 más barato que RAM

pero 1000 veces más lento

Solución actual:

Solid- state drive (SSD) además no volátil

Tecnologías “in-memory” (SAP HANA…)

Investigación:

Storage Class Memory (SCM)

Página –66–



2. Base de datos

Las BD relacionales no pueden con todo

Base de datos

volumen de la información

GBs

PBs Tiempo de ejecución

Exabytes …. Cada día más populares

Limitadas para almacenamiento de “big data”

(ACID, SQL, …)

ACID: Atomicity, Consistency, Isolation & Durability

Página –67–



2. Bases de datos

In-Memory (en-memoria)

SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

NoSQL (Not only SQL)

Relacional Sistemas RDBMS

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (heredadas, antiguas…)

Página –68–



3. Procesado … HADOOP

Se requieren nuevos modelos de programación para manejarse con estos datos

Solución: Para conseguir procesar grandes conjuntos de

datos: MapReduce

Pero fue el desarrollo de Hadoop MapReduce,

por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce

Página –69–



4. Obtención de valor Los datos no se pueden comer ·crudos” (en bruto)

la información no es conocimiento accionable

Para ello tenemos técnicas de Data Mining • Asociación

• Clasificación

• Clustering

• Predicción

• ...

La mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.

Página –70–



Bases de datos

In-Memory (en-memoria) SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)

Página –71–



BASES DE DATOS ANALÍTICAS

Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Bases de datos de procesamiento paralelo masivo (MPP)

Bases de datos “en memoria”

Almacenamiento en columnas Históricamente estas bases de datos tan especializadas

tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de

cada organización.

Página –72–



Bases de datos analíticas Bases de datos diseñadas específicamente para ser

utilizadas como motores de Data Warehouse.

Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:

Almacenamiento en columnas en lugar de filas (registros)

Massively parallel processing (MPP)

In-Memory Analytics

Página –73–



Página –74–



Almacenamiento en columnas, no filas: FUENTE: datalytics.com

Página –75–



Computación en memoria “In-Memory”

La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).

Existen un amplio conjunto de tecnologías que emplean

bases de datos en memoria. SAP HANA es una de las

más acreditadas y populares… (Oracle, IBM,…)

Página –76–



BASES DE DATOS RELACIONALES (REPASO)

La mayoría de las bases de datos cumplen con las

propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un

comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.

Página –77–



BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas

Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.

Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).

Página –78–



Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su

implementación son los siguientes:

– Almacenes de Clave-Valor

– Almacenes de Familia de Columnas (columnares)

– Almacenes de documentos (orientadas a documentos)

– Almacenes de Grafos (orientadas a grafos)

- Cachés de memoria

Página –79–



SOLUCIONES DE BASES DE DATOS NoSQL

Página –80–



Integración con Big Data. FUENTE: datalytics.com

Página –81–



Integración con Big Data. FUENTE: datalytics.com

Página –82–

83 83


Tecnologías BIG DATA

HADOOP



Logo de HADOOP

Página –84–



Logo de HADOOP

Página –85–



TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que el

mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de

Google crecerá a un ritmo anual de más del 60% hasta el año 2016.

La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.

IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Página –86–



Hadoop

“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”

De la página de Hadoop

Página –87–



TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que

provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusters construidos con hardware genérico. En esencia, Hadoop consiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre “Hadoop” no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce.

Página –88–



What Is Apache Hadoop? (Fundación Apache)

The Apache™ Hadoop® project develops open-source

software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-avaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.

Página –89–



Historia de HADOOP ● 2004-2006

– Google publica los papers de GFS y MapReduce

– Doug Cutting implementa una version Open Source en

Nutch

● 2006-2008

– Hadoop se separa de Nutch

– Se alcanza la escala web en 2008

● 2008-Hasta ahora

– Hadoop se populariza y se comienza a explotar

comercialmente.

Fuente: Hadoop: a brief history. Doug Cutting

Página –90–



Historia de Hadoop: Doug Cutting

Página –91–



Logo de HADOOP

Página –92–



Logo de HADOOP

Página –93–



Página –94–



Fundación Apache: proyectos open source

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Página –95–



TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que el

mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de

Google crecerá a un ritmo anual de más del 60% hasta el año 2016.

La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.

IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Página –96–



Componentes HADOOP (Apache)

The project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

Hadoop YARN: A framework for job scheduling and cluster resource management.

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Página –97–



Hadoop

Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.

Está desarrollado en Java y se ejecuta dentro de la JVM.

Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop.

Página –98–



Hadoop Las características principales de Hadoop son

Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.

• Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.

• Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.

• Confiable: Es capaz de mantener Es capaz de mantener múltiples copias de los datos y

automáticamente hacer un re-despliegue de las tareas Página –99–



Hadoop

El diseño de Hadoop se divide en dos partes principales:

Por un lado está el sistema de ficheros distribuido

Hadoop Distributed File System (HDFS) que

se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop.

Por otro lado la implementación de MapReduce que se

encarga del procesamiento de la información de forma distribuida.

Página –100–



Hadoop

Página –101–



Página –102–



Hadoop en la actualidad

Hadoop se puede utilizar en teoría para casi cualquier tipo

de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:

• Análisis de logs

• Análisis de mercado

• Machine learning y data mining

• Procesamiento de imágenes

• Procesamiento de mensajes XML

• Web crawling

• Indexación

Página –103–



Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en

el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:

Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información

Amazon A9: Se utiliza para la generar índices de búsqueda de los

productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos

cada uno. Página –104–



Hadoop en la actualidad

The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –105–



Distribuciones de Hadoop

Página –106–



Proveedores de Big Data

Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks, …

Hay docenas

Página –107–



Empresas que ya utilizan “Big Data”

. IBM

Intel

HP

Oracle

Teradata

Fujitsu

CSC

Accenture

Dell

Seagate

Capgemini

Página –108–



Definición de Analítica de Big Data BIG DATA ANALYTICS : (TDWI): 4Q 2011 Big data analytics is where advanced analytic

techniques operate on big data sets. Hence, big data analytics is really about two things—big data and analytics—plus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today.

The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: “Which of the following best characterizes your familiarity with big data analytics and how you name it?” The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not:

Página –109–



ANALÍTICA DE BIG DATA

Cloudera

EMC Greenplum

IBM

Impetus Technologies

Kognitio

ParAccel

SAP

SAND Technology

SAS

Tableau Software

Teradata

Página –110–

111 111

OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS




OPORTUNIDADES PARA LATINOAMÉRICA

Despliegue y comercialización de la red de alta velocidad y gran ancho de banda LTE (4G) en la actualidad (Noticia de impacto en CLOUD COMPUTING y Big Data y gran ventaja competitiva).

En Europa está comenzando el despliegue y comercialización este año 2013. Colombia, Panamá, México, Dominicana… ya iniciaron el despliegue

Página –112–



OPORTUNIDADES PARA COLOMBIA Y PERÚ

TURISMO INTELIGENTE (Smart Tourism). Vease proyecto piloto aprobado en marzo 2013 de la Isla de Hierro de Canarias apoyándose en despliegues móviles, cloud computing y big data.

CREACIÓN Y CONSTRUCCIÓN DE CENTROS DE DATOS para dar soporte a infraestructuras, plataformas y

desarrollo de Cloud Computing (COLOMBIA y PERÚ, tieneN

las condiciones de hábitat idóneas para construcción de Data Centers).

PUESTA EN MARCHA DE ESTUDIOS DE CLOUD COMPUTING , BIG DATA Y ANALYTICS, así como

CERTIFICACIONES INTERNACIONALES correspondientes.

Página –113–



NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se

deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)

Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS”

Página –114–



NUEVAS PROFESIONES EN LA ECONOMÍA Y EMPRESA DIGITAL

Algunas de las profesiones o roles más demandados son:

CTO (Chief Technology Officer)

ASO (App search optimization). Especialista en “app search optimization”… similar al SEO pero para apps móviles.

Expertos en usabilidad y experiencia de usuario (UX)

Profesionales de big data (“análisis de grandes volúmenes de datos)

Página –115–



NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

Community Manager, Social Media Manager y Analista Web y SEO

Ingeniero de Cloud Computing (En España hay

una universidad privada que lo lanza el próximo curso)

Ingeniero de negocios digitales (Digital Business Intelligence)

Ingeniero de datos (Infraestructuras, Bases de datos

NoSQL, Hadoop, Tecnologías “in-memory”…)

Analítica de datos (Analytics) y Analítica de Big Data

Página –116–



NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager,

SEO, Analistas Web … cada día son más demandadas y.

Sin embargo la profesión del futuro será:

EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…)

Página –117–



LAS TITULACIONES-PROFESIONES MÁS

DEMANDADAS en TIC EN PRÓXIMOS AÑOS

(HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI):

Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas.

LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist)

Página –118–



INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE* “La estrategia de especialización inteligente

(RIS3 en inglés) parte de un principio básico: hace falta que haya una masa crítica de recursos para innovar y un territorio tiene que concentrar sus recursos en aquello que genera ventajas competitivas, actuales o potenciales. Más aún, en tiempos de crisis y escasez.”

*Aranguren, Navarro y Wilson (Instituto Vasco de Competitividad, Deusto Business School) en La Vanguardia, 22 de septiembre de 2013, p. 34.

Página –119–



INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE*

“El término “especialización inteligente” hace referencia a la necesidad de concentrar los recursos en determinadas apuestas. Pero toda estrategia inteligente requiere, paradójicamente, diversificar: producir otros productos y para otros mercados. Esto resulta evidente en estos momentos, en España, en que la demanda doméstica ha caído como media un 40 por ciento de los productos tradicionales”

Página –120–




“La Unión Europea ha fijado a las regiones que elaboren una estrategia de especialización inteligente como una condicionalidad ex ante para acceder a los fondos estructurales y de inversión.

[…] Se trata de seguir o establecer nuevas estrategias

regionales de innovación que nusca pasar de una aproximación a la estrategia de carácter tradicional, basada en el diseño y posterior ejecución de una plan, a una aproximación más dinámica y viva, que descansa en procesos participativos y en evaluación permanente”

Página –121–




Innovaciones tecnológicas en TIC

Cloud Computing

Big Data

Movilidad

Medios sociales

Internet de las cosas

Ayudarán considerablemente a la potenciación de la innovación y la especialización inteligente.

Página –122–



Página –123–

MUCHAS GRACIAS … ¿Preguntas?

Portal tecnológico y de conocimiento www.mhe.es/joyanes

Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com

Twitter:@luisjoyanes www.slideshare.net/joyanes www.facebook.com/joyanesluis

PORTAL NTICS : luisjoyanes.wordpress.com (en construcción)

CORREO-e: [email protected]

124


BIBLIOGRAFÍA



BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en

la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo

JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona:

Marcombo Colección de libros NTiCS (Negocios, Tecnología, Innovación,

Conocimiento y Sociedad) dirigida por el profesor Luis

Joyanes y publicada en la editorial Alfaomega de México DF.

Página –125–



BIBLIOGRAFÍA BÁSICA

JOYANES, Luis. “Computación en "Nube" (Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?”. Sociedad y Utopía.

UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs.

111-127.

JOYANES, Luis (2009a) “La Computación en Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento” , ICADE, nº 76, enero-

marzo 2009, Madrid: Universidad Pontificia Comillas.

Página –126–



ÚLTIMOS LIBROS DEL prof. LUIS JOYANES

Ciberseguridad. Retos y desafíos para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador.

www.ieee.org

Cuadernos de estrategia, nº 149

Página –127–



Blogs tecnológicos

TechCrunch (www.techcrunch.com)

Gizmodo (www.gizmodo.com, www.gizmodo.es)

Boing Boing (www.boingboing.com)

Engadget (www.engadget.com)

The Official Google Blog (googleblog.blospot.com)

O´Reilly (www.oreillynet.com)

Slahdot (www.slahdot.com)

Microsiervos (www.microsiervos.com)

Xataca (www.xataca.com)

All Things Digital (allthingsd.com)

Mashable (www.mashable.com)

Página –128–



LECTURAS RECOMENDADAS

NIST

Cloud Security Alliance

ISACA

BBVA, BANKINTER, Accenture…

ENISA

Cio.com, Computing.es, Computerworld

ONTSI. Cloud computing. Retos y oportunidades. www.ontsi.red.es/ontsi/sites/default/files/1-_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf

Página –129–



BIBLIOGRAFÍA

Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innovation-edge/21-big-data

SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.

DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.

Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)

Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00

Página –130–



BIBLIOGRAFÍA

ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/

ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Página –131–



Página –132–



REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012.

www-01.ibm.com/software/data/bigdata/

Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Página –133–



REFERENCIAS

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –134–



LECTURAS RECOMENDADAS (historia del cloud)

KING, Rachael (2008): “How Cloud Computing is Changing the World?” en BusinessWeek, New York, 4 august, 2008

LEINWAND, Allan (2008): “It´s 2018: Who Owns the Cloud?” en BusinessWeek, New York, 4 august, 2008

THE ECONOMIST (2008): “Let it rise. A Special report on IT Corporate” en The Economist, London, October 25th 2008.

Página –135–

Education

Curso de big data