Hadoop, Big Data e Cloud Computing

Hadoop, Big Data

e Cloud Computing

Hadoop Users Group SP

José Papo

AWS Tech Evangelist

@josepapo

4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos

480 MBytes

4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos

220 TBytes

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

“Running 30 Hadoop machines on-premises costs less

than $500,000 vs. at least $7 million for an appliance. No

wonder everyone is looking out for Hadoop talent… It’s a

no-brainer when you plug in real numbers”.

Por que novas soluções para Big Data?

Amazon Elastic MapReduce: Clusters já criados por clientes

5.5 M clusters desde Maio de 2010

Alguns clientes do Elastic MapReduce

Sobre o Papel da AWS e

Benefícios alcançados

• 4 bilhões de requisições por mês;

• +300 mil requisições por minuto;

• +200 milhões de recomendações todos os dias;

• Spot instances: -20% custo aws.

Apontador e MapLink

Apoio:

• Hive (~ 40 instancias spot m3.large)

90% - Utilidades diárias

• Streaming

10% - Solr, MapReduces mais complexos (MCMC, FastFourier, e.g.)

• Estrutura usada

Hive ( ~ 40 instancias spot m3.large), Elastic MapReduce S3 (aproximadamente 7 Tb de dados estruturados em diversos buckets) RDS (dados de organização dos dados do S3)

O QUE usam?

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Coleta e Storage

Processamento e ETL

Relacional NoSQL

Como Cloud facilita

Coleta e Storage?

Amazon S3: Mais de 2 Trilhões de Objetos

1.1M requisições por segundo

288 servidores com Cassandra

1.100.000 transações / segundo

Benchmarking Cassandra Scalability on AWS - Over a million writes per second

41 dólares / hora (Instâncias Reservadas)

DynamoDB é um Banco de

Dados NoSQL “as a service”

sem complexidades

Armazene e recupere qualquer quantidade de dados

Sirva níveis gigantescos de tráfego e requisições

Sem instalações de software

Não é necessário configurar clusters

Custos mínimos de administração

Coleta e Storage

Processamento e ETL

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

Como Cloud facilita

Processamento e ETL?

Implantar um cluster hadoop é difícil

Reduz complexidade/custo da gestão do Hadoop

Integra diretamente com Serviços AWS (EC2, S3,

DynamoDB, etc)

Facilita a elasticidade para Big Data

AMAZON ELASTIC MAPREDUCE

Elasticidade

Aumenta

para 25

instancias

Data Warehouse

(Estável)

Data Warehouse

(Processo Batch)

Diminui

instancias

Data Warehouse

(Estável)

AWS Elastic MapReduce

Map reduce

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Input data

Elastic

MapReduce

Code Name

Input data

Elastic

MapReduce

Code Name

Input data

Elastic

cluster

S3/HDFS

Elastic

MapReduce

Code Name

Input data

S3/HDFS Queries

Via JDBC, Pig, Hive

Elastic

cluster

Elastic

MapReduce

Code Name

Output

Input data

Queries

Via JDBC, Pig, Hive

Elastic

cluster

S3/HDFS

Output

Input data

• Retailer came to Razorfish 3.5 billion records, 71 million unique cookies, 1.7 million targeted ads

required per day

Targeted Ad

User recently

purchased a

sports movie and

is searching for

video games (1.7 Million per day)

Leveraged Elastic MapReduce to analyze billions of customer clicks and impressions

FERRAMENTAS DE APOIO

PARA HADOOP E EMR

Amazon S3

Custom

Precondition

EMR usage-by-geo job

Amazon EC2

report generation

Amazon

DynamoDB

event data

Amazon RDS

demographics

Amazon Redshift

DW table

Amazon

Redshift

DW table

script

Elastic MapReduce, DynamoDB e Hive

http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html

Clusters Elásticos

Provisiona rápido

Stack Hadoop completo e com diversas opções

Sem o peso da gestão de hardware e clusters

Otimizações de custos com

instancias on-demand, reservadas e spot

Benefícios do Elastic MapReduce

Coleta e Storage

Processamento e ETL

Como Cloud facilita

Buscas e Machine

Learning?

Coleta e Storage

Processamento e ETL

Como Cloud facilita

Visualização e

Relatórios?

Soluções SaaS

interessantes para

Big Data que rodam

na Nuvem da AWS

RECURSOS TÉCNICOS

awshub.com.br

www.bigdatahpc.com

aws.amazon.com/pt/big-data

OBRIGADO! aws.typepad.com/brasil

slideshare.net/AmazonWebServicesLATAM

José Papo

AWS Tech Evangelist

@josepapo

Hadoop, Big Data e Cloud Computing

Technology

AUTOADMIN: AUTOMATIC AND DYNAMIC RESOURCE RESERVATION ADMISSION CONTROL IN HADOOP …shengbo/paper/AutoAdmin.pdf · 2018-09-11 · Key words: Cloud Computing, MapReduce, Hadoop, YARN,

Introduction to Cloud Computingmsakr/15319-s10/lectures/QloudDemo.pdf15-319 Introduction to Cloud Computing Introduction to Cloud Computing ... In Hadoop MapReduce, one node is designated

IOANNIS MAGNISALIS - International Hellenic Universitydorg.ihu.edu.gr/wp-content/uploads/imagnisalis_europass_cv_updated... · Cloud computing (Azure, GoogleCloud, AWS, Hadoop/MapReduce,

Introduction to Cloud computing and Big Data-Hadoop

Cloud Computing, Hadoop and MapReduce

Presentation on cloud computing security issues using HADOOP and HDFS ARCHITECTURE

Cloud computing-with-map reduce-and-hadoop

About this tutorialrossbach/cs378h/papers/hadoop-tutorial.pdfNoSQL Big Data systems are designed to take advantage of new cloud computing ... Hadoop ─ Introduction . Hadoop 8 Hadoop

Dell - Internal Use - Confidential - Líder en Cloud Computing, Big … · algoritmo que será integrado en ... Gestión de Metadatos Hadoop / SQL en Hadoop Análisis Enterprise de

CLOUD COMPUTING. What is cloud computing ? History Virtualization Cloud Computing hardware Cloud Computing services Cloud Architecture Advantages & Disadvantages

Cost effectiveness in Educational institutions using Cloud ...trap.ncirl.ie/873/1/ktejaswi.pdf · Keywords: Cloud Computing, Hadoop, MapReduce, HDFS, Cost Analyzer, Log Ana-lyzer

· Cloud Computing Private Cloud Public Cloud (1) Cloud Computing Cloud Computing" Cloud Computing (1) Private Cloud (2) Public Cloud (Critical IT Outsourcing) (1) (2) 30 (2) Cloud

Cloud Computing Cloud Computing Overview of Distributed Computing

Cloud computing and Hadoop introduction

Cloud Computing using MapReduce, Hadoop, Spark Computing using MapReduce, Hadoop, Spark ... – Used by Yahoo!, Facebook, Amazon, ... • Mappers save outputs to local disk before

Grid and Cloud Computing Hadoop

Cloud Computing: Hadoop

雲端計算 Cloud Computing Lab–Hadoop. Agenda Hadoop Introduction HDFS MapReduce Programming Model Hbase

The power of hadoop in cloud computing

Cloud Computing (depa) Cloud Computing (Cloud Computing Lab … · 2021. 2. 4. · Cloud Computing (depa) Cloud Computing (Cloud Computing Lab Test for Industry 4.0) (Lab Test) ånu