Hadoop, Big Data e Cloud Computing

Preview:

DESCRIPTION

Hadoop, Big Data e Cloud Computing . Palestra realizada no Hadoop Users Group São Paulo

Citation preview

Hadoop, Big Data

e Cloud Computing

Hadoop Users Group SP

José Papo

AWS Tech Evangelist

@josepapo

4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos

480 MBytes

4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos

220 TBytes

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Carlo

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

“Running 30 Hadoop machines on-premises costs less

than $500,000 vs. at least $7 million for an appliance. No

wonder everyone is looking out for Hadoop talent… It’s a

no-brainer when you plug in real numbers”.

Por que novas soluções para Big Data?

Amazon Elastic MapReduce: Clusters já criados por clientes

5.5 M clusters desde Maio de 2010

Alguns clientes do Elastic MapReduce

Sobre o Papel da AWS e

Benefícios alcançados

• 4 bilhões de requisições por mês;

• +300 mil requisições por minuto;

• +200 milhões de recomendações todos os dias;

• Spot instances: -20% custo aws.

Apontador e MapLink

e AWS

Apoio:

• Hive (~ 40 instancias spot m3.large)

90% - Utilidades diárias

• Streaming

10% - Solr, MapReduces mais complexos (MCMC, FastFourier, e.g.)

• Estrutura usada

Hive ( ~ 40 instancias spot m3.large), Elastic MapReduce S3 (aproximadamente 7 Tb de dados estruturados em diversos buckets) RDS (dados de organização dos dados do S3)

O QUE usam?

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Relacional NoSQL

Como Cloud facilita

Coleta e Storage?

Amazon S3: Mais de 2 Trilhões de Objetos

1.1M requisições por segundo

DynamoDB é um Banco de

Dados NoSQL “as a service”

sem complexidades

Armazene e recupere qualquer quantidade de dados

Sirva níveis gigantescos de tráfego e requisições

Sem instalações de software

Não é necessário configurar clusters

Custos mínimos de administração

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

Como Cloud facilita

Processamento e ETL?

Implantar um cluster hadoop é difícil

Reduz complexidade/custo da gestão do Hadoop

Integra diretamente com Serviços AWS (EC2, S3,

DynamoDB, etc)

Facilita a elasticidade para Big Data

AMAZON ELASTIC MAPREDUCE

Elasticidade

Aumenta

para 25

instancias

Data Warehouse

(Estável)

Data Warehouse

(Processo Batch)

Diminui

para

9

instancias

Data Warehouse

(Estável)

AWS Elastic MapReduce

Map reduce

HDFS

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Code

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Code Name

node

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Code Name

node

Input data

Elastic

cluster

S3, DynamoDB, Redshift

S3/HDFS

Elastic

MapReduce

Code Name

node

Input data

S3/HDFS Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

Elastic

MapReduce

Code Name

node

Output

Input data

Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

S3/HDFS

Output

Input data

S3, DynamoDB, Redshift

• Retailer came to Razorfish 3.5 billion records, 71 million unique cookies, 1.7 million targeted ads

required per day

Targeted Ad

User recently

purchased a

sports movie and

is searching for

video games (1.7 Million per day)

Leveraged Elastic MapReduce to analyze billions of customer clicks and impressions

DEMOS

FERRAMENTAS DE APOIO

PARA HADOOP E EMR

Amazon S3

logs

Custom

Precondition

EMR usage-by-geo job

Amazon EC2

report generation

Amazon

DynamoDB

event data

Amazon RDS

demographics

Amazon Redshift

DW table

Amazon

Redshift

DW table

Hive

script

Elastic MapReduce, DynamoDB e Hive

http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html

Clusters Elásticos

Provisiona rápido

Stack Hadoop completo e com diversas opções

Sem o peso da gestão de hardware e clusters

Otimizações de custos com

instancias on-demand, reservadas e spot

Benefícios do Elastic MapReduce

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Como Cloud facilita

Buscas e Machine

Learning?

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Como Cloud facilita

Visualização e

Relatórios?

Soluções SaaS

interessantes para

Big Data que rodam

na Nuvem da AWS

RECURSOS TÉCNICOS

awshub.com.br

www.bigdatahpc.com

aws.amazon.com/pt/big-data

OBRIGADO! aws.typepad.com/brasil

slideshare.net/AmazonWebServicesLATAM

José Papo

AWS Tech Evangelist

@josepapo

Recommended