26
Data Lake além da buzzword Matheus Espanhol São Paulo, 9 de Maio de 2018

Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Data Lake além da buzzword

Matheus Espanhol São Paulo, 9 de Maio de 2018

Page 2: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance
Page 3: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Data LakeData Warehouse

HDFS+ Atlas+ Ranger+ Hive+ Hbase+ YARN- Custo operacional* Kylo? kylo.io

The road to Data Lake

Appliance

- ROI?

- Muitas partições- Muitos índices- Upgrade de Storage- Upgrade de CPU e Memória

SGBDsRelacionais

Redshift

- Storage não escala separadamente

Cloud Storage

Page 4: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Amazon S3

Durabilidade de 99.999999999%

Disponibilidade de 99.99%

$0.023/GB

$0.0125/GB

$0.004/GB

Page 5: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

+1.5 bilhão/mês

eventos de aplicativos

+750milhões/mês

mensagens

~4.5 bilhões/mês

tentativas de tarifação

50 TBData Lake

Page 6: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance
Page 7: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Resolva problemas que existem

Page 8: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Presto

Page 9: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance
Page 10: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

GargaloDownload do arquivo CSV do S3

SoluçãoMudar formato de arquivo (Parquet, ORC)

Mudar compactação (Gzip, Snappy, LZ)

Aumentar número de worker nodes

Page 11: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Bigquery

SQL as a Service

Escalabilidade transparente

Suporte a operações batch ou stream

Permite o mapeamento de arquivos no cloud storage

Alta performance

Após 90 dias sem atualização dos dados:

Redução de 50% no custo de armazenamento

Page 12: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Aproxime-se do seu cliente interno

Page 13: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Amazon Athena

Serviço de SQL sobre dados armazenados S3

“Presto as a Service”

Sistema de cobrança semelhante ao Google Bigquery

Uso de expressões regulares para parser de logs

Page 14: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

CREATE EXTERNAL TABLE server_logs.transaction_log ( `log_type` string, `log_date` timestamp, `java_class` string, ...)PARTITIONED BY (year int, month int, day int, server string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'WITH SERDEPROPERTIES ( 'serialization.format' = '1', 'serialization.null.format' = 'null', 'input.regex' = '^\\\x1b\\[39m\\[([^ ]*)\\]\\\x1b\\[0\\;39m\\s+\\\x1b\\[35m\\[([^,]*),([^ ]*)\\]\\\x1b\\[0\\;39m\\s+\\\x1b\\[33m\\[([^ ]*)\\]\\\x1b\\[0\\;39m\\s+\\\x1b\\[35m\\[([^ ]*)\\]\\\x1b\\[0\\;39m\\s+\\|\\s+TransactionLog\\s+\\[\\s+id\\=([^ ]*)\\;.*?\\s+applicationId\\=([^

...) LOCATION 's3://movile-data-lake/mobile-content/server_logs/transaction_log/'

Amazon Athena

ALTER TABLE server_logs.transaction_log ADD PARTITION (year = 2017, month = 01, day = 04, server = 'server1') LOCATION ‘s3://movile-data-lake/mobile-content/server_logs/transaction_log/2017/01/04/server1/'

Page 15: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Expectativa

Page 16: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Realidade

Page 17: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Camadas do Data Lake

TRANSIENTE

RAW DATA

DADOS REFINADOS

PRODUÇÃO

DATA LAKE

SANDBOX

Page 18: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

99% dos usuários não se interessam por transformação de dados

Page 19: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Tabelas externas no Redshift

Utilizava o metadado do Athena

Permite cruzar dados do S3 com tabelas do Redshift

Utiliza o processamento do cluster Redshift

Redshift Spectrum

SPECTRUM

CREATE EXTERNAL SCHEMA IF NOT EXISTS messagesFROM DATA CATALOG DATABASE 'messages'iam_role 'arn:aws:iam::2222222222:role/movile-redshift-athena'CREATE EXTERNAL DATABASE IF NOT EXISTS;

Page 20: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Sem metadados = Data Swamp

Page 21: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Automatize o gerenciamento de metadados

Page 22: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

AWS Glue - Catálogo de dados

Catálogo de dados

Crawlers para criar e atualizar metadados

Controle de versão

https://movile.blog/parte-1-data-lake-na-pratica-gerenciando-os-metadados-com-aws-glue/

Page 23: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

AWS Glue - Jobs Spark

Serverless ETL

Geração de jobs Spark

Suporte a linguagens Python e Scala

Agendamento de jobs

Page 24: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Não se esqueça...

Autenticação

Autorização

● Organização

Auditoria

Dados

● Criptografia

● Mascaramento

● Privacidade

Page 25: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Lições aprendidas

Agilidade requer foco em um problema de cada vez

Busque feedback constante do usuário final

A flexibilidade do Data Lake tem preço

Mapeie os diferentes perfis de usuário

Desenvolva rotinas inteligentes de ingestão e transformação de dados

Revise sempre os processos de governança de dados

Aproveite as oportunidades que o Data Lake proporciona!

Page 26: Data Lake além da buzzword - QConSP...SQL as a Service Escalabilidade transparente Suporte a operações batch ou stream Permite o mapeamento de arquivos no cloud storage Alta performance

Contato

twitter.com/matheusespanhol

linkedin.com/in/matheusespanhol

slideshare.net/matheus.espanhol

[email protected]