84
José Papo Amazon Evangelist @josepapo [email protected] @josepapo

A Empresa na Era da Informação Extrema

Embed Size (px)

DESCRIPTION

Slides da palestra realizada no ECM Show 2013

Citation preview

Page 1: A Empresa na Era da Informação Extrema

José Papo

Amazon Evangelist

@josepapo

[email protected] @josepapo

Page 2: A Empresa na Era da Informação Extrema
Page 3: A Empresa na Era da Informação Extrema
Page 4: A Empresa na Era da Informação Extrema
Page 5: A Empresa na Era da Informação Extrema
Page 6: A Empresa na Era da Informação Extrema
Page 7: A Empresa na Era da Informação Extrema
Page 8: A Empresa na Era da Informação Extrema
Page 9: A Empresa na Era da Informação Extrema
Page 10: A Empresa na Era da Informação Extrema

“Algorithms have already written symphonies as moving as those

composed by Beethoven,

picked through legalese with the

deftness of a senior law partner, diagnosed patients

with more accuracy than a

doctor, written news articles

like a seasoned reporter,

and driven vehicles on urban highways with better control

than a human driver.”

Page 11: A Empresa na Era da Informação Extrema
Page 12: A Empresa na Era da Informação Extrema
Page 13: A Empresa na Era da Informação Extrema
Page 14: A Empresa na Era da Informação Extrema
Page 15: A Empresa na Era da Informação Extrema
Page 16: A Empresa na Era da Informação Extrema
Page 17: A Empresa na Era da Informação Extrema

A Nuvem é o alavancador das novas tendências tecnológicas

Page 18: A Empresa na Era da Informação Extrema

○○○○

Page 19: A Empresa na Era da Informação Extrema

We are sincerely eager to

hear your feedback on this

presentation and on re:Invent.

Please fill out an evaluation

form when you have a

chance.

We are constantly producing more data

Page 20: A Empresa na Era da Informação Extrema

We are sincerely eager to

hear your feedback on this

presentation and on re:Invent.

Please fill out an evaluation

form when you have a

chance.

From all types of industries

Page 22: A Empresa na Era da Informação Extrema

3Vs

Page 23: A Empresa na Era da Informação Extrema

27 TB per day Large Hadron Collider – CERN

Page 24: A Empresa na Era da Informação Extrema
Page 25: A Empresa na Era da Informação Extrema
Page 26: A Empresa na Era da Informação Extrema

The Role of Data

is Changing

Page 27: A Empresa na Era da Informação Extrema

We are sincerely eager to

hear your feedback on this

presentation and on re:Invent.

Please fill out an evaluation

form when you have a

chance.

Until now, Questions you ask drove Data model

New model is collect as much data as possible – “Data-First Philosophy”

Page 28: A Empresa na Era da Informação Extrema

We are sincerely eager to

hear your feedback on this

presentation and on re:Invent.

Please fill out an evaluation

form when you have a

chance.

Data is the new raw material for

any business on par with

capital, people, labor

Data is the new raw material for business on par with capital

& labor

Page 29: A Empresa na Era da Informação Extrema

Data

Actionable Information

Page 30: A Empresa na Era da Informação Extrema

Generated

data

Available for analysis

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Page 31: A Empresa na Era da Informação Extrema

Data Strategist

Page 32: A Empresa na Era da Informação Extrema

lunch hours last year?

Page 33: A Empresa na Era da Informação Extrema

select productId, count(*) from page_hits where hour in (12,13) group by productId order by count(*) desc

cat *-(12|13) | cut –f3 | sort | uniq -c > out

Hit <enter>?

Page 34: A Empresa na Era da Informação Extrema

1PB = 10^15 (1,000,000,000,000,000) bytes

1 PB = 231 days at 50MB/s

Page 35: A Empresa na Era da Informação Extrema

Solution: Massively Parallel Processing

Page 36: A Empresa na Era da Informação Extrema

○○○○

Page 37: A Empresa na Era da Informação Extrema
Page 38: A Empresa na Era da Informação Extrema

HDFS Reliable storage

MapReduce Data analysis

Page 39: A Empresa na Era da Informação Extrema

Very large log

(e.g TBs)

Page 40: A Empresa na Era da Informação Extrema

Very large log

(e.g TBs)

Lots of actions

by John

Page 41: A Empresa na Era da Informação Extrema

Very large log

(e.g TBs) Split into

small

pieces

Lots of actions

by John

Page 42: A Empresa na Era da Informação Extrema

Very large log

(e.g TBs)

Process in a

hadoop cluster

Split into

small

pieces

Lots of actions

by John

Page 43: A Empresa na Era da Informação Extrema

Very large log

(e.g TBs)

John’s history

Process in a

hadoop cluster

Aggregate

the results Split into

small

pieces

Lots of actions

by John

Page 44: A Empresa na Era da Informação Extrema

map Input

file reduce Output

file

Worker node

Page 45: A Empresa na Era da Informação Extrema

map Input

file reduce Output

file

map Input

file reduce Output

file

map Input

file reduce Output

file

Worker node

Worker node

Worker node

Page 46: A Empresa na Era da Informação Extrema

#3 ♥

○○●○○

Page 47: A Empresa na Era da Informação Extrema

We are sincerely eager to

hear your feedback on this

presentation and on re:Invent.

Please fill out an evaluation

form when you have a

chance.

Page 48: A Empresa na Era da Informação Extrema

Elastic On Demand

Pay as you go

Focus on

YOUR

business

Page 49: A Empresa na Era da Informação Extrema

November

Page 50: A Empresa na Era da Informação Extrema

Provisioned capacity

November

Page 51: A Empresa na Era da Informação Extrema

76%

24%

Provisioned capacity

November

Page 52: A Empresa na Era da Informação Extrema

November

Page 53: A Empresa na Era da Informação Extrema
Page 54: A Empresa na Era da Informação Extrema

0

1.000.000

2.000.000

3.000.000

4.000.000

5.000.000

6.000.000

Page 55: A Empresa na Era da Informação Extrema

“What kind of movies do people like ?”

Page 56: A Empresa na Era da Informação Extrema

More than 25 Million Streaming Members

50 Billion Events Per Day

30 Million plays every day

2 billion hours of video in 3

months

4 million ratings per day

3 million searches

Device location , time ,

day, week etc.

Social data

Page 57: A Empresa na Era da Informação Extrema

10 TB of streaming data per day

Page 58: A Empresa na Era da Informação Extrema

~1 PB of data stored in Amazon S3

S3

Page 59: A Empresa na Era da Informação Extrema

Wide range of processing languages used

EMR

Prod Cluster (EMR)S3

Page 60: A Empresa na Era da Informação Extrema

Data consumed in multiple ways

S3

EMR

Prod Cluster (EMR)

Recommendation

Engine

Ad-hoc

Analysis Personalization

Page 61: A Empresa na Era da Informação Extrema

EMR

S3EMR

EMR

Prod Cluster (EMR)

Query Cluster (EMR)

EMR

EMR

Page 62: A Empresa na Era da Informação Extrema
Page 63: A Empresa na Era da Informação Extrema
Page 64: A Empresa na Era da Informação Extrema
Page 65: A Empresa na Era da Informação Extrema

Foursquare…

33 million users 1.3 million businesses

…generates a lot of Data 3.5 billion check-ins 15M+ venues, Terabytes of log data

Page 66: A Empresa na Era da Informação Extrema

Uses EMR for Evaluation of new features

Machine learning

Exploratory analysis

Daily customer usage reporting

Long-term trend analysis

Page 67: A Empresa na Era da Informação Extrema

Source: IDC Whitepaper, sponsored by Amazon, “The Business Value of Amazon Web Services Accelerates Over Time.” July 2012

70% lower 5 year TCO per app

AWS

On-premises

$3.01M

$0.90M

50% reduction in analytics costs

Page 68: A Empresa na Era da Informação Extrema

0

0,1

0,2

0,3

0,4

0,5

0,6

Female Male

Gender

0 10 20 30 40 50 60 70 80

Age

Page 69: A Empresa na Era da Informação Extrema

Gorilla Coffee

Gray's Papaya

Amorino

Thursday Friday Saturday Sunday

Page 70: A Empresa na Era da Informação Extrema
Page 71: A Empresa na Era da Informação Extrema
Page 72: A Empresa na Era da Informação Extrema
Page 73: A Empresa na Era da Informação Extrema
Page 74: A Empresa na Era da Informação Extrema

Log files

250 EMR clusters spun up

and down every week

Page 75: A Empresa na Era da Informação Extrema

Challenge: Large amounts of computing resources needed for short periods of time; significant data storage costs

Solution: Clusters of 100s of nodes on EMR running 4-5 hours at a time Leverages 1000 genomes Public Data Set on AWS —free access to ~200 TB of genomes for over 2,600 people from 26 populations around the world.

Page 76: A Empresa na Era da Informação Extrema

Challenge: Volatile weather is deadly to crops like grapes

Solution: Built a predictive model based on freely available data— 60 years of crop data, 14 TBs of soil data, and 1M government Doppler radar points 50 EMR clusters process new data as it comes into S3 each day, continuously updating the model.

Page 77: A Empresa na Era da Informação Extrema
Page 78: A Empresa na Era da Informação Extrema
Page 79: A Empresa na Era da Informação Extrema
Page 80: A Empresa na Era da Informação Extrema
Page 81: A Empresa na Era da Informação Extrema
Page 82: A Empresa na Era da Informação Extrema
Page 83: A Empresa na Era da Informação Extrema
Page 84: A Empresa na Era da Informação Extrema

OBRIGADO!

http://awshub.com.br

slideshare.net/AmazonWebServicesLATAM

José Papo

Amazon Evangelist

@josepapo

[email protected]