Upload
caio-gomes
View
938
Download
1
Embed Size (px)
DESCRIPTION
My impressions about the next years future for Big Data and Data Science. Next few years we're going to see an increase in Real Time techniques, with new industries starting to use Big Data techniques. Apresentação dada para o evento de finalização do curso de Big Data da FIA. Nele falo sobre minhas impressões sobre o futuro do Big Data, e como vamos ver o aumento de técnicas de Real Time, como novas industrias no Brasil adotando técnicas de Big Data.
Citation preview
O Futuro do Big Data
O Futuro do Big Data
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! !Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
age of data
:
-
• Volume de dados gigante
• Grande parque computacional
• Marketing
• Internet
BIG Data
• Baixa do preço do Teraflop
• Criação do MapReduce
mas porque agora?
Processamento:
Armazenamento: • Baixa do preço do MB
• Invenção do NoSQL
• Google AdSense
• Criteo (remarketing)
Onde foi usado até agora?
Publicidade:
Vendas online: • recomendação (Amazon)
Redes Sociaos
• Recomendação de amigos, posts, likes, jogos.
• Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
furacão francis
• Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
• Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço
• O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
seguro de colheitas
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch
13 de 21
Desvantagens do Map Reduce
• Medidas de trânsito Veiculos enviam informação a cada instante.
• O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)
19 de 21
estimativa de trânsito
o padrão de transito - marginal pinheiros
SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
SOBRE O ROTEIRIZADOR o que recebemos
<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</DateTime><Position xmlns:a="http://schemas.datacontract.org/2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Position></Route>
BRASIL
snapshot veículos rastreados, 14 nov 2012, 15:00
ESTIMAÇÃO ONLINE DE VELOCIDADES
Disposi&vos móveis
veículos
posições
balanceador de cargas
posições
cálculo de rotas
rotas
es&mação de velocidades
velocidade
servidores de trânsito
mapas
índices
tempo
Centro de cálculo MapLink na nuvem
SOBRE O ROTEIRIZADOR transformando posições em velocidades
SOBRE O ROTEIRIZADOR segmentando os dados
Carros, motos, caminhões Como diferenciar?
SOBRE O ROTEIRIZADOR diferentes usos entre categorias
Velocidade moto => velocidade carro
SOBRE O ROTEIRIZADOR e a velocidade da via?
SOBRE O ROTEIRIZADOR o que recebemos
- Cada update é independente e já traz novas informações - Previsões dependem da situação global - Resultado dos modelos - Altamente interligado
SOBRE O ROTEIRIZADOR
• Adoção em novos setores Industria, Agronomia, Medicina
• Inclusão de fatores de tempo real Trânsito, Energia
• Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis?
19 de 21
o futuro
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracterıstica do usuario)
Caio C. Gomes Diretor Big Data e Inovação [email protected]