24
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

Embed Size (px)

Citation preview

Page 1: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

HARVEY B. NEWMAN, MARK H. ELLISMAN AND

JOHN A. ORCUTT

Alunos: Leybert Haidar

Nelson Machado Junior

Page 2: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

A e-science de larga escala depende de uma

cyberinfrastructure cada vez mais integrada e distribuída

em uma escala global

Page 3: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Agenda Definição de e-science; O porquê do investimento em e-science; Conseqüências; Evidências e Soluções; Modelo de infra-estrutura computacional voltado

para as pesquisas em e-science; Aplicações e atividades recentes; Conclusão

Page 4: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

“Assim como a pesquisa em diversas frentes está se tornando cada vez mais dependente da computação, toda ciência, ao que parece, está se tornando ciência da computação” – George Johnson, 2001

Page 5: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

O que é e-science? Definida por The UK Research Councils

como ciência de larga-escala realizada por meio de colaborações globais distribuídas habilitadas por redes de trabalho, que requerem acesso à coleções de dados muito grandes, a vários recursos de computação em larga-escala e a visualização de alta performance.

Page 6: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

O que incentiva o financiamento da e-science?• Crescente dependência da tecnologia da

informação;• Benefícios à pesquisa e à sociedade em grande

parte da colaboração permanente que atravessa distâncias intercontinentais;

• Habilidade de processar, disseminar, e compartilhar a informação em escalas sem precedentes.

Page 7: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Pioneiros no financiamento da e-science:• National Science Foundation (NSF); • Department of Energy (DOE);• National Institutes of Health (NIH);• NASA;• The High-Energy and Nuclear Physics (HENP)

Community é a mais avançada nos seus esforços em desenvolver sistemas data-intensive globalmente conectados habilitados em Grid.

Page 8: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Conseqüências das experiências em e-science Experiências da HENP utilizando alta-energia

Experiências em escalas crescentes de energia, junto com a crescente sensibilidade e complexidade das medidas, têm aumentado a escala e o custo de detectores e aceleradores de partículas, juntamente com a dimensão e dispersão geográfica das colaborações científicas, a saber: the Compact Muon Solenoid and A Toroidal LHC ApparatuS (ATLAS), cada uma realizando experiências para the European European Laboratory for Particle Physics (CERN) Large Hadron Collider (LHC), programa que envolve 2.000 físicos de 150 instituições de 36 países. A atual geração de experiências incluem “BaBar” realizada no the Stanford Linear Accelerator Center (SLAC) e “Dzero” e “the Collider Detector” realizadas no Fermilab - the Fermi National Accelerator Laboratory, Batavia, IL.

Page 9: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Conseqüências:• Essas experiências foram projetadas por

cientistas da HENP na expectativa de que seus volumes de dados cresçam da ordem de multi-petabyte para exabyte (1018 B) dentro dos próximos 10 a 15 anos;

• Ao mesmo tempo, espera-se que as correspondentes exigências de velocidade da rede em cada um dos principais links usados no campo de pesquisa cresçam da ordem de 10 Gbps para Tbps.

Page 10: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

O que fica evidenciado:• As necessidades de uma comunidade de

pesquisa globalmente distribuída, dependente dos instrumentos científicos que coletam Terabytes de dados diários, é gerenciável somente através de uma cyberinfrastructrure distribuída.

Page 11: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Solução

Model Cyberinfrastructure

Dando forma a essa cyberinfrastructure do futuro, os pesquisadores da HENP estão trabalhando com cientistas da computação para co-desenvolver

avançadas redes de testes e sistemas middleware em Grid. A HENP, junto com outras ciências de ensino,

está estendendo e modernizando este modelo.

Page 12: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Model Cyberinfrastructure • Os experimentos da LHC (Large Hadron

Collider), por exemplo, adotaram a Data Grid Hierarchy, ou um conjunto estruturado de computação e facilidades de manipulação de dados interconectados por redes, desenvolvidas no California Institute of Technology

Page 13: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Model Cyberinfrastructure

Page 14: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Model Cyberinfrastructure • Poder usar este conjunto global de sistemas depende

do desenvolvimento de Data Grids, ou depósitos de dados distribuídos, conectados via redes de alta velocidade, capazes de gerenciar e dirigir recursos Tier-N e apoiar o desenvolvimento de software colaborativo ao redor do mundo;

• Dado o preço/desempenho de rede disponível hoje, estimativas indicam que as necessidades das redes científicas mundiais alcançarão 10 Gbps dentro dos próximos dois a três anos.

Page 15: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo Exabytes

Os dados da HENP aumentarão de petabytes em

2002 a centenas de petabytes em 2007 e a

exabytes (1018 bytes) de 2012 a 2015

Aumento das transações em volume e em tamanho de dados extraídos

Page 16: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo Exabytes

É necessário completar transações de extrações de dados típicas de 1-10 TB e, eventualmente 100 TB de sub-amostras

de depósitos de dados multi-petabyte em poucos minutos,ao contrário do que em horas para se evitar gargalos

Centenas de requisições por dia ou milhares de requisiçõesdeixadas pendentes durante longos períodos

Page 17: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo Exabytes

As transações nesta escala correspondem à vazão de dados

de 10 Gbps a 1 Tbps para 10 transações por minuto e até 10

Tbps para transações de 1 minuto

São requeridas redes com larguras de banda muito maiores,

um sistema distribuído bastante flexível e serviços e

data-intensive Grid middleware

Page 18: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo Exabytes• A comunidade HENP é a principal dirigente,

arquiteta e co-desenvolvedora de Data Grids para definir ferramentas e técnicas de middleware para manipulação e análise data-intensive e também de infra-estrutura de rede, ferramentas e técnicas para transmissão de dados fim-a-fim

Page 19: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo ExabytesAtividades recentes:• Em junho de 2003, uma equipe de Caltech/CERN

conseguiu 0.94 Gbps de vazão sustentada com um único fluxo de IPv6 à distância de 7.000 Km (Chicago a Genebra).

Page 20: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo ExabytesAtividades recentes:

• Em fevereiro de 2003, uma equipe internacional de físicos e os cientistas de computação transferiram 1 TB de dados através de 10.037 Km em menos de 1 h de SLAC em Sunnyvale, CA, ao CERN em Genebra, sustentando uma taxa única de fluxo do TCP de 2.38 Gbps. Esta vazão é equivalente à transferência de um CD cheio em 2,3 segundos, 1.565 CDs por hora, 200 filmes estendidos de DVD em uma hora, ou um DVD em 18 segundos.

Page 21: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Centenas de Petabytes, logo ExabytesAtividades recentes:• Em novembro de 2002 na conferência do SC

2002 em Baltimore, Caltech usou o novo protocolo FAST TCP para conseguir 8.6 Gbps de vazão sobre um trajeto de 10.000 Km entre Sunnyvale e Amsterdam, transferindo 22 TB de dados em seis horas em 10 fluxos de TCP.

Page 22: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

ConclusãoA riqueza da informação prometida por estes esforços

pioneiros em pesquisas na e-science, significa desafios novos

na aquisição, no compartilhamento seguro e no controle de

acesso às bases de dados distribuídas, na distribuição

gerenciada, na visualização multidimensional em larga escala,

e na colaboração interdisciplinar através das redes globais em

uma escala sem precedentes na história da ciência.

Page 23: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH

Conclusão

Uma cyberinfrastructure integrada promete o primeiroambiente de sistemas distribuídos que serve a organizações

virtuais em uma escala global;

Estes novos sistemas poderão também conduzir às modalidadesnovas de interação entre povos e a informação permanente em suas

vidas diárias. Aprender a fornecer, administrar, e absorver estainformação em um ambiente permanente e colaborativo afetará

profundamente todos em termos de comércio, comunicações, saúde,e entretenimento, e não apenas em cientistas e suas experiências.

Page 24: DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH HARVEY B. NEWMAN, MARK H. ELLISMAN AND JOHN A. ORCUTT Alunos: Leybert Haidar Nelson Machado Junior

FIM