Upload
internet
View
102
Download
0
Tags:
Embed Size (px)
Citation preview
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
HARVEY B. NEWMAN, MARK H. ELLISMAN AND
JOHN A. ORCUTT
Alunos: Leybert Haidar
Nelson Machado Junior
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
A e-science de larga escala depende de uma
cyberinfrastructure cada vez mais integrada e distribuída
em uma escala global
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Agenda Definição de e-science; O porquê do investimento em e-science; Conseqüências; Evidências e Soluções; Modelo de infra-estrutura computacional voltado
para as pesquisas em e-science; Aplicações e atividades recentes; Conclusão
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
“Assim como a pesquisa em diversas frentes está se tornando cada vez mais dependente da computação, toda ciência, ao que parece, está se tornando ciência da computação” – George Johnson, 2001
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
O que é e-science? Definida por The UK Research Councils
como ciência de larga-escala realizada por meio de colaborações globais distribuídas habilitadas por redes de trabalho, que requerem acesso à coleções de dados muito grandes, a vários recursos de computação em larga-escala e a visualização de alta performance.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
O que incentiva o financiamento da e-science?• Crescente dependência da tecnologia da
informação;• Benefícios à pesquisa e à sociedade em grande
parte da colaboração permanente que atravessa distâncias intercontinentais;
• Habilidade de processar, disseminar, e compartilhar a informação em escalas sem precedentes.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Pioneiros no financiamento da e-science:• National Science Foundation (NSF); • Department of Energy (DOE);• National Institutes of Health (NIH);• NASA;• The High-Energy and Nuclear Physics (HENP)
Community é a mais avançada nos seus esforços em desenvolver sistemas data-intensive globalmente conectados habilitados em Grid.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Conseqüências das experiências em e-science Experiências da HENP utilizando alta-energia
Experiências em escalas crescentes de energia, junto com a crescente sensibilidade e complexidade das medidas, têm aumentado a escala e o custo de detectores e aceleradores de partículas, juntamente com a dimensão e dispersão geográfica das colaborações científicas, a saber: the Compact Muon Solenoid and A Toroidal LHC ApparatuS (ATLAS), cada uma realizando experiências para the European European Laboratory for Particle Physics (CERN) Large Hadron Collider (LHC), programa que envolve 2.000 físicos de 150 instituições de 36 países. A atual geração de experiências incluem “BaBar” realizada no the Stanford Linear Accelerator Center (SLAC) e “Dzero” e “the Collider Detector” realizadas no Fermilab - the Fermi National Accelerator Laboratory, Batavia, IL.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Conseqüências:• Essas experiências foram projetadas por
cientistas da HENP na expectativa de que seus volumes de dados cresçam da ordem de multi-petabyte para exabyte (1018 B) dentro dos próximos 10 a 15 anos;
• Ao mesmo tempo, espera-se que as correspondentes exigências de velocidade da rede em cada um dos principais links usados no campo de pesquisa cresçam da ordem de 10 Gbps para Tbps.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
O que fica evidenciado:• As necessidades de uma comunidade de
pesquisa globalmente distribuída, dependente dos instrumentos científicos que coletam Terabytes de dados diários, é gerenciável somente através de uma cyberinfrastructrure distribuída.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Solução
Model Cyberinfrastructure
Dando forma a essa cyberinfrastructure do futuro, os pesquisadores da HENP estão trabalhando com cientistas da computação para co-desenvolver
avançadas redes de testes e sistemas middleware em Grid. A HENP, junto com outras ciências de ensino,
está estendendo e modernizando este modelo.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Model Cyberinfrastructure • Os experimentos da LHC (Large Hadron
Collider), por exemplo, adotaram a Data Grid Hierarchy, ou um conjunto estruturado de computação e facilidades de manipulação de dados interconectados por redes, desenvolvidas no California Institute of Technology
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Model Cyberinfrastructure
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Model Cyberinfrastructure • Poder usar este conjunto global de sistemas depende
do desenvolvimento de Data Grids, ou depósitos de dados distribuídos, conectados via redes de alta velocidade, capazes de gerenciar e dirigir recursos Tier-N e apoiar o desenvolvimento de software colaborativo ao redor do mundo;
• Dado o preço/desempenho de rede disponível hoje, estimativas indicam que as necessidades das redes científicas mundiais alcançarão 10 Gbps dentro dos próximos dois a três anos.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
Os dados da HENP aumentarão de petabytes em
2002 a centenas de petabytes em 2007 e a
exabytes (1018 bytes) de 2012 a 2015
Aumento das transações em volume e em tamanho de dados extraídos
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
É necessário completar transações de extrações de dados típicas de 1-10 TB e, eventualmente 100 TB de sub-amostras
de depósitos de dados multi-petabyte em poucos minutos,ao contrário do que em horas para se evitar gargalos
Centenas de requisições por dia ou milhares de requisiçõesdeixadas pendentes durante longos períodos
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes
As transações nesta escala correspondem à vazão de dados
de 10 Gbps a 1 Tbps para 10 transações por minuto e até 10
Tbps para transações de 1 minuto
São requeridas redes com larguras de banda muito maiores,
um sistema distribuído bastante flexível e serviços e
data-intensive Grid middleware
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo Exabytes• A comunidade HENP é a principal dirigente,
arquiteta e co-desenvolvedora de Data Grids para definir ferramentas e técnicas de middleware para manipulação e análise data-intensive e também de infra-estrutura de rede, ferramentas e técnicas para transmissão de dados fim-a-fim
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo ExabytesAtividades recentes:• Em junho de 2003, uma equipe de Caltech/CERN
conseguiu 0.94 Gbps de vazão sustentada com um único fluxo de IPv6 à distância de 7.000 Km (Chicago a Genebra).
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo ExabytesAtividades recentes:
• Em fevereiro de 2003, uma equipe internacional de físicos e os cientistas de computação transferiram 1 TB de dados através de 10.037 Km em menos de 1 h de SLAC em Sunnyvale, CA, ao CERN em Genebra, sustentando uma taxa única de fluxo do TCP de 2.38 Gbps. Esta vazão é equivalente à transferência de um CD cheio em 2,3 segundos, 1.565 CDs por hora, 200 filmes estendidos de DVD em uma hora, ou um DVD em 18 segundos.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Centenas de Petabytes, logo ExabytesAtividades recentes:• Em novembro de 2002 na conferência do SC
2002 em Baltimore, Caltech usou o novo protocolo FAST TCP para conseguir 8.6 Gbps de vazão sobre um trajeto de 10.000 Km entre Sunnyvale e Amsterdam, transferindo 22 TB de dados em seis horas em 10 fluxos de TCP.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
ConclusãoA riqueza da informação prometida por estes esforços
pioneiros em pesquisas na e-science, significa desafios novos
na aquisição, no compartilhamento seguro e no controle de
acesso às bases de dados distribuídas, na distribuição
gerenciada, na visualização multidimensional em larga escala,
e na colaboração interdisciplinar através das redes globais em
uma escala sem precedentes na história da ciência.
DATA-INTENSIVE E-SCIENCE FRONTIER RESEARCH
Conclusão
Uma cyberinfrastructure integrada promete o primeiroambiente de sistemas distribuídos que serve a organizações
virtuais em uma escala global;
Estes novos sistemas poderão também conduzir às modalidadesnovas de interação entre povos e a informação permanente em suas
vidas diárias. Aprender a fornecer, administrar, e absorver estainformação em um ambiente permanente e colaborativo afetará
profundamente todos em termos de comércio, comunicações, saúde,e entretenimento, e não apenas em cientistas e suas experiências.
FIM