Lattice QCDにおける Pflops computing · 2011. 1. 11. · 1 1 Lattice QCDにおける Pflops...

Preview:

Citation preview

1

1

Lattice QCDにおけるPflops computing

宇川 彰筑波大学計算科学研究センター

SS研究会2006年8月29日

はじめに

素粒子標準模型とLattice QCD計算の観点から見たLattice QCDLattice QCDとスーパーコンピュータPflops computingの拓く世界Lattice QCDと国際協力まとめ

2

素粒子標準模型とLattice QCD

2

3

自然界の最小の構成要素とその相互作用は何か?

レプトン

6種類の電子やニュートリノ弱い相互作用・電磁相互作用

クォーク

6種類の“フレーバー(香り)”up, down, strange,charm, bottom, top3種類の“カラー(色)”強い相互作用・弱い相互作用・電磁相互作用

20世紀の100年間をかけて判ってきたことは.....

物質を構成する素粒子

クォーク(6種類)

レプトン(6種類)

相互作用(力)を媒介するゲージ粒子

光子 電磁相互作用

弱ボゾン 弱い相互作用

グルオン 強い相互作用

素粒子の標準模型

⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

⎛bt

cs

du

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

τµ ντ

νµ

ν e

e

γ

ZW ,

g

ワインバーグ・サラムの理論

量子色力学 (QCD)

u

ud

陽子=uud

ハドロン (陽子,中性子,π中間子等)は,3個又は2個のクォークの複合粒子

3

5

宇宙の進化と物質の起源 ー全歴史ー

3度

10度

1000度ビッグバン

直後の宇宙

を見ると?

6

宇宙温度 1012K 109K 3000K 20K 3K

宇宙の進化と物質の起源 -初期を拡大するとー

クォーク・グルオンのプラズマ状態

陽子・中性子の形成

元素の合成

原子の形成銀河・星・惑星...

宇宙時間 10 -5秒 1秒 1万年 10億年

4

7

宇宙の進化と物質の起源にかかわる謎

宇宙には反物質は存在しない.物質と反物質の非対称性はどのようにして生じたのか?

陽子や中性子は,クォークとグルオンのプラズマから,どのようにして形成されたのか?

宇宙に存在する様々の元素は,陽子と中性子から,どのようにして合成されたのか?

これらの疑問に答えるには,素粒子標準模型の記述する,クォークとレプトンから出発して,宇宙の進化と物質の起源を再構成しなければならない.

8

量子色力学 Quantum Chromodynamics

強い相互作用の基本法則

基本自由度であるクォークとグルオンは4次元時空の“場”で記述される

無限個の自由度が非線形に強く結合した相対論的な量

子力学系

解析的解法(“紙と鉛筆”)では解くことができず,大規模

シミュレーションが唯一の有効な解法

Gross-Wilczek-Politzer 1973

( )( )xA

xq f

µ

クォーク場

グルオン場

4次元の時空の各点 に定義された場x

5

9

時空格子上のQCD (Lattice QCD)

ファインマンの経路積分

作用

物理量は超多重積分平均

( ) ( )( ) QCDS

nnn

nn eqqUUOdqqddU

ZqqUO −∫ ∏∏= ,,,1,,

µµ

Wilson 1974

4次元時空の連続体 4次元単純立法格子

クォーク場は各格子点に定義

nq

µnUグルオン場は各格子リンクに定義

( ) ( )∑∑ +=mn

mnmnPs

QCD qUDqUUUUtrg

S,

2

1

モンテカルロ法による超多重積分平均の計算

10

計算の観点から見たLattice QCD

6

11

基本変数と基本操作

4次元単純立方格子格子点数

格子間隔

基本変数

グルオン場 3x3x4V ベクトル 各格子線分(リンク)に定義

クォーク場 3x4xV ベクトル 各格子点(サイト)に定義

並列化

物理格子を部分格子に分割して

プロセッサアレイにマップ

基本変数の相互作用は隣接格子点のみ

⇒通信は隣接プロセッサ間のみ

abnUa

nqα

tzyx LLLLV ×××=a

zL

yLxL

a

高度にスケーラブルな問題

PU1 PU2

PU3 PU4

12

アルゴリズムとコア計算

アルゴリズム:HMC(Hybrid Monte Carlo) 法が基礎

グルオン場の配位生成(モンテ・カルロ・サンプルの生成)

作用をエネルギー関数とする分子動力学法とメトロポリス棄却を組み合わ

せたモンテカルロ法

コア計算

クォークを処理する大次元連立一次方程式の求解

D(U):複素12Vx12V次元疎行列

グルオン配位Uの変更毎に計算

BiCGStab法等の反復法を使用

コア・サブルーチン MULT

( ) nmm

nm bxUD =∑

( ) mm

nmn pUDp ∑→

7

13

並列化:3次元空間分割を仮定

物理格子

計算ノード

tzyx LLLL ×××

zyx nnn ××

コア計算の特徴(I)

演算

全て複素演算

隣接サイト結合

各リンク毎に3x3行列Uの乗算→演算量大

サイトあたり演算量

通信

隣接ノード通信

通信量

( ) mm

nmn pUDp ∑→

U p

( ) ( ) ( ) ( ) flopLnLnLnL tzzyyxx 2////1752 ××××

( ) ( ) BytepermnnLLL yxyxt 162/12/12 ××+⋅⋅×+×

14

コア計算の特徴(II)

通信時間の全計算時間に占める比率

ノード間結合リンクあたり通信性能

T GByte/s

ノードあたり演算性能

F Gflop/s

( ) mm

nmn pUDp ∑→

( )( ) 1

//

48101

1

+⋅⋅sGflopFsGByteT

nN

s

s

T/F=1

T/F=0.1

演算性能,通信性能,共に強力であることが必要

0

20

40

60

80

100

0 5 10 15 20 25

全計算時間に対する通信時間比率%

T/F=2T/F=1T/F=0.5T/F=0.1T/F=0.05

ノードあたり格子サイズ

T:TByte/sF:Gflops

8

15

演算量のスケーリング

基本パラメータ:

クォーク質量

格子サイズ

格子間隔

従来のHMCアルゴリズム(従来型)の演算量

領域分割法・マルチタイムステップ法などによる加速

8.21.036.0

/1000#'#

756

⋅⎥⎦

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥⎦⎤

⎢⎣⎡⋅=

−−

C

yearTflopsfm

afmLmmconfCsFLOP ρπ

ρπ mm /

( )fma( )fmL

mfm 15101 −=注:長さの単位

11.01.036.0

/1000#'#

754

⋅⎥⎦

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥⎦⎤

⎢⎣⎡⋅=

−−

C

yearTflopsfm

afmLmmconfCsFLOP ρπ

L

a

16

Lattice QCD計算の演算量例:現時点の計算

従来のHMCアルゴリズム

クォーク質量

自然界の値

加速されたHMCアルゴリズム(領域分割,マルチタイムステップ等)

クォーク質量

30x30x30x60

30x30x30x60

42x42x42x84

9

17

Lattice QCD計算の特徴のまとめ

計算構造は比較的単純4次元だが単純立方格子単一スケール問題

演算と通信の双方共に重要複素演算

近接相互作用

膨大な演算量自然界に対応する計算パラメータへの厳しいスケーリングクォーク行列の条件数はクォーク質量に逆比例

物理サイズは大きく取る必要

格子間隔は小さく取る必要

精密計算が必須統計誤差と系統誤差を全て考慮して数%以下の精度

18

Lattice QCD とスーパーコンピュータ

10

19

Lattice QCDの発展(I):1981年

msize 15102 −×≈

lattice size lattice spacing

L= 0.8 fm a = 0.1 fm

1981 First Lattice QCD simulation

VAX

Mflopsspeed 1≈

44~ 84 latticequenched approx (no sea quarks)

Creutz-Jacobs-RebbiCreutzWilsonWeingartenHamber-Parisi

20

L(fm) a(fm)

1981 0.8 0.11985 1.2 0.11988 1.6 0.1

ベクトル型スパコンと共に発展CRAY-XMP,YMPVP100/200,S810/20,SX-1/2

CRAY-XMP

1 GFLOPS = one billon flop/sec

Lattice QCDの発展(II):1980年代

vector supercomputers

11

21

L(fm) a(fm)1993 2.4 0.07 QCDPAX(JPN) APE(Italy)

Columbia(USA) GF11(USA)

Lattice QCDの発展(III):1990年代前半

QCD用超並列計算機の出現 O(10)Gflops

vector supercomputers

parallel supercomputers

22

L(fm) a(fm)1998 3.0 0.05

Lattice QCDの発展(IV):1990年代後半

CP-PACS(JPN) QCDSP(USA)

第二世代超並列計算機 O(500)Gflops

parallel supercomputers

12

23

L(fm) a(fm)2006 2.4 0.1

PACS-CS(Jpn)

ApeNEXT(Italy)

QCDOC(USA)

Lattice QCDの発展(V):2000年代前半

第三世代超並列機 O(10)Tflops商用機への発展 QCDOC BG/L O(100)Tflops

vector supercomputers

parallel supercomputers

24

Lattice QCDとトップスーパーコンピュータ

数値風洞NWT

CP-PACS

地球シミュレータES BlueGene/L

格子QCDコードでGordon Bell Prize(1995)

格子QCDコードでGordon Bell Prize runner-up (1997)

QCDOC米国Columbia大学

最初のQCDシミュレーション(1980)

13

25

エポックメイキングな計算

26

述語の定義:クェンチ近似とfull QCD計算

クェンチ近似クォークの動的効果を無視する近似;真空でのクォーク・反クォークの対生成・対消滅の効果を無視

計算量が約100分の一に軽減される

Full QCD計算クォークの動的効果を忠実に取り入れた計算

6種類のクォークの内,特に軽いup,down,strangeの効果を取り入れることが重要 “Nf=2+1 QCD”

14

27

クェンチ近似でのハドロン質量スペクトル(1998)

1981年来の懸案1981 最初の計算

1991 GF11(10Gflops) 系統的計算法の確立

1998 CP-PACS (614Gflops) 計算精度(統計誤差+系統誤差)

3%以下の精密計算

物理結果

定性的一致の確認

5-10%レベルでの系統的差異を確認;クォークの動的効果の間

接的証拠

計算量

CP-PACS(0.6Tflops)で199日=0.17Tflops・year CP-PACS(1998)

28

CP 非保存パラメータ ε’/εのクェンチ計算(I)

K中間子が2個のπ中間子に壊れる振幅の計算

標準模型によってCP非保存(物質・反物質の非対称性)を理解するために本質的な物理量

実験では,約30年をかけた大変な実験により漸くその値が決まった(FNALとCERN)

⎥⎦

⎤⎢⎣

⎡−=

0

0

2

2

ReIm

ReIm

2'

AA

AA

εω

εε

K→ππ崩壊

15

29

CP 非保存パラメータ ε’/εのクェンチ計算(II)

クェンチ近似のLattice QCD計算(2003)

CP-PACS(614Gflops)QCDOC(600Gflops)

こちらも苦節17年の末,漸く統計誤差が付けられる結果と得た.

しかし,符合すら合わない

素粒子物理全体に関る

グランドチャレンジ問題

⎥⎦

⎤⎢⎣

⎡−=

0

0

2

2

ReIm

ReIm

2'

AA

AA

εω

εε

CP-PACS Collaboration, Phys.Rev. D68 (2003) 014501RBC Collaboration, Phys.Rev. D68 (2003) 114506

30

クォークの動的効果を取り入れた計算(2004)

fK

3MΞ −MN

2MBs −MΥ

ψ(1P − 1S)

Υ(1D − 1S)

Υ(2P − 1S)

Υ(3S − 1S)

Υ(1P − 1S)

LQCD/Exp’t (nf = 0)1.110.9

LQCD/Exp’t (nf = 3)1.110.9

HPQCD/UKQCD/MILC/FNAL PRL92(2004)022001

Light sector

Heavy sector

Quenched results Nf=2+1 results

米国・英国の共同研究グループの計算

クォークの動的効果を取り入れた計算により,様々の物理量が数%精度で実験値と一致

動的クォークの効果の重要性を証明

計算量:1Tflops・year?

16

31

クォーク質量の計算(2005)

2.5

3

3.5

4

4.5

5

mud

MS(µ

=2G

eV)

[MeV

]

Nf=0

Nf=2

Nf=2+1 (K-input)

AWI

( )

( )MeV

GeVSMmMeV

GeVSMm

strange

downup

7.39.90

2,15.048.3

2,

±=

±=−

動的クォークの効果を取り入れたLattice QCD (Nf=2+1) 計算クォークの質量を始めて連続極限で評価し.従来から用いられてきた値より大幅に小さいことを見出した。

使用計算機

Earth Simulator,KEK SR8000CP-PACS, VPP5000計算量

3年がかりで,3.4Tflops・year

up,downクォーク質量 strangeクォーク質量

Tsukuba-KEK(2005)

32

Pflops computing と Lattice QCD

17

33

演算量のスケーリング再考

基本パラメータ:

クォーク質量

格子サイズ

格子間隔

従来のHMCアルゴリズム(従来型)の演算量

領域分割法・マルチタイムステップ法などによる加速

8.21.036.0

/1000#'#

756

⋅⎥⎦

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥⎦⎤

⎢⎣⎡⋅=

−−

C

yearTflopsfm

afmLmmconfCsFLOP ρπ

ρπ mm /

( )fma( )fmL

mfm 15101 −=注:長さの単位

11.01.036.0

/1000#'#

754

⋅⎥⎦

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥

⎤⎢⎣

⎡⋅⎥⎦⎤

⎢⎣⎡⋅=

−−

C

yearTflopsfm

afmLmmconfCsFLOP ρπ

L

a

34

Lattice QCD計算の現況(I)

従来のHMCアルゴリズム

クォーク質量

自然界の値

Tsukuba-KEK

加速されたHMCアルゴリズム(領域分割,マルチタイムステップ等)

QCDOCBlueGene/LApeNEXTPACS-CS

18

35

Lattice QCD計算の現況(II)

ハドロンの一体問題,即ち,個々のハドロン(陽子や中性子)の性質を,クォーク・グルオンの第一原理に即して,近似や外挿を行わずに解明・

予言する計算が,漸く可能と成りつつある

1個のハドロンを入れるのに十分なサイズの格子

自然界のup, down, strangeクォークに対応する極めて軽いクォーク質量での計算

必要とする計算量

投入可能なコンピュータ資源QCDOC 10Tflops x 2(USA), x1(UK)ApeNEXT 7Tflops x 1(Rome), 6Tflops x 2(Germany) 等PACS-CS 14.3Tflops(Tsukuba)BlueGene/L 57Tflops (KEK), 46Tflops (Julich/Germany) etc

yearTflops ⋅≈10 L=3m

36

Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(I)

L=6m

L=9mハドロンーハドロン相互作用の研究 ハドロンガス⇔

クォークグルオンプラズマ相転移の研究

19

37

Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(II)

60x60x60x120

84x84x84x168

90x90x90x180

126xx126x126x252

38

宇宙温度 1012K 109K 3000K 20K 3K

宇宙の進化と物質の起源再見

クォーク・グルオンのプラズマ状態

陽子・中性子の形成

元素の合成

原子の形成銀河・星・惑星...

宇宙時間 10 -5秒 1秒 1万年 10億年

20

39

ハドロン単体のシミュレーションから,ハドロン多体のシミュレーションへハドロン間相互作用

様々な原子核の成り立ち

宇宙における元素合成

物質・反物質の非対称性の起源

クォーク・グルオン・プラズマ相転移とプラズマ相の物理特性

計算規模100x100x100x200規模の格子(4次元格子作用の場合)(50x50x50x100規模の格子(カイラル格子作用の場合))O(1)-O(10) Pflops・yearの計算量

Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(III)

40

Lattice QCDと国際協力

21

41

Lattice QCD主要拠点と計算リソース

Main supercomputer sites

KEK

Hiroshima U

Kyoto UU. Tsukuba

PACS-CS

BlueGene/LEdinburgh

GlasgowLiverpool

Southampton

Swansea DESY/NeumannBerlin/Zeuthen

BielefeldRegensburg

QCDOC

APENEXT x 3

BlueGene/L

FNAL

Washinghon U

UCSB

MIT/Boston U

BNL/Columbia

JLAB

Arizona

Utah

Indiana

St.Louise

QCDOC x 2

BlueGene/L

米国,欧州(英・独・伊他),日本を中心に,約10ヶ所

2006年夏時点で,トータル約150Tflopsのリソース

42

International Lattice Data Grid(I)

Lattice QCD 計算のサイクル基本データはグルオン場の配位(モンテカルロサンプル)

トップエンドマシンで数ヶ月から数ヵ年をかけて数千個から数万個の配位を生成

一度配位が生成されれば,その上では,様々の物理量が計算できる.

データグリッド構築による国際協力が高い意義

“International Lattice Data Grid” (ILDG)2002年に米・英・独・日により準備を開始2004年ILDG Boardを設置2006年夏に米・英・独・日のサイトが運用開始現在の加盟国 米・英・独・日・オーストラリア・伊・仏

22

43

ILDGのための国際標準規格の制定

QCDml v1.1 XMLによるグルオン配位を記述するメタデータ2004年8月制定

Binary file format v1.0グルオン配位のファイルファーマット

2005年5月制定

Middleware architechtureグルオン配位の検索・ダウンロードのための共通インターフェース仕様;実装は各国の独自性に任せる

2004年12月制定

44

Japan Lattice Data Grid (JLDG)

目標日本国内のLattice QCDデータグリッドの構築ILDGとのゲートウェイの構築

参加機関(2006年8月時点)筑波大学,KEK,京都大学,広島大学2005年11月に発足

ILDGとのゲートウェイLattice QCD Archive (LQA)筑波大学にて運用・管理

23

45

SuperSinetの利用

SuperSINET 1Gbps 専用線を使用

国内Lattice QCD主要サイトを

接続

現在,6サイト間でmirroringによりデータ保持 (ディスク容量10TBx6)

素粒子理論計算のための国内ネットワーク

46

JLDG の構成

unix-like なグリッドファイルシステム(Gfarmを使用)

各拠点にストレージを配置,Hepnet-J/scで接続

Mirroringを自動化

ILDG インターフェース

Grid File System

Grid server

Grid NAS

Local NASSC

Grid server

Grid NAS

Local NASSC

Hepnet-J/sc Tsukuba KEK Kyoto.....

ILDG

ILDG Gateway

24

47

Lattice QCD Archive (LQA)

国内のLattice QCDデータのILDGとのゲートウェイ

運用 2004年2月~蓄積データ

Nf=2データ 9750件 1.90TByte(公開済)

Nf=2+1データ 18050件 3.69TByte (近日公開予定)

Pflops時代にはO(10)-O(100)Pbyte米・欧に4~5拠点

ファイル交換?

2251Jun-05

5931Jul-05

4688Aug-05

683Sep-05

2Oct-05

0Nov-05

725Dec-05

1147Jan-06

1136Feb-06

925Mar-06

1672Apr-06

1456May-06

Data downloadDate

月間ダウンロード件数

48

Lattice QCD Archive (LQA)

トップページ 検索エンジンページ

25

49

まとめ

サイエンスとしてのLattice QCD

素粒子・原子核から宇宙の進化と物質の起源を解き明かす基礎物理学の重要

課題

一体問題(素粒子)が漸く解決の見込みがつき,多体問題(原子核から宇宙

へ)への展開が喫緊の課題

計算科学としてのLattice QCD

近接相互作用する場の量子力学系;極めて高いスケーラビリティを持つ問題

従来からcapability computingの代表例であり,次のステップにはPflopsスケールを超える計算が必要

Lattice QCDと国際協力

コンピュータ開発と研究の両面で国際的に厳しい競争

それと同時に,ILDGを通じて国際協力の動きが活発であり,将来的な国際的研究環境の基盤になると考えられる

Recommended