1
1
Lattice QCDにおけるPflops computing
宇川 彰筑波大学計算科学研究センター
SS研究会2006年8月29日
はじめに
素粒子標準模型とLattice QCD計算の観点から見たLattice QCDLattice QCDとスーパーコンピュータPflops computingの拓く世界Lattice QCDと国際協力まとめ
2
素粒子標準模型とLattice QCD
2
3
自然界の最小の構成要素とその相互作用は何か?
レプトン
6種類の電子やニュートリノ弱い相互作用・電磁相互作用
クォーク
6種類の“フレーバー(香り)”up, down, strange,charm, bottom, top3種類の“カラー(色)”強い相互作用・弱い相互作用・電磁相互作用
20世紀の100年間をかけて判ってきたことは.....
物質を構成する素粒子
クォーク(6種類)
レプトン(6種類)
相互作用(力)を媒介するゲージ粒子
光子 電磁相互作用
弱ボゾン 弱い相互作用
グルオン 強い相互作用
素粒子の標準模型
⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛bt
cs
du
⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎟⎠
⎞⎜⎜⎝
⎛
τµ ντ
νµ
ν e
e
γ
ZW ,
g
ワインバーグ・サラムの理論
量子色力学 (QCD)
u
ud
陽子=uud
ハドロン (陽子,中性子,π中間子等)は,3個又は2個のクォークの複合粒子
3
5
宇宙の進化と物質の起源 ー全歴史ー
3度
10度
1000度ビッグバン
直後の宇宙
を見ると?
6
宇宙温度 1012K 109K 3000K 20K 3K
宇宙の進化と物質の起源 -初期を拡大するとー
クォーク・グルオンのプラズマ状態
陽子・中性子の形成
元素の合成
原子の形成銀河・星・惑星...
宇宙時間 10 -5秒 1秒 1万年 10億年
4
7
宇宙の進化と物質の起源にかかわる謎
宇宙には反物質は存在しない.物質と反物質の非対称性はどのようにして生じたのか?
陽子や中性子は,クォークとグルオンのプラズマから,どのようにして形成されたのか?
宇宙に存在する様々の元素は,陽子と中性子から,どのようにして合成されたのか?
これらの疑問に答えるには,素粒子標準模型の記述する,クォークとレプトンから出発して,宇宙の進化と物質の起源を再構成しなければならない.
8
量子色力学 Quantum Chromodynamics
強い相互作用の基本法則
基本自由度であるクォークとグルオンは4次元時空の“場”で記述される
無限個の自由度が非線形に強く結合した相対論的な量
子力学系
解析的解法(“紙と鉛筆”)では解くことができず,大規模
シミュレーションが唯一の有効な解法
Gross-Wilczek-Politzer 1973
( )( )xA
xq f
µ
クォーク場
グルオン場
4次元の時空の各点 に定義された場x
5
9
時空格子上のQCD (Lattice QCD)
ファインマンの経路積分
作用
物理量は超多重積分平均
( ) ( )( ) QCDS
nnn
nn eqqUUOdqqddU
ZqqUO −∫ ∏∏= ,,,1,,
µµ
Wilson 1974
4次元時空の連続体 4次元単純立法格子
クォーク場は各格子点に定義
nq
µnUグルオン場は各格子リンクに定義
( ) ( )∑∑ +=mn
mnmnPs
QCD qUDqUUUUtrg
S,
2
1
モンテカルロ法による超多重積分平均の計算
10
計算の観点から見たLattice QCD
6
11
基本変数と基本操作
4次元単純立方格子格子点数
格子間隔
基本変数
グルオン場 3x3x4V ベクトル 各格子線分(リンク)に定義
クォーク場 3x4xV ベクトル 各格子点(サイト)に定義
並列化
物理格子を部分格子に分割して
プロセッサアレイにマップ
基本変数の相互作用は隣接格子点のみ
⇒通信は隣接プロセッサ間のみ
abnUa
nqα
tzyx LLLLV ×××=a
zL
yLxL
a
高度にスケーラブルな問題
PU1 PU2
PU3 PU4
12
アルゴリズムとコア計算
アルゴリズム:HMC(Hybrid Monte Carlo) 法が基礎
グルオン場の配位生成(モンテ・カルロ・サンプルの生成)
作用をエネルギー関数とする分子動力学法とメトロポリス棄却を組み合わ
せたモンテカルロ法
コア計算
クォークを処理する大次元連立一次方程式の求解
D(U):複素12Vx12V次元疎行列
グルオン配位Uの変更毎に計算
BiCGStab法等の反復法を使用
コア・サブルーチン MULT
( ) nmm
nm bxUD =∑
( ) mm
nmn pUDp ∑→
7
13
並列化:3次元空間分割を仮定
物理格子
計算ノード
tzyx LLLL ×××
zyx nnn ××
コア計算の特徴(I)
演算
全て複素演算
隣接サイト結合
各リンク毎に3x3行列Uの乗算→演算量大
サイトあたり演算量
通信
隣接ノード通信
通信量
( ) mm
nmn pUDp ∑→
U p
( ) ( ) ( ) ( ) flopLnLnLnL tzzyyxx 2////1752 ××××
( ) ( ) BytepermnnLLL yxyxt 162/12/12 ××+⋅⋅×+×
14
コア計算の特徴(II)
通信時間の全計算時間に占める比率
ノード間結合リンクあたり通信性能
T GByte/s
ノードあたり演算性能
F Gflop/s
( ) mm
nmn pUDp ∑→
( )( ) 1
//
48101
1
+⋅⋅sGflopFsGByteT
nN
s
s
T/F=1
T/F=0.1
演算性能,通信性能,共に強力であることが必要
0
20
40
60
80
100
0 5 10 15 20 25
全計算時間に対する通信時間比率%
T/F=2T/F=1T/F=0.5T/F=0.1T/F=0.05
ノードあたり格子サイズ
T:TByte/sF:Gflops
8
15
演算量のスケーリング
基本パラメータ:
クォーク質量
格子サイズ
格子間隔
従来のHMCアルゴリズム(従来型)の演算量
領域分割法・マルチタイムステップ法などによる加速
8.21.036.0
/1000#'#
756
≈
⋅⎥⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥⎦⎤
⎢⎣⎡⋅=
−−
C
yearTflopsfm
afmLmmconfCsFLOP ρπ
ρπ mm /
( )fma( )fmL
mfm 15101 −=注:長さの単位
11.01.036.0
/1000#'#
754
≈
⋅⎥⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥⎦⎤
⎢⎣⎡⋅=
−−
C
yearTflopsfm
afmLmmconfCsFLOP ρπ
L
a
16
Lattice QCD計算の演算量例:現時点の計算
従来のHMCアルゴリズム
クォーク質量
自然界の値
加速されたHMCアルゴリズム(領域分割,マルチタイムステップ等)
クォーク質量
30x30x30x60
30x30x30x60
42x42x42x84
9
17
Lattice QCD計算の特徴のまとめ
計算構造は比較的単純4次元だが単純立方格子単一スケール問題
演算と通信の双方共に重要複素演算
近接相互作用
膨大な演算量自然界に対応する計算パラメータへの厳しいスケーリングクォーク行列の条件数はクォーク質量に逆比例
物理サイズは大きく取る必要
格子間隔は小さく取る必要
精密計算が必須統計誤差と系統誤差を全て考慮して数%以下の精度
18
Lattice QCD とスーパーコンピュータ
10
19
Lattice QCDの発展(I):1981年
msize 15102 −×≈
lattice size lattice spacing
L= 0.8 fm a = 0.1 fm
1981 First Lattice QCD simulation
VAX
Mflopsspeed 1≈
44~ 84 latticequenched approx (no sea quarks)
Creutz-Jacobs-RebbiCreutzWilsonWeingartenHamber-Parisi
20
L(fm) a(fm)
1981 0.8 0.11985 1.2 0.11988 1.6 0.1
ベクトル型スパコンと共に発展CRAY-XMP,YMPVP100/200,S810/20,SX-1/2
CRAY-XMP
1 GFLOPS = one billon flop/sec
Lattice QCDの発展(II):1980年代
vector supercomputers
11
21
L(fm) a(fm)1993 2.4 0.07 QCDPAX(JPN) APE(Italy)
Columbia(USA) GF11(USA)
Lattice QCDの発展(III):1990年代前半
QCD用超並列計算機の出現 O(10)Gflops
vector supercomputers
parallel supercomputers
22
L(fm) a(fm)1998 3.0 0.05
Lattice QCDの発展(IV):1990年代後半
CP-PACS(JPN) QCDSP(USA)
第二世代超並列計算機 O(500)Gflops
parallel supercomputers
12
23
L(fm) a(fm)2006 2.4 0.1
PACS-CS(Jpn)
ApeNEXT(Italy)
QCDOC(USA)
Lattice QCDの発展(V):2000年代前半
第三世代超並列機 O(10)Tflops商用機への発展 QCDOC BG/L O(100)Tflops
vector supercomputers
parallel supercomputers
24
Lattice QCDとトップスーパーコンピュータ
数値風洞NWT
CP-PACS
地球シミュレータES BlueGene/L
格子QCDコードでGordon Bell Prize(1995)
格子QCDコードでGordon Bell Prize runner-up (1997)
QCDOC米国Columbia大学
最初のQCDシミュレーション(1980)
13
25
エポックメイキングな計算
26
述語の定義:クェンチ近似とfull QCD計算
クェンチ近似クォークの動的効果を無視する近似;真空でのクォーク・反クォークの対生成・対消滅の効果を無視
計算量が約100分の一に軽減される
Full QCD計算クォークの動的効果を忠実に取り入れた計算
6種類のクォークの内,特に軽いup,down,strangeの効果を取り入れることが重要 “Nf=2+1 QCD”
14
27
クェンチ近似でのハドロン質量スペクトル(1998)
1981年来の懸案1981 最初の計算
1991 GF11(10Gflops) 系統的計算法の確立
1998 CP-PACS (614Gflops) 計算精度(統計誤差+系統誤差)
3%以下の精密計算
物理結果
定性的一致の確認
5-10%レベルでの系統的差異を確認;クォークの動的効果の間
接的証拠
計算量
CP-PACS(0.6Tflops)で199日=0.17Tflops・year CP-PACS(1998)
28
CP 非保存パラメータ ε’/εのクェンチ計算(I)
K中間子が2個のπ中間子に壊れる振幅の計算
標準模型によってCP非保存(物質・反物質の非対称性)を理解するために本質的な物理量
実験では,約30年をかけた大変な実験により漸くその値が決まった(FNALとCERN)
⎥⎦
⎤⎢⎣
⎡−=
0
0
2
2
ReIm
ReIm
2'
AA
AA
εω
εε
K→ππ崩壊
15
29
CP 非保存パラメータ ε’/εのクェンチ計算(II)
クェンチ近似のLattice QCD計算(2003)
CP-PACS(614Gflops)QCDOC(600Gflops)
こちらも苦節17年の末,漸く統計誤差が付けられる結果と得た.
しかし,符合すら合わない
素粒子物理全体に関る
グランドチャレンジ問題
⎥⎦
⎤⎢⎣
⎡−=
0
0
2
2
ReIm
ReIm
2'
AA
AA
εω
εε
CP-PACS Collaboration, Phys.Rev. D68 (2003) 014501RBC Collaboration, Phys.Rev. D68 (2003) 114506
30
クォークの動的効果を取り入れた計算(2004)
fπ
fK
3MΞ −MN
2MBs −MΥ
ψ(1P − 1S)
Υ(1D − 1S)
Υ(2P − 1S)
Υ(3S − 1S)
Υ(1P − 1S)
LQCD/Exp’t (nf = 0)1.110.9
LQCD/Exp’t (nf = 3)1.110.9
HPQCD/UKQCD/MILC/FNAL PRL92(2004)022001
Light sector
Heavy sector
Quenched results Nf=2+1 results
米国・英国の共同研究グループの計算
クォークの動的効果を取り入れた計算により,様々の物理量が数%精度で実験値と一致
動的クォークの効果の重要性を証明
計算量:1Tflops・year?
16
31
クォーク質量の計算(2005)
2.5
3
3.5
4
4.5
5
mud
MS(µ
=2G
eV)
[MeV
]
Nf=0
Nf=2
Nf=2+1 (K-input)
AWI
( )
( )MeV
GeVSMmMeV
GeVSMm
strange
downup
7.39.90
2,15.048.3
2,
±=
±=−
動的クォークの効果を取り入れたLattice QCD (Nf=2+1) 計算クォークの質量を始めて連続極限で評価し.従来から用いられてきた値より大幅に小さいことを見出した。
使用計算機
Earth Simulator,KEK SR8000CP-PACS, VPP5000計算量
3年がかりで,3.4Tflops・year
up,downクォーク質量 strangeクォーク質量
Tsukuba-KEK(2005)
32
Pflops computing と Lattice QCD
17
33
演算量のスケーリング再考
基本パラメータ:
クォーク質量
格子サイズ
格子間隔
従来のHMCアルゴリズム(従来型)の演算量
領域分割法・マルチタイムステップ法などによる加速
8.21.036.0
/1000#'#
756
≈
⋅⎥⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥⎦⎤
⎢⎣⎡⋅=
−−
C
yearTflopsfm
afmLmmconfCsFLOP ρπ
ρπ mm /
( )fma( )fmL
mfm 15101 −=注:長さの単位
11.01.036.0
/1000#'#
754
≈
⋅⎥⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥
⎦
⎤⎢⎣
⎡⋅⎥⎦⎤
⎢⎣⎡⋅=
−−
C
yearTflopsfm
afmLmmconfCsFLOP ρπ
L
a
34
Lattice QCD計算の現況(I)
従来のHMCアルゴリズム
クォーク質量
自然界の値
Tsukuba-KEK
加速されたHMCアルゴリズム(領域分割,マルチタイムステップ等)
QCDOCBlueGene/LApeNEXTPACS-CS
18
35
Lattice QCD計算の現況(II)
ハドロンの一体問題,即ち,個々のハドロン(陽子や中性子)の性質を,クォーク・グルオンの第一原理に即して,近似や外挿を行わずに解明・
予言する計算が,漸く可能と成りつつある
1個のハドロンを入れるのに十分なサイズの格子
自然界のup, down, strangeクォークに対応する極めて軽いクォーク質量での計算
必要とする計算量
投入可能なコンピュータ資源QCDOC 10Tflops x 2(USA), x1(UK)ApeNEXT 7Tflops x 1(Rome), 6Tflops x 2(Germany) 等PACS-CS 14.3Tflops(Tsukuba)BlueGene/L 57Tflops (KEK), 46Tflops (Julich/Germany) etc
yearTflops ⋅≈10 L=3m
36
Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(I)
L=6m
L=9mハドロンーハドロン相互作用の研究 ハドロンガス⇔
クォークグルオンプラズマ相転移の研究
19
37
Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(II)
60x60x60x120
84x84x84x168
90x90x90x180
126xx126x126x252
38
宇宙温度 1012K 109K 3000K 20K 3K
宇宙の進化と物質の起源再見
クォーク・グルオンのプラズマ状態
陽子・中性子の形成
元素の合成
原子の形成銀河・星・惑星...
宇宙時間 10 -5秒 1秒 1万年 10億年
20
39
ハドロン単体のシミュレーションから,ハドロン多体のシミュレーションへハドロン間相互作用
様々な原子核の成り立ち
宇宙における元素合成
物質・反物質の非対称性の起源
クォーク・グルオン・プラズマ相転移とプラズマ相の物理特性
計算規模100x100x100x200規模の格子(4次元格子作用の場合)(50x50x50x100規模の格子(カイラル格子作用の場合))O(1)-O(10) Pflops・yearの計算量
Pflopsスケール計算の目標:素粒子から原子核・宇宙へ(III)
40
Lattice QCDと国際協力
21
41
Lattice QCD主要拠点と計算リソース
Main supercomputer sites
KEK
Hiroshima U
Kyoto UU. Tsukuba
PACS-CS
BlueGene/LEdinburgh
GlasgowLiverpool
Southampton
Swansea DESY/NeumannBerlin/Zeuthen
BielefeldRegensburg
QCDOC
APENEXT x 3
BlueGene/L
FNAL
Washinghon U
UCSB
MIT/Boston U
BNL/Columbia
JLAB
Arizona
Utah
Indiana
St.Louise
QCDOC x 2
BlueGene/L
米国,欧州(英・独・伊他),日本を中心に,約10ヶ所
2006年夏時点で,トータル約150Tflopsのリソース
42
International Lattice Data Grid(I)
Lattice QCD 計算のサイクル基本データはグルオン場の配位(モンテカルロサンプル)
トップエンドマシンで数ヶ月から数ヵ年をかけて数千個から数万個の配位を生成
一度配位が生成されれば,その上では,様々の物理量が計算できる.
データグリッド構築による国際協力が高い意義
“International Lattice Data Grid” (ILDG)2002年に米・英・独・日により準備を開始2004年ILDG Boardを設置2006年夏に米・英・独・日のサイトが運用開始現在の加盟国 米・英・独・日・オーストラリア・伊・仏
22
43
ILDGのための国際標準規格の制定
QCDml v1.1 XMLによるグルオン配位を記述するメタデータ2004年8月制定
Binary file format v1.0グルオン配位のファイルファーマット
2005年5月制定
Middleware architechtureグルオン配位の検索・ダウンロードのための共通インターフェース仕様;実装は各国の独自性に任せる
2004年12月制定
44
Japan Lattice Data Grid (JLDG)
目標日本国内のLattice QCDデータグリッドの構築ILDGとのゲートウェイの構築
参加機関(2006年8月時点)筑波大学,KEK,京都大学,広島大学2005年11月に発足
ILDGとのゲートウェイLattice QCD Archive (LQA)筑波大学にて運用・管理
23
45
SuperSinetの利用
SuperSINET 1Gbps 専用線を使用
国内Lattice QCD主要サイトを
接続
現在,6サイト間でmirroringによりデータ保持 (ディスク容量10TBx6)
素粒子理論計算のための国内ネットワーク
46
JLDG の構成
unix-like なグリッドファイルシステム(Gfarmを使用)
各拠点にストレージを配置,Hepnet-J/scで接続
Mirroringを自動化
ILDG インターフェース
Grid File System
Grid server
Grid NAS
Local NASSC
Grid server
Grid NAS
Local NASSC
Hepnet-J/sc Tsukuba KEK Kyoto.....
ILDG
ILDG Gateway
24
47
Lattice QCD Archive (LQA)
国内のLattice QCDデータのILDGとのゲートウェイ
運用 2004年2月~蓄積データ
Nf=2データ 9750件 1.90TByte(公開済)
Nf=2+1データ 18050件 3.69TByte (近日公開予定)
Pflops時代にはO(10)-O(100)Pbyte米・欧に4~5拠点
ファイル交換?
2251Jun-05
5931Jul-05
4688Aug-05
683Sep-05
2Oct-05
0Nov-05
725Dec-05
1147Jan-06
1136Feb-06
925Mar-06
1672Apr-06
1456May-06
Data downloadDate
月間ダウンロード件数
48
Lattice QCD Archive (LQA)
トップページ 検索エンジンページ
25
49
まとめ
サイエンスとしてのLattice QCD
素粒子・原子核から宇宙の進化と物質の起源を解き明かす基礎物理学の重要
課題
一体問題(素粒子)が漸く解決の見込みがつき,多体問題(原子核から宇宙
へ)への展開が喫緊の課題
計算科学としてのLattice QCD
近接相互作用する場の量子力学系;極めて高いスケーラビリティを持つ問題
従来からcapability computingの代表例であり,次のステップにはPflopsスケールを超える計算が必要
Lattice QCDと国際協力
コンピュータ開発と研究の両面で国際的に厳しい競争
それと同時に,ILDGを通じて国際協力の動きが活発であり,将来的な国際的研究環境の基盤になると考えられる