22
TraceR: A Parallel Trace Replay Tool for Studying Interconnection Networks Bilge Acun, PhD Candidate Department of Computer Science University of Illinois at UrbanaChampaign *Contributors: Nikhil Jain, Abhinav Bhatele, Misbah Mubarak, Christopher D. Carothers, and Laxmikant V. Kale 1

TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

TraceR:    A  Parallel  Trace  Replay  Tool  for  Studying  Interconnection  Networks  Bilge  Acun,  PhD  Candidate  Department  of  Computer  Science  University  of  Illinois  at  Urbana-­‐Champaign    *Contributors:  Nikhil  Jain,  Abhinav  Bhatele,  Misbah  Mubarak,  Christopher  D.  Carothers,  and  Laxmikant  V.  Kale  

1  

Page 2: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Network  Simulation  •  Mo#va#on:  •  Design  of  the  future  supercomputers  

•  Node  architecture    •  InterconnecLon  network  

•  Predict  applicaLon  performance  •  On  exisLng  –  non  exisLng  architectures  

•   State-­‐of-­‐the  art:  •  Discrete  event  based  simulaLon  

•  Not  parallel  or  scalable  •  Large  memory  footprints  

•  Cannot  simulate  real  HPC  workloads  •  SyntheLc  communicaLon  paQerns  •  Skeletonized  codes  

2  

Page 3: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

From  BigSim  to  TraceR  

3  

BigSim1  (2004)   BigNetSim2   TraceR3  

(2015)  •  One  of  earliest  packet  

level  simulators  •  BigSim   Emulator   and  

Simulator  •  ExtrapolaLon  •  Charm++   and   AMPI  

applicaLons  

•  ContenLon   based  network  models  

•  Pluggable   network  modules  

•  POSE  PDES  engine  •  H a s   m u l L -­‐ j o b  

simulaLon  feature  

•  BigSim  Emulator  •  Charm++   and   AMPI  

applica#ons  •  ROSS  PDES  engine  •  CODES   network  

models  

1.  Gengbin  Zheng  et  al.  “Performance  Modeling  and  Programming  Environments  for  Petaflops  Computers  and  the  Blue  Gene  Machine”  NSFNGS  2004.  

2.  Terry  Wilmarth  et  al.  “Performance  PredicLon  using  SimulaLon  of  Large-­‐scale  InterconnecLonNetworks  in  POSE”  PADS  2005.  

3.  Bilge  Acun,  Nikhil  Jain  et  al.  “Preliminary  EvaluaLon  of  a  Parallel  Trace  Replay    Tool  for  HPC  Network  SimulaLons”.  PADABS,  EURO-­‐PAR  2015  

 

Page 4: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

TraceR:  Trace  Replay  •  A  trace-­‐driven  simulator    •  OpLmisLc  parallel  discrete-­‐event  simulaLon  (PDES)  •  For  real  HPC  traffic  workloads  

•  Outperforms  state-­‐of-­‐the-­‐art  simulators  •  BigNet-­‐Sim,  SST  

•  Scalable  •  Simulate  execuLon  on  half  a  million  nodes  in  under  10  minutes  using  512  cores  

4  

Page 5: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

TraceR  Components  

TraceR

CODES ROSS

Performance Prediction

Network Configuration

Application Traces from BigSim

PDES parameters

5  

Input  

Output  

PDES  Framework  

Accurate  packet  level  network  models;  Torus,  Dragonfly,  ...    

AMPI  &    Charm++  

Dimensions,  bandwidth,  packet  size,  …  

Page 6: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

TraceR  Components  

TraceR

CODES ROSS

Performance Prediction

Network Configuration

Application Traces from BigSim

PDES parameters

6  

Input  

Output  

PDES  Framework  

Accurate  packet  level  network  models;  Torus,  Dragonfly,  ...    

AMPI  &    Charm++  

Dimensions,  bandwidth,  packet  size,  …  

Page 7: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

BigSim  Trace  Format  

 Time  Stamp,  Task  ID,    Name,  Dura#on,  …,  Msg  ID,  Source  Node,  …,  Back&Forward  Dep.  -­‐1.000000  47  AMPI_Bcast-­‐-­‐Lme:5960  0.000006    ...    $B  46    $F  53  0.001148  48  start-­‐broadcast-­‐-­‐Lme:0  0.000000  ...  $B    $F  49  -­‐1.000000  49  AMPI_generic-­‐-­‐Lme:3099  0.000003  ..  $B  48  $F  50  52  -­‐1.000000  50  end-­‐broadcast-­‐-­‐Lme:0  0.000000    ...  $B  49    $F  0.001151  51  msgep-­‐-­‐Lme:953  0.000001      …  $B    $F  0.001154  52  RECV_RESUME-­‐-­‐Lme:953  0.000001  ...  $B  49    $F  53  -­‐1.000000  60  user_code-­‐-­‐Lme:0  0.000000  ...  $B  59  54    $F  61  

7  

•  Entry  for  each  SequenLal  ExecuLon  Block  (SEB)  

Page 8: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Experimental  Results  •  Scaling  results  are  done  with  Blue  Waters  at  UIUC  •  PredicLon  study  results  are  with  Vulcan  at  LLNL  

•  ApplicaLons:  •  3D  Stencil:    

•  AMPI  applicaLon  •  7  point  Jacobi  relaxaLon  on  3D  grid  •  128  x  128  x  128  grid  points  per  MPI  process  -­‐>  128KB  msgs  

•  LeanMD:    •  Charm++  applicaLon  •  Mini-­‐app  version  of  NAMD  molecular  dynamics  simulaLon  •  Mimics  short-­‐range  force  calculaLons  of  NAMD  •  1.2  million  atoms  

 

8  

Page 9: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Sequential  Comparison  of  Simulators    

���

����

�����

������

����� ����� ������ ������ ������

��������

����������������������������������

���������������������������������������

�������������������

�������������������������

9  Skeletonized    MPI  code  

Page 10: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Conservative  vs.  Optimistic  

���

����

�����

������

�� �� �� �� ���

������������������

���������������

�����������������������������������������

��������������������������������

�������������������������������

10  

Page 11: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

��

���

����

�����

�� �� �� �� ��� ��� ��� ���� ���� ����

��������

���������������

�������������������������������������

��������

�����

11  

TraceR  Scaling  w/  AMPI  app.  

Page 12: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

12  ���

����

�����

������

�� �� �� �� ��� ��� ��� ���� ���� ����

��������

���������������

���������������������������������������

��������

�����

TraceR  Scaling  w/  AMPI  app.  

Page 13: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Event  EfHiciency  

���

��

���

���

���

���

����

�� �� �� �� ��� ��� ��� ����

�������������������

���������������

�����������������������������

������������������������������������������������������

13  

Page 14: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

14  ����

��

���

���� ����� ����� ����� �����

�����������������

���������������

��������������������������������������������

�������������������������������

�������

����

����

��

TraceR  Performance  Prediction  w/  Charm++  app.    

Page 15: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Ongoing  Work  and  Summary  •  Ongoing  &  future  work:  •  User  defined  extrapolaLon    •  ModificaLons  to  CODES  for  extra  data  •  Fat-­‐tree  network  model  

•  Integrated  into  CODES  •  MulLple  job  simulaLons  

•  Effect  of  mulLple  jobs  in  the  network  •  More  realisLc  scenario  

•  Switch  to  Charm++  based  ROSS  from  MPI  based  ROSS  

•  TraceR  feature  highlights:  •  A  parallel,  trace-­‐driven,  scalable  network  simulator  •  Support  for  various  topologies:  Torus,  Dragonfly,  Fat-­‐tree    •  Simulate  AMPI,  Charm++  applica#ons  •  Can  simulate  half  a  million  nodes  in  minutes  

15  

Page 16: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Thank  you!    

•  TraceR  source  code:  •  hQp://charm.cs.uiuc.edu/gerrit/#/admin/projects/tracer  

 

16  

Page 17: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Event  Rate:  million  events/s  

��

��

��

��

��

�� �� ��� ��� ��������������������������������

��������������������������

������������������������������������������������

����������������

�������������

������

17  

Page 18: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

EfHiciency  

���

���

���

���

�� �� ��� ��� ���

�������������������

��������������������������

������������������������������������������������

�����������������������������������

18  

Page 19: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

DeHinitions  and  Evaluation  Metrics  Defini#ons:    •  PE:  simulated  process,  logical  process  (LP)  visible  to  ROSS  •  Task:  sequenLal  execuLon  block  (SEB)  •  Event:    represents  an  acLon  with  a  Lme-­‐stamp  in  the  PDES  •   Kickoff  Event,  Message  Recv  Event,  CompleLon  Event  

•  Reverse  Handler:    responsible  for  reversing  the  effect  of  an  event  Metrics:    •  ExecuLon  Lme:  Lme  spent  in  performing  the  simulaLon  •  Event  rate:  number  of  events  executed  per  second  (excl.  roll  backs)  

•  Event  efficiency:  (or  rollback  efficiency)  

19  

Page 20: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

TraceR:  Execution  Hlow  

Execute Task

First task

Send message to other PEs

Schedule completion event

Receive message from other PEs

Completion Event

Message Recv Event

Remote Message

20  

ROSS  Events  

TraceR  funcLons  

Page 21: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

Trace  Reading  Time  

��

���

���

���

���

���

� � � � �� �� �� ��� ��� ���

��������

���������������

����������������������

�����

��������

21  

•  Insignificant  overhead  with  increasing  number  of  cores!  

Page 22: TraceR:( AParallelTraceReplayToolfor ...press3.mcs.anl.gov/summerofcodes2015/files/2015/07/Acun_tracer.pdfTraceR:(AParallelTraceReplayToolfor StudyingInterconnectionNetworks Bilge&Acun,&PhD&Candidate&

��

���

����

�����

������

�� �� �� �� ��� ��� ��� ����

��������

���������������

���������������������������������������������

�����������������

22  

TraceR  Scaling  w/  Charm++  app.