26
AI AI NVIDIA Tesla P4 NVIDIA Pascal AI 15 60 AI NVIDIA TESLA P4 | | 9 16 50/75 INT8 15 35 HD GPU NVIDIA Pascal 5.5 TeraFLOPS* INT8 22 TOPS* - GPU 8 GB 192 GB/ Low-Profile PCI Express 50W/75W ECC 1x 2x * NVIDIA ® TESLA ® P4 AlexNet 33 169 12 91 0 10X 20X 30X 40X 50X 60X 70X 60 附註: TensorRT + FP32 P40 TensorRT + Int 8 =128 Tesla M4 Tesla P4 Tesla P4 11 ms Tesla M4 82 ms 160 ms 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 15 22 Intel Xeon E5-2699V4 TensorRT + FP32 P4 TensorRT + Int8 4 Tesla P4 Tesla M4 2 14 35 0 5 10 15 20 25 30 35 視訊轉碼及 H.264 串流推論 附註: 測試基準以 緩慢模式執行| HD = 30 每秒畫面格數可達720p 同時連線數

NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

在 AI AI

NVIDIA Tesla P4 NVIDIA Pascal™ AI

15 60 AI

NVIDIA TESLA P4 | | 9 16

50/75

INT8 15

35 HD

GPU NVIDIA Pascal™

5.5 TeraFLOPS*

INT8 22 TOPS* -

GPU 8 GB

192 GB/

Low-Profile PCI Express

50W/75W

ECC

1x 2x

*

NVIDIA® TESLA® P4

AlexNet 33

169

12

91

0 10X 20X 30X 40X 50X 60X 70X

60

附註: TensorRT + FP32 P40 TensorRT + Int 8 =128

Tesla M4Tesla P4

Tesla P411 ms

Tesla M482 ms

↓160 ms

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170

15

:22 Intel Xeon E5-2699V4 TensorRT + FP32 P4 TensorRT + Int8 4

Tesla P4

Tesla M4

2

14

35

0 5 10 15 20 25 30 35

視訊轉碼及 H.264 串流推論

附註: 測試基準以 緩慢模式執行 | HD = 在 30 每秒畫面格數可達 720p

同時連線數

Page 2: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA 和 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。 是 的商標,由 取得授權使用。所有其他商標和著作權皆為其各自 擁有者之財產。9 月 16 日

NVIDIA TESLA P4 加速器功能及優勢Tesla P4 的設計可提供即時推論效能,並產生在擴展伺服器方面的智慧使用者體驗。

TENSORRT 及 DEEPSTREAM SDK 讓部署更快速

TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的 神經網路 - 通常為 32 位元或 16 位元資料 - 並加以優化,以配合低精確度 INT8 運算。NVIDIA DeepStream SDK 能展現 同時解碼與分析視訊串流的能力。

低功率擴展式伺服器的空前效率

Tesla P4 的小巧體積和 50W/75W 功率用量設計可加快密度最佳化的擴展式伺服器速度。Tesla P4 在深度學習推論工作負載方面也具備遠勝 達 60 倍的無比能源效率,滿足超大型客戶在 AI 應用上的指數級成長需求。

利用專用解碼引擎解放全新 AI 架構視訊服務

Tesla P4 可即時轉碼和推論多達 35 項 HD 視訊串流,並支援轉用硬體加速解碼引擎,能與 同時執行推論。在視訊管線中整合深度學習後,客戶便 能為使用者提供過去所無法實現的智慧、創新的 視訊服務。

具備即時推論的回應體驗

回應能力是使用者參與互動交談、視覺搜尋和視訊建議等服務的關鍵所在。隨著模型在精確度與完整性方面的提升, 已不足以提供回應式的使用者體驗。Tesla P4 推出 22 項頂尖的推論式效能,其中包含削減延遲達 15 倍的 INT8 運算。

FPO

如欲進一步瞭解 NVIDIA Tesla P4,請造訪 。

Page 3: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

TESLA P40 | | 9 16

AI

NVIDIA Pascal™

NVIDIA Tesla P40 推論 47 TOPS - INT8 8 Tesla P40s

140

Tesla P40 30 推論

INT8 47 TOPS 推論

推論 35 HD

GPU NVIDIA Pascal™

12 TeraFLOPS*

(INT8) 47 TOPS* -

GPU 24 GB

346 GB/

PCI Express 3.0 x16

4.4” x 10.5”

250 W

ECC

1x 2x

*

NVIDIA® TESLA® P40

AlexNet

12100

51900

28900

88800

0 302010 40 50 60 70 80 90

4

( TensorRT + FP32 )及 P40( TensorRT + Int 8 )、 ,批次大小 =128

8X Tesla M408X Tesla P40

Tesla P40

Tesla M4024 ms

↓160 ms

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170

降低應用程式延遲達 30 倍

:22 核心 Intel Xeon E5-2699V4, ,批次大小: ( TensorRT + FP32 )及 P4( TensorRT + Int8 )、 ,批次大小:4

以毫秒為單位的深度學習推論延遲

Page 4: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

即時推論

Tesla P40 提供使用 INT8 運算、快達 30 倍的推論效能,即使是最複雜的深度學習模型也可即時回應。

透過單次訓練和推論平台進行精簡運算

現今的深度學習模型皆是在 伺服器上訓練,但推論的執行仍在 伺服器裡部署。Tesla P40 推出大幅精簡的工作流程,讓組織可利用相同的伺服器反覆執行及部署。

NVIDIA TESLA P40 加速器功能及優勢Tesla P40 是專為深度學習工作負載而打造,可提供最大的流量。

140 倍的高流量幫助掌握超大量資料

Tesla P40 支援全新 Pascal 架構,可提供超過 47 TOPS 的深度學習推論效能。一部配備 8 個 Tesla P40s 的伺服器可取代多達 140 部僅配備 的伺服器來執行深度學習工作負載,讓您擁有明顯更高的流量與更低的取得成本。

NVIDIA 深度學習 SDK 讓部署更快速

TensorRT 隨附 NVIDIA 深度學習 SDK 和深度串流 SDK,幫助客戶無縫銜接推論功能的運用,例如新的 INT8 運算及視訊轉碼等。

。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA、 、 和 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。 是 的商標,由 取得授權使用。所有其他商標和著作權皆為其各自擁有者之財產。9 月 16 日

如欲進一步瞭解 NVIDIA Tesla P40,請造訪 。

Page 5: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

| | 6 16

PCIe

NVIDIA Pascal™ +

NVIDIA Tesla P100 for PCIe 效能

應用加速

NAMD VASP MILC AMBERHOOMD-Blue

Caffe/AlexNet

2X K80 2X P100(PCIe) 4X P100(PCIe)30 X

25 X

10 X

5 X

0 X

20 X

15 X

雙 CPU 伺服器、Intel E5-2698 v3 @ 2.3 GHz、256 GB 系統記憶體、早期生產的 Tesla P100

GPU NVIDIA Pascal

NVIDIA CUDA® 3584

4.7 TeraFLOPS

9.3 TeraFLOPS

18.7 TeraFLOPS

GPU 記憶體 16GB CoWoS HBM2 at 732 GB/s or 12GB CoWoS HBM2 at 549 GB/s

PCIe Gen3

250 W

ECC

PCIe /

API NVIDIA CUDA DirectCompute OpenCL™ OpenACC

™ TeraFLOPS

NVIDIA® TESLA® P100 GPU

Page 6: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

。保留所有權利。NVIDIA、NVIDIA 標誌、TESLA、 、 及 皆是 NVIDIA 公司在美國及其他國家的商標及註冊商標。 是 的商標,並授權給 使用。所有其他商標及版權皆為個別擁有者所有之財產。6 月 16 日

想要進一步瞭解 ,請造訪

在各方面皆採創新技術,從矽晶圓到軟體進行重新塑造。每一項突破性技術的效能都出現大幅進步,同時提升了資料中心的處理量。

TeraFLOPSTeraFLOPS TeraFLOPS

Substrate HBM2

3

BW(

GB/S

ec)

800

600

400

200

0

K40

P100

3

M40K40

M40P100 (FP32)

P100 (FP16)25

20

15

10

5

0Tera

flops(

FP32

/FP1

6)

HPC

Unified Memory

CPU GPU

可定址記憶體(

GB)

10,000

1,000

100

10

0

K40M40

P100

虛擬無限記憶體擴展性

Page 7: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

The Exponential Growth of Computing

Accelerating scientific discovery, visualizing

big data for insights, and providing smart

services to consumers are everyday challenges

for researchers and engineers. Solving

these challenges takes increasingly complex

and precise simulations, the processing of

tremendous amounts of data, or training

sophisticated deep learning networks. These

workloads also require accelerating data centers

to meet the growing demand for exponential

computing.

NVIDIA Tesla is the world’s leading platform

for accelerated data centers, deployed by

some of the world’s largest supercomputing

centers and enterprises. It combines GPU

accelerators, accelerated computing systems,

interconnect technologies, development tools,

and applications to enable faster scientific

discoveries and big data insights.

At the heart of the NVIDIA Tesla platform

are the massively parallel GPU accelerators

that provide dramatically higher throughput

for compute‑intensive workloads—without

increasing the power budget and physical

footprint of data centers.

NVIDIA® TESLA®. ONE PLATFORM. UNLIMITED DATA CENTER ACCELERATION.

TESLA PLATFORM | LINE CARD | FEb17© 2017 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, and Tesla are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. All other trademarks and copyrights are the property of their respective owners.

Page 8: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

© 2017 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, and Tesla are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. All other trademarks and copyrights are the property of their respective owners.

Choose the Right NVIDIA® Tesla® Solution for YouPRODUCT DESIGNED FOR bENEFITS KEY FEATURES RECOMMENDED SERVER

CONFIGURATIONS

Tesla P100 PCIe HPC and Deep Learning Replace 32 CPU servers with a single P100 server for HPC and deep learning

> 4.7 TeraFLOPS of double‑ precision performance

> 9.3 TeraFLOPS of single‑ precision performance

> 720 GB/s memory bandwidth (540 GB/s option available)

> 16 GB of HBM2 memory (12 GB option available)

2‑4 GPUs per node

Tesla P100 with NVLink™

Deep Learning Training 10X faster deep learning training vs. last‑gen GPUs

> 21 TeraFLOPS of half‑ precision performance

> 11 TeraFLOPS of single‑ precision performance

> 160 GB/s NVIDIA NVLink™

> Interconnect

> 720 GB/s memory bandwidth

> 16 GB of HBM2 memory

4‑8 GPUs per node

Tesla P40 Deep Learning Training and Inference

40X faster deep learning inference than a CPU server

> 47 TeraOPS of INT8 inference performance

> 12 TeraFLOPS of single‑ precision performance

> 24 GB of GDDR5 Memory

> 1 decode and 2 encode video engines

Up to 8 GPUs per node

Tesla P4 Deep Learning Inference and Video Trancoding

40X higher energy efficiency than a CPU for inference

> 22 TeraOPS of INT8 inference performance

> 5.5 TeraFLOPS of single‑ precision performance

> 1 decode and 2 encode video engines

> 50 W/75 W Power

> Low profile form factor

1‑2 GPUs per node

ABC Product (Model) Name

AbC PRODUCT (MODEL) NAME

Partner product description paragraph. One hundred words maximum. Xeris exeria nobis exerferis dolupt.

> Spec 1: Some Data > Spec 2: Some Data > Spec 3: Some Data > Spec 4: Some Data

COMPANY NAME

Optional company brief description paragraph. No more than fifty words. Explia consequam il ilis escipiducium remd. Xeris exeria nobis exerferis dolupt, qui quo volores dolori blab iliquate il il excerum excesequi dolori manaianisi mintes.

www.abccompany.com | +1 (123) 555‑678 | [email protected]

Page 9: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

TESLA P100 效能指南HPC 及深度學習應用

APR 2017

Page 10: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

TESLA P100 效能指南現代的高效運算(HPC)資料中心是解決部分全球最重要之科學與工程挑戰的

關鍵。 NVIDIA® Tesla® 加速運算平台利用領先業界的應用程式支援這些現代化

資料中心,促進 HPC 與 AI 工作負載。Tesla P100 GPU 是現代資料中心的

引擎,能以更少的伺服器展現突破性效能,進而實現更快的解析能力,並大幅

降低成本。

每一個 HPC 資料中心都能自 Tesla 平台獲益。在廣泛的領域中有超過 400 個 HPC 應用程式,採用 GPU 最佳化,包括所有前 10 大 HPC 應用程式和各種

主要深度學習架構。

超過 400 個 HPC 應用及所有深度學習架構皆是採用加速 GPU。 > 若想要取得最新 GPU 加速應用目錄,請造訪: www.nvidia.com/teslaapps

> 若想要立即在 GPU 上使用簡易指示,快速執行廣泛的加速應用,請造訪: www.nvidia.com/gpu-ready-apps

採用加速 GPU 應用程式的研究領域包括:

分子動力 量子化學 物理學

石油與天然氣 金融 深度學習

應用效能指南 

Page 11: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

分子動力(MD)代表 HPC 資料中心的大部分工作負載。100% 頂尖 MD 應用

皆是採用 GPU 加速,以使科學家能進行從前僅有 CPU 版本之傳統應用項目

無法執行的模擬工作。在執行 MD 應用時,配備 Tesla P100 GPU 的資料中心

可節省高達 60% 的伺服器取得成本。

TESLA 平台及適用 MD 的 P100 的關鍵功能> 搭載 P100 的伺服器,最多可取代 40 部適用 HOOMD-Blue、

LAMMPS、AMBER、GROMACS 和 NAMD 等應用的 CPU 伺服器

> 100% 頂尖 MD 應用項目皆採用加速 GPU

> FFT 和 BLAS 等關鍵數學程式庫

> 每一個 GPU 之單精度效能高達每秒 11 TFLOPS

> 每一個 GPU 之記憶體頻寬高達每秒 732 GB

檢視所有相關的應用項目:

www.nvidia.com/molecular-dynamics-apps

TESLA P100 效能指南

分子動力

Page 12: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

HOOMD-BLUE循序寫入 GPU 的粒子動力封裝

版本 1.3.3

加速功能CPU 和 GPU 可用版本

延展性多 GPU 和多節點

更多資訊www.nvidia.com/hoomd-blue

LAMMPS典型粒子動力封裝

版本 2016

加速功能Lennard-Jones、Gay-Berne、Tersoff 更多勢能

延展性多 GPU 和多節點

更多資訊www.nvidia.com/lammps

HOOMD-Blue 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Microsphere | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

8X P1004X P1002X P1008X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

4X P1002X P100

12

18

26

13

19

27

0

5

10

15

25

30

20

LAMMPS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:EAM | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

6

10

16

7

11

18

0

5

10

15

20

25

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

應用效能指南 | 分子動力

Page 13: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

AMBER 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 ® 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:GB-Myoglobin | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

4X P1002X P1004X P1002X P100

31

38

32

39

0

5

10

20

15

25

30

35

40

45

1 部配備 P100 的伺服器(12 GB)GPU

1 部配備 P100 的伺服器(16 GB)GPU

GROMACS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Water 3M | 我們使用高達 8 CPU 節點測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

5 54 4

0

5

15

10

4X P1002X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

GROMACS模擬含複雜連結互動的生物模型分子

版本 5.1.2

加速功能PME,顯性與隱性溶劑

延展性多 GPU 和多節點 擴展至 4xP100

更多資訊www.nvidia.com/gromacs

黃色在生物分子上模擬分子動力的程式套件

版本 16.3

加速功能PMEMD 顯性溶劑和 GB、顯性及隱性溶劑、 REMD、aMD

延展性多 GPU 和多節點

更多資訊www.nvidia.com/amber

應用效能指南 | 分子動力

Page 14: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

NAMD 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:STVM | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

9 10

僅用

CPU

運算的伺服器

2X P1002X P100

0

5

10

15

1 部配備 P100 的伺服器(12 GB)GPU

1 部配備 P100 的伺服器(16 GB)GPU

NAMD專為高效模擬大分子系統而設計

版本2.11

加速功能PME 全靜電和眾多模擬功能

延展性高達 100M 原子,多 GPU, 擴展為 2xP100

更多資訊www.nvidia.com/namd

應用效能指南 | 分子動力

Page 15: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

量子化學(QC)模擬是探索新藥物與原料的關鍵,且會耗費大部分 HPC 資料中心

的工作負載。目前,60% 的頂尖 QC 應用都採用加速 GPU。在執行 QC 應用時,

配備 Tesla P100 GPU 的資料中心工作負載可節省高達 40% 的伺服器成本。

TESLA 平台及適用 QC 的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 36 部適用 VASP

和 LSMS 等應用的 CPU 伺服器

> 60% 的頂尖 QC 應用項目皆採用加速 GPU

> FFT 和 BLAS 等關鍵數學程式庫

> 每一個 GPU 之雙精度效效能高達每秒 5.3 TFLOPS

> 大資料集記憶體容量高達 16 GB

檢視所有相關的應用項目:

www.nvidia.com/quantum-chemistry-apps

TESLA P100 效能指南

量子化學

Page 16: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

VASP 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:B_hR105 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

6

13

18

9

14

19

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

0

5

10

15

20

25

LSMS 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:Fe16 | 為達到 CPU 節點等效,我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮來測量基準點。

2624

3032

36 36

僅用

CPU

運算的伺服器

2X P100 8X P1004X P1002X P1008X P1004X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

0

5

10

20

15

25

30

35

40

VASP從頭開始執行量子機制分子動力(MD) 模擬的封裝

版本 5.4.1

加速功能RMM-DIIS、Blocked Davidson、 K-points 和正確交換

延展性多 GPU 和多節點

更多資訊www.nvidia.com/vasp

LSMS研究磁性溫度作用的材料代碼

版本3

加速功能廣義的 Wang-Landau 算法

延展性多 GPU

更多資訊www.nvidia.com/lsms

應用效能指南 | 量子化學

Page 17: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

從聚變能量到高能量粒子,HPC 資料中心的物理模擬涵蓋極廣泛的應用。多數

頂尖物理應用皆是採用加速 GPU,解析從前無法實現的項目。在執行物理應用

時,配備 Tesla P100 GPU 的資料中心可節省高達 70% 的伺服器取得成本。

TESLA 平台及適用物理學的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 50 部適用 GTC-P、QUDA、MILC 和

Chroma 等應用的 CPU 伺服器

> 絕大多數的頂尖物理學應用項目皆採用加速 GPU

> 雙精度浮點效能高達 5.3 TFLOPS

> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s

檢視所有相關的應用項目:

www.nvidia.com/physics-apps

TESLA P100 效能指南

物理學

Page 18: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

GTC-P 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.44 | 資料集:gtc. 輸入 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

6

10

16

7

11

17

0

5

10

15

20

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

QUDA 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:Glove Precision Single、Gauge Compression/Recon:12,問題規模 32x32x32x64 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

16

29

49

21

39

54

0

10

20

30

40

60

55

5

15

25

35

50

45

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

GTC-P最佳化電漿物理的開發代碼

版本 2016

加速功能推動、移動和碰撞

延展性多 GPU

更多資訊www.nvidia.com/gtc-p

QUDAGPU 格點量子色動力學程式庫

版本 2017

加速功能全部

延展性多 GPU 和多節點

更多資訊www.nvidia.com/quda

應用效能指南 | 物理學

Page 19: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

MILC 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:雙倍精度 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

69 10

6

僅用

CPU

運算的伺服器

0

5

10

15

4X P1002X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

Chroma 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:szscl21_24_128(總時間秒)| 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

7

12

21

7

13

21

0

5

10

15

20

25

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

MILC格點量子色動力學(LQCD)代碼模擬元素微粒之形成方式,以及藉由「強作用力」進行結合,創建出質子和中子等更大微粒

版本 7.8.0

加速功能特性交錯費米子、Krylov 計算器和 計量-鏈結厚化縮放為 4xP100

延展性多 GPU 和多節點

更多資訊www.nvidia.com/milc

CHROMA格點量子色動力學(LQCD)

版本2016

加速功能Wilson-clover 費米子、 Krylov 計算器和區域分解

延展性多 GPU

更多資訊www.nvidia.com/chroma

應用效能指南 | 物理學

Page 20: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

地球科學模擬是探勘石油與天然氣和執行地質建模的關鍵。目前,多數頂尖的地球

科學應用都採用加速 GPU。在執行地球科學應用時,配備 Tesla P100 GPU 的資料

中心可節省高達 65% 的伺服器成本。

TESLA 平台及適用地球科學的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 50 部適用 RTM 和 SPECFEM 3D 等應用的

CPU 伺服器

> 頂尖石油與天然氣應用皆採用加速 GPU

> 單精度浮點效能高達 10.6 TFLOPS

> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s

檢視所有相關的應用項目:

www.nvidia.com/oil-and-gas-apps

TESLA P100 效能指南

石油與天然氣

Page 21: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

RTM 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe (12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:TTI R8 3 pass | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

5

10

19

7

13

26

0

5

10

15

20

25

30

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

SPECFEM 3D 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:全域 112x64,100 分 | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

13

25

42

17

31

51

0

5

15

25

35

10

20

30

40

45

55

50

60

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

RTM逆時偏移(RTM)模型是石油與天然氣探勘地震處理流程的關鍵要素

版本 2016

加速功能批次演算法

延展性多 GPU 和多節點

SPECFEM 3D模擬震波傳播

版本7.0.0

加速功能Wilson-clover 費米子、 Krylov 計算器和區域分解

延展性多 GPU 和多節點

更多資訊www.nvidia.com/specfem3d-globe

應用效能指南 | 石油與天然氣

Page 22: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

模擬是金融服務公司提供快速推動業務及平價優異分析的關鍵。頂尖金融應用皆是

採用加速 GPU,並能為支援 Tesla P100 GPU 的資料中心節省高達 40% 的伺服器

成本。

TESLA 平台及適用金融的 P100 的關鍵功能 > 搭載 P100 的伺服器,最多可取代 12 部適用 STAC A2 等應用的 CPU 伺服器

> 頂尖金融應用皆採用加速 GPU

> 雙精度浮點效能高達 5.3 TFLOPS

> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s

檢視所有相關的應用項目:

www.nvidia.com/financial-apps

TESLA P100 效能指南

金融

Page 23: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

STAC A2 效能等價單台 GPU 運算伺服器與數台僅用 CPU 運算的伺服器比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | NVIDIA CUDA® 版本:8.0.42 | 資料集:10-100k-1260(Warm Creek)| 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

僅用

CPU

運算的伺服器

36

11

47

12

0

5

10

15

8X P1004X P1002X P1008X P1004X P1002X P1001 部配備 P100 的伺服器

(12 GB)GPU1 部配備 P100 的伺服器

(16 GB)GPU

STAC A2Compute-intensive analytic workloads involved in pricing and risk management

VERSION 2016

ACCELERATED FEATURESAll

SCALABILITYMulti-GPU and Multi-Node

MORE INFORMATIONwww.nvidia.com/stac-a2

應用效能指南 | 金融

Page 24: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

深度學習可解決數年前似乎已超越我們知識所及的重要科學、企業及消費問題。

每一個主要的深度學習架構都是採用 NVIDIA GPU 最佳化,因此資料科學家與研究

人員可運用人工智慧處理他們的工作。在執行深度學習架構時,配備 Tesla P100 GPU 的資料中心可節省高達 70% 的伺服器取得成本。

TESLA 平台及適用深度學習訓練的 P100 的關鍵功能 > 相較於 K80,配備 Tesla P100 的 Caffe、TensorFlow 和 CNTK 速度皆可高達 3x

> 100% 頂尖深度學習架構項目皆採用加速 GPU

> 原生半精度浮點高達 21.2 TFLOPS

> 記憶體容量高達 16 GB 且記憶體頻寬高達 732 GB/s

檢視所有相關的應用項目:

www.nvidia.com/deep-learning-apps

TESLA P100 效能指南

深度學習

Page 25: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

Caffe 深度學習相對效能P100 伺服器訓練與 K80 伺服器訓練的比較

CPU 伺服器:雙 Xeon E5-2690 v4 @ 2.6 GHz,GPU 伺服器:同樣搭載 NVIDIA® Tesla® P100 for PCIe(12 GB 或 16 GB)的 CPU 伺服器 | Ubuntu:14.04.5 | NVIDIA CUDA® 版本:8.0.54 | cuDNN:6.0.5 資料集:ImageNet | 批次規模:AlexNet (128)、GoogleNet (256)、ResNet-50 (64) VGG-16 (32) | 我們使用高達 8 CPU 節點和超過 8 節點的線性伸縮測量基準點,以達到 CPU 節點等效。

速度比

8X

K80

伺服器更快

8X P100 PCIe 8X P100 NVLink8X P100 PCIe

1.3

1.8 1.81.6

1.3

2.0 2.01.8

3.4

2.3 2.32.6

0

1X

2X

3X

4X

5X

ResNet-50GoogLeNetAlexNet VGG16

1 部配備 P100 的伺服器(16 GB)GPU

1 部配備 P100 的伺服器(16 GB)GPU

1 部配備 P100 的伺服器(16 GB)GPU

CAFFE加州大學柏克萊分校開發出廣受歡迎的加速 GPU 深度學習架構

版本 0.16

加速功能完整加速架構

延展性多 GPU

更多資訊www.nvidia.com/caffe

應用效能指南 | 深度學習

Page 26: NVIDIA TESLA P4 P4 P40... · 2018-03-30 · TENSORRT 及 DEEPSTREAM SDK 讓部署更快速 TensorRT 是一套專為生產部署所設計、可優化 深度學習模型的程式庫。其採用經過訓練的

© 2017 NVIDIA CORPORATION 保留所有權利。NVIDIA、NVIDIA 標誌和 TESLA 是 NVIDIA 公司在美國及其他國家的商標及/或註冊商標。其他公司與產品名稱可能為其各自聯屬公司之商標。 APR17

TESLA P100 產品規格

NVIDIA Tesla P100 for PCIe 架構伺服器

NVIDIA Tesla P100 for NVLink 最佳化伺服器

雙精度浮點運算效能 高達 4.7 TFLOPS 高達 5.3 TFLOPS

單精度浮點運算效能 高達 9.3 TFLOPS 高達 10.6 TFLOPS

半精度浮點運算效能 高達 18.7 TFLOPS 高達 21.2 TFLOPS

NVIDIA NVLink™ 互連頻寬 - 160 GB/秒

PCIe x 16 互連頻寬 32 GB/秒 32 GB/秒

CoWoS HBM2 堆疊記憶體容量 16 GB 或 12 GB 16 GB

CoWoS HBM2 堆疊記憶體頻寬 732 GB/秒或 549 GB/秒 732 GB/秒

假設及免責聲明採用加速 GPU 的頂尖應用百分比係取自 i360 報告中的 50 大應用清單。HPC 應用支援 GPU 運算。流量與節費計算均是假設在工作負載數據圖中,採用相同的運算循環檢測該領域之應用 項目