49
Построение сбалансированного кластера ООО «Терминал-Сервис», Сергей Дудинов, Директор [email protected]

Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Построение сбалансированного кластера

ООО «Терминал-Сервис»,

Сергей Дудинов,

Директор

[email protected]

Page 2: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Предположения(реалии Украины)

Мы не строим суперкомпьютер в общемировом понятии - бюджет максимально ограниченЕсть инфраструктура – место для установки, электропитание, человеческие ресурсы для обслуживанияЦель – получить максимум терафлопс на гривну сейчас, предусмотреть возможности простой модернизации

Page 3: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Выбор железа – что лучше?

CPU или GPUПлатформа – AMD или IntelПроцессоры – 1, 2, 4 или 8 на нодуИнтерконнект – Ethernet или InfinibandМного слабых нод или мало, но мощныхКак сэкономить на хранении данных

Page 4: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU или GPU?

Page 5: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU или GPU?

Каждая из этих двух архитектур имеет свои достоинства. CPU лучше работает с последовательными задачами.

При большом объеме обрабатываемой информации очевидное преимущество имеет GPU.

Условие только одно — в задаче должен наблюдаться параллелизм.

Page 6: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU или GPU?

GPU уже достигли той точки развития, когда многие приложения реального мира могут с легкостью выполняться на них, причем в разыбыстрее, чем на самых топовых CPU. Будущие вычислительные архитектуры станут гибридными системами с графическими процессорами, состоящими из параллельных ядер и работающими в связке с многоядерными ЦП

Page 7: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU или GPU?

Подтверждение тому – проекты «AMD Fusion» и «VIA CoreFusion». Суть – объединениецентрального многозадачного универсального процессора с графическим параллельным многоядерным процессором в одном кристалле.

+ = APU

Page 8: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU или GPU?HPC процессоры будущего будут строиться на гибридной архитектуреВычисления на GPU ускорителях:

Становятся универсальнее и удобнее для программирования;Находятся в технологическом авангарде с поддержкой со стороны массового рынка;Признаны всеми игроками рынка как правильное направление развития.

Вывод: кластер собираем только с GPU !!!

Page 9: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Какой GPU?Ключевыевозможности

АрхитектураGPGPU

Пиковая производительность, Гигафлоп

Полоса пропускания памяти (без ECC), ГБ/с

Размер памяти

(GDDR5), ГБ

Ядра, шт

для вычисленийдвойной

точности с плавающей

точкой

для вычисленийодинарнойточности с плавающей

точкой

Xeon Phi

Coprocessor 5110P

1 ManyIntegrated Core

1010 н.д. 320 8 60/240

TESLA M2075 1 Fermi GPU 515 1030 150 6 448TESLA M2090 1 Fermi GPU 665 1331 177 6 512TESLA K10 2 Kepler GK104s 190 (95 на 1) 4577 (2288 на 1) 320 (160 на

1)8 (4 на 1) 3072 (1536 на

1)TESLA K20 1 Kepler GK110 1170 3520 208 5 2496TESLA K20X 1 Kepler GK110 1310 3950 250 6 2688FireStream 9370 1 RV870 528 2640 153 4 1600

FirePro S9000 1 Tahiti LE 806 3230 264 6 1792FirePro S10000 2 Tahiti LE 1480 (740 на 1) 5910 (2955 на 1) 480 (240 на 6 (3 на 1) 3584 (1792 на

1)FirePro W9000 1 Tahiti XT 998 3993 264 6 2048

Page 10: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Accelerator/Co-Processor

Rmax(GFlops)*

Rpeak(GFlops)

Эффективность,

RMax/Rpeak

Реальная производительность 1 ускорителя, Гигафлоп

Double prec. Single prec.

TESLA M2090 4399354 10002202 44,0 292,6 585,6

TESLA M2050 7204750 14143446 50,9 262,1 524,3

TESLA M2070 1529010 2777116 55,1 283,8 567,5

TESLA K20x 17863700 27505427 64,9 850,2 2563,6

TESLA K20 н.д. н.д. 71,0* 830,7 2499,2

TESLA K10 н.д. н.д. 71,0* 134,9 3249,7

Xeon Phi 5110P 527756 786390 67,1 677,7 н.д.

Xeon Phi SE 3775008 5522966 68,4 733,7 н.д.

AMD Radeon HD 7970(FirePro W9000)

106800 226464 47,2 471,1 1884,7

AMD FirePro S10000 421200 1098000 38,4 568,3 2269,44

ATI GPU (FireStream9370)

299300 508499 58,8 310,5 1552,3

Какой GPU?

* Данные Rmax и Rpeak взяты с http://www.top500.org/statistics/list/** Эффективность Rmax/Rpeak для данного теста взяты с сайта NVIDIA

Page 11: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Экспоненциальный рост вычислений на GPU

2008 2012

4,000Научных работ

22,500Научных работ

150KСкачиваний CUDA

1.5MСкачиваний CUDA

60Университетов

630Университетов

1Суперкомпьютер

50Суперокомпьютеров

Page 12: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Вычисления на GPU в России

2012

350+Научных работ

20M+GPU с CUDA

20+Университетов

15Суперкомпьютеров

Page 13: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Более 200 приложений с поддержкой GPU

http://www.nvidia.com/teslaapps/

Page 14: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Tesla K20X Tesla K20

Кол-во CUDA ядер 2688 2496

Пиковая произв-ть DP

DGEMM1.32 TF1.22 TF

1.17 TF1.10 TF

Пиковая произв-ть SPSGEMM

3.95 TF2.90 TF

3.52 TF2.61 TF

Пропускная способность памяти

250 GB/s 208 GB/s

Объем памяти 6 GB 5 GB

Потребление 235W 225W

Семейство Tesla K20 : в 3 раза быстрее Fermi

0

0,25

0,5

0,75

1

1,25

Xeon E5-2690 Tesla M2090 Tesla K20X

TFLO

PS

.18 TFLOPS

.43 TFLOPS

1.22 TFLOPSДвойная точность (DGEMM)

Tesla K20X

Page 15: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

KeplerСАМАЯ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА

SMX

Hyper-Q

Dynamic Parallelism

GK110 GPU

(удобство

программирования и

применимость)

(энергоэффективность)

Page 16: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

1 ПетафлопсВсего в 10 стойках

400 кВт

Page 17: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Hyper-QПростота использования с MPI приложениями

FERMI1 очередь задач

KEPLER32 очереди задач

0x

5x

10x

15x

20x

0 5 10 15 20

Sp

ee

du

p v

s.

Du

al C

PU

Number of GPUs

CP2K- Quantum Chemistry

K20 with Hyper-Q K20 without Hyper-Q

2.5x

Strong Scaling: 864 water molecules

16 MPI ranks

per node

1 MPI rank

per node

Page 18: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU Fermi GPU CPU Kepler GPU

Dynamic ParallelismПроще и понятнее код, выше производительность

Код в 2 раза короче

Производительность в 2 раза выше

Page 19: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Программирование на GPU

БиблиотекиBLAS, FFT, MAGMA & CULA

LAPACK, …

ДирективыOpenACC

CUDA Расширения

C/C++/Fortran

Приложения

Простой подход для 2 – 10 кратного

ускорения

Максимум

производительности

Page 20: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Выбор CPU

Чипсет – важно ли?Баланс CPU и GPUCPU – 1, 2, 4 или 8 на ноду?AMD или Intel?

Page 21: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чипсет – важно ли?

Page 22: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чипсет – важно ли?

Page 23: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чипсет – важно ли?

Выводы:Самым слабым местом является шина процессораМинимальным рекомендуемым процессором является Intel Xeon Processor E5-2650V2 (20M Cache, 2.60 GHz, 8.00 GT/s QPI, 8 ядер) – 56$ за 1 ГГц на ядроОптимальным с учетом цена/производительность –Intel Xeon Processor E5-2680V2 (25M Cache, 2.80 GHz, 8.00 GT/s QPI, 10 ядер) – 61$ за 1 ГГц на ядро

Page 24: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

CPU – 1, 2, 4 или 8 на ноду?

Page 25: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

AMD или Intel?

Взято с сайта: http://sites.amd.com/us/Documents/49747D_HPC_Processor_Comparison_v3_July2012.pdf

Производительность и цена серий Intel E5-2600 и AMD Opteron 6200 сопоставима, но топовые E5 быстрее топовых Opteron

Model SPECint®_rate20063

SPECfp®_rate2006

SPECint®_ rate_base2006

GFLOPs(Theoretical)

TotalProcessor

1kU Price -2P*

Intel Xeon™ processorModel E5-2690

705 510 671 371 $4,114

Intel Xeon™ processorModel E5-2670

647 486 622 333 $3,104

Intel Xeon™ processorModel E5-2660

596 459 572 282 $2,658

AMD Opteron™ processorModel 6284 SE

573 417 499 346 $2,530

AMD Opteron™ processorModel 6282 SE

543 403 474 333 $2,038

Intel Xeon™ processorModel E5-2650

543 433 521 256 $2,214

Page 26: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

AMD или Intel?

Где может быть лучше AMD:В 4-х процессорных нодах – 4 QPI 6,4 GT/s против 2 QPI 8 GT/s у IntelВ 1-процессорных блейдах, где нужно много физических ядерПри большом бюджете – топовые решения AMD могут быть дешевле топовых решений Intel (не наш случай)

Page 27: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Немного теории

Скорость расчета параллельной задачи на кластере определяется формулой:

𝑇 =𝑇𝑐 + 𝑻𝒊

𝑛При количестве нод в кластере больше 8, время на обмен информацией между нодами в разы больше, чем время расчета одной итерации процессором (CPU или GPU)

Вывод: при выборе любого компонента в первую очередь всегда смотрим на скорость его шины

Page 28: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

1Gb Ethernet

10 Gb Ethernet

QDR FDR EDR

Пропускная способностьraw / data, Гбит/с

1 / 0,8 10 / 8 40 / 32 56,25 / 56103,12 /

100

Латентность, мкс 100 (47*) 12,5 1,6 1,0 <1

RDMA нет нет да да да

Цена двухпортового адаптера, $ 300 700 1000 1300 н.д.

Обязателен коммутатор, $+ да да нет нет нет

Распространенные заблуждения:InfiniBand – дорогоInfiniBand не намного быстрееInfiniBand сложен в настройке

Page 29: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

1Gb Ethernet

10 Gb Ethernet

QDR FDR EDR

Пропускная способностьraw / data, Гбит/с

1 / 0,8 10 / 8 40 / 32 56,25 / 56103,12 /

100

Латентность, мкс 100 (47*) 12,5 1,6 1,1 <1

RDMA нет нет да да да

Цена двухпортового адаптера, $ 300 700 1000 1300 н.д.

Обязателен коммутатор, $+ да да нет нет нет

Распространенные заблуждения:InfiniBand – дорого дешевле чем EthernetInfiniBand не намного быстрее на порядок быстрееInfiniBand сложен в настройке проще в настройке

Page 30: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

Page 31: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

Латентность на Intel MPI Benchmarks для 1-8 ядер с MellanoxInfiniBand QDR ConnectX HCA и Mellanox InfiniBand QDR Switch

Page 32: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

На 24 нодах DDR IB на 50% быстрее, чем 10GigE c почтилинейным масштабированием

Page 33: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

На 24 нодах DDR IB на 113% быстрее, чем 10GigEПроизводительность на 10GigE становится хуже после 20 узлов

Page 34: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Интерконнект – Ethernet или InfiniBand?

MPQC Benchmark: Power Cost Saving: DDR IB сэкономит вам 3400$ в год в сравнении с10GigE или 4500$ в сравнении с GigE

Page 35: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Отличительные особенности FDR

Улучшения FDR InfiniBand в сравнении с QDR:Параметры Link speed увеличились до 14 Гбит/с на линию или 56 Гбит/с по четырем линиямПоказатель Link кодировки для FDR InfiniBandбыл изменен с 8 бит/10 бит на 64 бит/66 битУлучшены механизмы коррекции ошибок сетиРеальное удвоение производительности – на сегодня это самый производительный интерконнект и в абсолютном значении, и в пересчете на $

Page 36: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Много слабых нод или мало, но мощных?

Увлекаться количеством узлов не стоитСамое узкое место в вашем кластере - это среда передачи данных между узлами, то есть пропускная способность используемой сети

Page 37: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Итоги

Даже в рамках сильно ограниченного бюджетаможно собрать кластер, обладающий хорошейпроизводитель-ностью

Каждая нода кластера состоит из:2 процессоров Intel Xeon Processor E5-2680V2 (25M Cache, 2.80 GHz, 8.00 GT/s QPI, 10 ядер);2 GPU-ускорителей Tesla на архитектуре Kepler.

Между собой ноды объединены InfiniBand FDR от Mellanox

Page 38: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Как сэкономить на хранении данных

Чем реально отличается диск desktop от enterprise;Какие диски выбрать для расчетных нод –desktop/ enterprise/SSD;Использовать ли в расчетных нодах диски в принципе;Правильный подход построения основной СХД;Как сделать СХД дешево и «сердито».

Page 39: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

Миллион часов MTBF (Mean time between failures)– много или мало? 1000000/(365 дней*24 часа)=114 лет безотказнойработы?

Нет! Значение MTBF неприменимо к одному диску. Это статистический показатель, говорящий, что в партии из 114-ти дисков за 1 год вероятно выйдет из строя 1 диск

Page 40: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

1) Показатель AFR (annual failure rate - годовая интенсивность отказов).

Упрощенная формула для первых лет: AFR=1/(MTBF/8760).

Пример: десктопный Seagate Barracuda (MTBF 700000 часов, Power-On Hours (POH) 2400 часов в год – примерно 8x5). При работе 24х7 реальный AFR вместо 1,25% будет около 8%.Итог – за 3 года работы у вас выйдет из строя 1 диск из 12.

Page 41: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

Пример 2: серверный Seagate Performance 15K.4(MTBF 2000000 часов, Power-On Hours (POH) 8760 часов в год). При работе 24х7 реальный AFR будет около 0,5%.Итог 2 – за 3 года работы у вас выйдет из строя 1 диск из 200.

Page 42: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

2) Показатель UER (unrecoverable error rate - вероятность появления невосстановимой ошибки чтения).Для современных десктопных дисков значение UER составляет 1 x 10-14, для серверных – от 1x 10-15 до 1x 10-

16.Пример: есть RAID 5 из пяти 3ТБ-дисков, один из дисковотказал. Массив надо перестраивать, при этом придетсяпрочитать 4 диска × 3T = 12Т =1,2·1013 байт = 0,1·10 14 битинформации. Т.е. с вероятностью 10% мы получим сбойреконструкции просто по спецификации диска. Плюс вероятность того, что диск сломается.

Page 43: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

3) Показатель SCT ERC (SMART Command Transport Error Recovery Control …или что такое на самом деле ‘Raid edition' для жестких дисков).Это технология, которая отвечает за фиксированное время доступа.По сути: купили крутой винт домой в количестве одна штука: выключите ERC (0,0). Купили винт в рейд —проверьте, что у него ERC больше нуля, а лучше – ближе к разумному значению в районе 3-10с. (300-1000).

Page 44: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Чем реально отличается диск desktop от enterprise

Еще раз: Люди, которые берут себе RE4 диски (и прочие Raid edition), а так же Velocity raptor'ы для использования в качестве единственного жёсткого диска и при этом не выставляют ERC в ноль, делают гигантскую глупость, сравнимую лишь с глупостью людей, которые, наоборот,десктопные винты вгоняют в рейд без настройки ERC и надеются, что в случае сбоя их рейд спасёт.

Page 45: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Какие диски выбрать для расчетных нод – desktop/ enterprise/SSD

Казалось бы, выбор очевиден – надо использовать enterprise? Нет! Точнее – а зачем?

В расчетных нодах диски по-сути выполняют только роль загрузчика;Они не содержат жизненно-важных данных;Кол-во операций чтения намного больше кол-ва операций записи;Данные легко восстановить, т.к. информация идентична для всех нод.

Page 46: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Какие диски выбрать для расчетных нод – desktop/ enterprise/SSD?

иИспользовать ли в расчетных нодах

диски в принципе?

Ответ: для расчетных нод диски не нужны вообще.Если уж решили делать кластер с загрузочными дисками, то можно брать самые простые одиночные (без рейд) десктопные диски или flash/SD-карты.

Page 47: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Правильный подход построения основной СХД

Их два:1) Комплексные аппаратно-прогаммные решения под ключ - Terascala HPC Storage Solution (Dell), Quantum Dxi, HP 3PAR + D2D StoreOnce и т.д.;

2) Использование распределенных параллельных файловых систем с защитой от сбоев – Lustre, Google File System, ExaFS, Panasas ActiveScale File System, OneFS

distributed file system, ………….

Page 48: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Как сделать СХД дешево и «сердито»

Возможный вариант:1) Собираем СХД на RAID-6 или 60 на enterprise или хотя-

бы nearline дисках;

2) Физически подключаем СХД по Infiniband –через iSCSI Extensions for RDMA или Fibre Channel encapsulation (FCoIB or FCoE);

3) Устанавливаем Windows Server 2012 .4) Ужас? Нет! Включаем дедубликацию.

Сложно? Если «Да», то …

Page 49: Построение сбалансированного кластераhpc-ua.org/hpc-day-13/files/presentations/7.pdfXeon Phi Coprocessor 5110P 1 Many Integrated Core 1010 н.д

Вывод

Для построения сбалансированного кластера нужно обратиться к нам

ООО «Терминал-Сервис»,

Сергей Дудинов,

Директор

[email protected]