35
AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 张洋,AWS 解决方案架构师 100G时代云计算技术演进与创

100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

张洋,AWS 解决方案架构师

100G时代云计算技术演进与创新

Page 2: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

议程

• AWS区域环境介绍

• EC2实例架构演进

• Nitro系统原理介绍

• 利用Nitro实现高性能、高可用案例

Page 3: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS区域环境介绍

Page 4: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Availability

Zone A

Availability

Zone B

宁夏区域

Availability

Zone C

Availability

Zone A

Availability

Zone B

北京区域

https://amazonaws-china.com/cn/about-aws/global-infrastructure/

https://www.infrastructure.aws/

66个可用区分布于全球21个区域• 低延时• 高覆盖• 多运营商接入

计划新增4个区域,12个可用区:• 巴林• 开普敦• 雅加达• 米兰

180 个接入点(169 个边缘站点和11 个区域性边缘缓存)

AWS 全球化基础设施

• 全球100 GbE高速冗余网络基础

• 每个region区域至少有两个可用区

• 可用区内延时保持在0.3ms以下

• 可用区间网络延时保持在3ms以下

• 跨可用区的高可用部署

• 极低成本异地容灾方案

Page 5: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

流程日志

Amazon Virtual Private Cloud(VPC)

Virtual Private Cloud

调配逻辑上隔离的云,让您可以在一个虚拟网络启动AWS资源

VPC终端节点私有和安全连接至Amazon S3和Amazon DynamoDB

安全组和ACL

NAT 网关

Amazon S3 Amazon DynamoDB

共享VPC允许多个账户在VPC中启动其应用

Page 6: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS网络连接

在VPC和本地部署网络之间私密共享服务

安全、可扩展、可靠

Amazon Virtual Private Cloud(VPC)

客户界面VPC 终端节点

Salesforce数据中心

AWS直接连接

Salesforce VPC终端节点服务

Page 7: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon EC2资源概述

EBS EBS EBS

VPCVPC

EBS EBS EBS

EBS快照

Amazon S3

实例

虚拟机配置 运行或停止VM

AMI

Page 8: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

覆盖广度和深度的平台选择

种类 能力 选项

处理器选择(AWS, Intel, AMD)

高能处理器(达 4.0 GHz)

高端内存占用空间(达 12 TiB)

实例存储(HDD 和 NVMe)

网络连接(达 100 Gbps)

加速计算(GPUs 和 FPGA)

裸机

大小(Nano到32xlarge)

Amazon Elastic Block Store

Elastic Inference

Elastic Graphics+ + =计算密集型

内存密集型

超频

存储(高I/O)

高密度存储

GPU计算

图形密集型

通用 185+实例类型几乎每个工作负载和业务需求

2007 2019

Page 9: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon EC2实例特征

M5d.nxlarge实例家族

实例系列

实例大小

实例类型

CPU

内存

存储

网络性能

*附加能力

Page 10: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

NITRO介绍AWS实例的演进

Page 11: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nitro板卡 Nitro安全芯片 Nitro Hypervisor

本地NVMe存储

弹性数据块存储

网络连接、监控和安全

集成到主板

保护硬件资源

轻型hypervisor

内存和CPU分配

裸机性能

AWS Nitro系统

用于快速设计和交付Amazon EC2 实例的模块化构建块

使用perf运行虚拟化实例,与裸机没有区别

使用AWS的弹性、安全、规模和服务,在Amazon EC2上运行裸机工作负载

Page 12: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Hypervisor—半虚拟化(PV)

• Xen PV 3.0

• Pv启用的内核和PV驱动• Xennet 和 xenblk

• 实例类型:• M1

M1

Xen hypervisor

EC2 实例

EC2 实例

EC2 实例Xen

Dom0

Page 13: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Hypervisor—硬件虚拟化(HVM)

• AMD破坏了PV

• CPU环

• 硬件辅助虚拟化

• Intel VT和AMD-V

• QEMU用于模拟设备

• 主板

• PCI设备

Page 14: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Hypervisor—PVHVM

• HVM问题:• 使用完整的MMIO寄存器模拟PCI

• 模拟中断控制器和定时器

• QEMU对设备进行了模拟

• 进入PVHVM模式:• 进入PV驱动—xennet和xenblk

• 支持SR-IOVXen hypervisor

EC2 实例

EC2 实例

EC2 实例Xen

Dom0 ixgbevf

Intel 82599

Page 15: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nitro:十年磨一剑

于2017年11月推出

自2013年起开发

所有新的启动使用Nitro

专用硬件/软件

为AWS构造的Hypervisor

AWS Nitro

Page 16: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Hypervisor —Nitro

• 自定义基于KVM的hypervisor

• EC2实例的得到更多资源

• 优化ENA

• 无netfront(vif)驱动故障恢复

• 基于NVME的EBS存储

• 使用操作系统所支持的最新版本的内核/NVME驱动!

• 您需要在initramfs中提供NVME驱动

Nitro hypervisor

EC2 实例

EC2 实例

EC2 实例

ENA

Page 17: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

Nitro的三个部分

Nitro板卡 Nitro安全芯片 Nitro Hypervisor

VPC网络连接

Amazon Elastic Block Store(Amazon EBS)

实例存储

系统控制器

集成到主板

保护硬件资源

信任的硬件根

轻型hypervisor

内存和CPU分配

裸机性能

Page 18: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nitro 实例

• C5: 计算优化的实例• R5: 内存优化的实例

• M5: 通用实例

• T3: 超频通用实例

• I3: I/O优化的实例

Page 19: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

I3.metal

裸机实例类型

第一个Nitro

裸机平台

适用于自定义hypervisor和微型VM

适用于Android模拟和Micro-VM

Page 20: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nitro带来的100G时代

Page 21: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

世界领先的网络速度

C1

• 1 Gbps

CC1

• 10 Gbps

C3

• Enhanced

Networking

• 20x PPS

• <100 µs

latency

C4

• EBS

optimized

by default

C5

• ENA

• 25 Gbps

• <50 µs

latency

C5n

• EFA

• 100 Gbps

• 3x PPS

Page 22: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

100Gbps时代

小型实例支持25 Gbps 峰值带宽

使用Nitro Hypervisor技术赋能

C5n

高性能实例优化高性能计算

2

大型实例支持100 Gbps 峰值带宽P3dn

高性能实例优化高性能计算

Page 23: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

100Gbps时代

弹性光纤卡优化超高性能计算

2

Page 24: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nitro实现高性能、高可用案例

Page 25: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

创新是一个可以被加速的过程

• 不影响生产的实验

• 快速失败,迭代,以及重试

• 获取领先技术

• 安全地合作

来源:Alices Flight有限公司

账户获取

培训

项目启动

0-50 501-55051-100 101-150 151-200 201-250 251-300 301-350 351-400 401-450 451-500

单一用户公有云HPC资源获取(以人天为工作量单位)

招标

评标

基准测试

说明

合同

项目管理

试运行

验收测试

0-50 501-55051-100 101-150 151-200 201-250 251-300 301-350 351-400 401-450 451-500

传统HPC资源(以人天为工作量单位)

Page 26: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS的HPC解决方案组件

自动化和编排

AWS Batch

AWS ParallelCluster

NICE EnginFrame

存储

Amazon EBS

Amazon EFS

Amazon S3

计算

Amazon EC2实例

(计算和加速)Amazon EC2 Spot

AWS Auto Scaling

访问

NICE DCV

Amazon AppStream 2.0

网络连接

增强型网络连接

置放群组

Elastic Fabric Adapter

Amazon FSx for Lustre

Page 27: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon EC2购买选项

为了优化EC2,请组合三种购买选项!

按需立即支付计算能力,

无需担心长期承诺

预留实例

做出1到3年的承诺,接受大幅度折扣

的按需价格

Spot 实例为Amazon Ec2能力

减少了高达90%按需价格

Page 28: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

利用不同的购买选项,优化EC2使用

使用预留 支撑稳定的负载

大量使用 Spot 支撑无状态/容错的工作负载

按需支撑明显的波峰/波谷

Page 29: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

宁夏区域

5系列 4系列5系列 vs

4系列(OD)

5系列 vs

4系列(1Y AURI)

27%

33%

28%

49%

北京区域

5系列 4系列5系列 vs

4系列(OD)

5系列 vs

4系列(1Y AURI)

35%

38%

35%

32%

* 信息仅按“原样”提供,请参考AWS中国网站了解最新价格 https://www.amazonaws.cn/ec2/pricing/ec2-linux-pricing/

EC2 5系列和4系列之间的价格降幅高达49%

Page 30: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

C5: 基于Intel Skylake的计算优化型实例

定制3.0 GHz Intel Xeon可扩展处理器(Skylake)

最多72个vCPU和144 GiB内存(2:1内存:vCPU比率)

25 Gbps网络带宽

支持Intel AVX-512

C5d具有基于NVMe的本地SSD存储

25% / [49%] 性

价比提升

相比C4

Series1 Series2

“我们看到Amazon EC2 C5的性能显着提升,与C4相比,行业标准CPU基准测试的性能提升高达140%。”

“我们渴望迁移到支持AVX-512的c5.18xlarge实例大小 - 我们希望将一些关键工作负载的处理时间减少30%以上。”

Page 31: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

节省75%

Milk VFX的峰值为130000核心,同时为Adrift

1000亿

以上

节省约80%的成本

因为有限的资源,数据中心需要数周完成的作业,感谢并行性,现在

仅需数小时且成本非常低。

在不影响SLA的情况下,验

证了EMR成本可以降低70%

© 2019 Amazon Web Services, Inc. 或其附属公司。保留所有权利。峰会

节省75%

M ilk VFX的峰值为130000核心, 同时为Ad rift

1000亿

以上

节省约80% 的成本

因为有限的资源, 数据中心需要数周完成的作业, 感谢并行性, 现

在仅需数小时且成本非常低。

在不影响SLA的情况下, 验

证了EM R成本可以降低70%

Page 32: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

消耗300万核心小时的Amazon EC2计算容量(大部分为Amazon EC2 Spot实例)

Page 33: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

管理50X数量的证券

运行风险模型的速度

在几小时内完成,而不是几个月

Page 34: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

以极大的规模运行HPC应用

“存储技术非常复杂,我们不断推进物理和工程的极限,以提供下一代能力和技术创新。与AWS的成功合作显示了云端HPC的极强扩展性、能力和敏捷性,以帮助我们为未来的存储架构分析和材料科学探索运行复杂的模拟。使用AWS可以轻易地将模拟时间从20天缩短到8小时,从而使Western Digital研发团

队以不久前还无法想象的速度探索新的设计和创新。”—Steve Phillpott,CIO,Western Digital

单一HPC

集群上,运行超过

Page 35: 100G时代云计算技术演进与创 新Webinar+2019/PDF... · 张洋,AWS 解决方案架构师 100G时代云计算 ... 网络连接 (达 100 Gbps) 加速计算 (GPUs 和 FPGA)

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。

欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:

微信公众号:AWSChina

新浪微博:https://www.weibo.com/amazonaws/

领英:https://www.linkedin.com/company/aws-china/

知乎:https://www.zhihu.com/org/aws-54/activities/

视频中心:http://aws.amazon.bokecc.com/

更多线上技术活动:https://aws.amazon.com/cn/about-aws/events/webinar/

感谢参加 AWS 在线研讨会