Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
林俊, AWS 解决方案架构师
Amazon S3 Glacier Deep Archive
通过云端“深度数据冷冻”技术
构建极低成本的海量存储
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
大纲
S3 Glacier Deep Archive 基本介绍
S3 Glacier Deep Archive 使用场景
S3 Glacier Deep Archive 配置
小结
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive基本介绍
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
100%
归档是不频繁访问的主数据
热数据
冷数据
访问频率
极少甚至从不访问的主要数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据归档需求
金融行业
• 交易记录/影像记录
医疗/生命科学
• 电子病历,医疗影像(X
光,MRI, CT
等)
• 基因序列
• 药品研发记录
媒体
• 影像资料
自动驾驶
• 视频/毫米波雷达/激光雷达数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
典型的自动驾驶开发工作流
数据采集1
数据导入2
数据预处理3
标注4
模型训练5
模型仿真6
评价与校验7
模型部署8
每年 70PB
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
什么是 S3 Glacier Deep Archive?
无须管理磁带 11个9的高数据持久性
12小时还原数据 云上最低成本,Glacier的40%
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive使用场景
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive使用场景
数据生命周期管理
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
为数据选择合适的 S3 存储类别
访问频率频繁 不频繁
• 活跃且频繁访问数据
• 毫秒访问延时
• > 3 可用区
• ¥$0.1755/GB
• 访问模式不确定的数据
• 毫秒访问延时
• > 3 可用区
• ¥0.1030 至
¥0.1755/GB
• 监控成本(按对象)
• 最小存储周期
• 不频繁访问数据
• 毫秒访问延时
• > 3 可用区
• ¥0.1030/GB
• 取回成本(按GB)
• 最小存储周期
• 最小对象大小
S3 Standard S3 Standard-IA S3 OneZone-IA S3 Glacier
• 可重建数据
• 毫秒访问延时
• 1 可用区
• ¥0.0824/GB
• 取回成本(按GB)
• 最小存储周期
• 最小对象大小
• 归档数据
• 分钟到小时级别
恢复时间
• > 3 可用区
• ¥ 0.0300/GB
• 取回成本(按GB)
• 最小存储周期
• 最小对象大小
S3 Intelligent-
tiering
S3 Glacier
Deep
Archive
• 归档数据
• 小时级别恢复时间
• > 3 可用区
• ¥ 0.0108/GB
• 取回成本(按GB)
• 最小存储周期
• 最小对象大小
全 新 ! 全 新 !
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据生命周期管理
• 制定策略实现数据的自动分层或回收
• 策略可按桶、对象名前缀或是标签值进行细化设定
• 策略的执行是基于对象的创建时间
• 通过Deep Archive提供的极低成本和极高数据持久性的存储空间,实现数据长期保留
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
自动驾驶开发参考架构
AWS Snowball Edge
Pre-processing
AWS Direct Connect
Amazon S3
裸数据Amazon S3
预处理数据AWS Lambda
触发模型训练
AWS Dynamo
元数据
数据导入
模型训练与分析
AWS Elastic
Kubernetes Service
Deep Learning AMIs
EC2
Amazon S3
模型存储AWS IoT AWS
Greengrass
AWS Glue
AWS Elastic Search
AWS Lambda
数据处理与标注
Amazon
SageMaker
Ground Truth
仿真
EC2
EC2
AWS Batch
Rendering Engines
EC2
Amazon EMR
Amazon Redshift
Amazon Glacier
Deep Archive
归档裸数据
P3 P3
裸数据的生命周期管理
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
自动驾驶场景下海量数据的生命周期管理
示例策略:将所有采集时间超过30天的裸数据移动至Standard-IA
将所有采集时间超过90天的裸数据移动至Glacier Deep Archive
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive使用场景
云灾备
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
通过跨区域复制(CRR)功能实现”热-冷"容灾
自动将数据复制至其他AWS区域
可按桶、对象名前缀或标签值进行配置
将数据复制至S3 Glacier Deep Archive,降低超过90%的存储成本
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
与主流灾备方案的集成
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
https://www.commvault.com/blogs/2019/march/commvault-announces-support-for-amazon-s3-glacier-deep-archive
混合云备份:Commvault + Deep Archive
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
结合磁带网关实现对现有磁带架构的无缝替换
价值
数据中心
iSCSI VTL
磁带网关
HTTPS
应用程序
AWS存储网关服务
(S3 Glacier Deep Archive)
• 对现有物理磁带架构的无缝替换
• 在不改变备份软件或工作流的情况下,将数据备份并归档至AWS云
• 相对物理磁带的管理和维护成本,备份至云端可以极大降低整体拥有成本
NE
W
或 (S3 Glacier)
磁带库(Amazon S3)
离线磁带
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive使用场景
长期数据保留与法规遵从
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
长期数据保留场景对存储的要求
监管合规
• 国外:SEC17A-4, HIPAA
• 国内:金融、医疗等行业法规
通常要求不可篡改、不可删除并保留一定时间
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
什么是S3 Object Lock对象锁定功能
• S3新增的API以支持数据锁定
• 实现“一次写入,多次读取(WORM)”功能
• 适用于所有S3存储类别,包括S3 Glacier Deep Archive
• 通过Cohasset Associates审计认证
https://d1.awsstatic.com/r2018/b/S3-Object-Lock/Amazon-S3-Compliance-Assessment.pdf
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Object Lock:桶级别参数设置
针对桶启用对象锁定功能设置默认保留时间
• 做为新上传对象默认保留时间• 对象可通过”Retain Until Date”修改保留到期
时间• 不影响现有对象
设置默认模式• Compliance Mode: 合规模式,完全不能删除• Governance Mode: 监管模式,只有具有
s3:BypassGovernanceMode 的特殊权限用户才可以调整相关配置
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Object Lock:对象级别参数设置
保留到期时间(Retain-Until date)
• 设定最后保留时间• 只能增加,不能减少
对象锁定模式• 监管模式(Compliance Mode)
• 合规模式(Governance Mode)
依法保留(Legal-Hold Flag)
• 依法保留生效时,可以防止对象被删除• 不需要设置保留时间• 需要s3:PutObjectLegalHold 权限的特殊用户才
能进行设置变更
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive配置
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
将数据”冷冻”(写入)至 S3 Glacier Deep Archive
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
从 S3 Glacier Deep Archive “解冻”(还原)数据
数据还原级别 S3 Glacier S3 Glacier Deep
Archive
加速(Expedited) 1-5 分钟* N/A
标准(Standard) 3-5 小时 < 12 小时
批量(Bulk) 5-12 小时 < 48小时
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据还原级别升级
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据还原提醒
• 通过 SNS/SQS 推送提醒
• 在还原作业开始或结束时
• 数据包含 S3 还原副本的可用时间
还原
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
配置生命周期管理策略
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
配置跨区域复制(CRR)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive配置
磁带网关配置
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
磁带网关配置
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
小结
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3 Glacier Deep Archive的价值
高数据持久性
极低成本
零硬件维护
磁带存储的最佳替代方案
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
谢谢!