25

场景化数据应平台 · 2017-05-25 · Others: JDBC, MongoDB, BlockChain, JMX, Twitter Canal/Sqoop, Kafka connect 数据存储 File Storage QingStor 对象存储/HDFS RDS MySQL/PostgreSQL

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

  • 场景化⼤大数据应⽤用平台实践 & 思考

    霍秉杰 | ⻘青云QingCloud ⼤大数据平台研发⼯工程师

  • ► ⼤大数据分析通⽤用场景► 架构选型

    ► 技术选型

    ► ⼤大数据平台与QingStor 对象存储集成场景► ElasticSearch 与 QingStor 对象存储集成

    ► Spark/Hadoop/Hive 与QingStor 对象存储集成

    ► ⼤大数据平台 on AppCenter 2.0 ► Roadmap

    ► ⼤大数据平台架构

    ► ⼤大数据应⽤用市场

    ► ⼤大数据应⽤用示例例

    Agenda

  • ⼤大数据分析通⽤用场景

    决策数据采集 数据存储 数据处理理 应⽤用&可视化数据

  • ⼤大数据分析通⽤用场景 - 架构选型

    HashdataHive / Kylin

    OLAP

    MapReduceSpark&

    StormSpark

    &

    Extract

    DB

    Apps

    LogsFiles

    IoT

    ES/HBase/MongoDB

    NoSQL

    QingStorHDFS

    Kafka

    TableauQlikView

    BirstBI

    Zeppelin

    APIs

    &

    Hive HashData

    MysqlPostgreSQL

    RDS

    Spark MLibTensorflowML/DL/AI

    HUEKibana

    Web Apps Mobile Apps

    /

    Transform

    Load

    Consume

    Redis/Memc

  • ⼤大数据分析通⽤用场景 - 架构选型步骤 ⻘青云QingCloud ⼤大数据服务

    数据采集Files/logs Logstash / Flume / qsctl

    Others: JDBC, MongoDB, BlockChain, JMX, Twitter Canal/Sqoop, Kafka connect

    数据存储

    File Storage QingStor 对象存储/HDFS

    RDS MySQL/PostgreSQL

    NoSQL HBase/ElasticSearch/MongoDB

    Stream Storage Kafka

    Cache Redis/Memcached

    SQL on Hadoop Data Warehouse Hive (Kelin, Presto, Impala)

    SQL on Cloud Data Warehouse HashData

    数据处理理与分析

    Batch Processing Hadoop/Spark on QingCloud

    Stream Processing Storm/Spark Streaming

    ML / DL / AI Spark MLib/Tensorflow

    应⽤用与可视化 Consume & BI & Visualization HUE/Kibana/永洪BI/Zeppelin

  • ⼤大数据平台与QingStor 对象存储集成

    Hadoop/Spark/Hive/ElasticSearch

  • ElasticSearch 与QingStor 对象存储集成场景

    33

    1

    1

    1

    33 13 1

    1

    1

    2 1

    2 1

    2 1

    Backup Restore

    21 1313

  • ElasticSearch 与QingStor 对象存储集成场景

    ► 创建/查看/删除 repository

    ► 创建/查看/删除 snapshot

    ► 恢复snapshot到原集群(可以指定恢复某些或者全部index)

    ► 恢复snapshot到⼀一个新的ES集群(可以属于另⼀一个区)

  • Spark 与QingStor 对象存储集成场景3 21 1 2

    3

    3 +3 +1

    3 2

    3 +

    3 +1

    3 21 1

    223 +

    3 +1

    1 2

    +

    +

    +

    +

    +

    Read from/Write toQingStor

  • Spark 与QingStor 对象存储集成场景

    ► 在 Spark 中读取 HDFS 上的⽂文件后将其存储到 QingStor 对象存储中

    ► 在 Spark 中读取 QingStor 对象存储上的⽂文件,处理理过后再存储到 HDFS

    ► 在 Spark 中读取 QingStor 对象存储上的⽂文件, 处理理后将结果存回 QingStor 对象

    存储

    ► 直接将Spark的计算结果存储到QingStor 对象存储

  • Hadoop 与QingStor 对象存储集成场景

    23 1

    3 3

    3 1

    3

    3

    Read from/Write toQingStor

  • Hadoop 与QingStor 对象存储集成场景

    ► 在 QingStor 与本地⽂文件系统、HDFS 间读写数据

    ► 将 QingStor 中的⽂文件作为 mapreduce job 的输⼊入

    ► 将 QingStor 作为 mapreduce job 的输出

  • Hive 与QingStor 对象存储集成场景

    1 1

    112 3

    13

    3

    Read from/Write toQingStor

  • Hive 与QingStor 对象存储集成场景

    ► 将 QingStor 对象存储做为 Hive 中 Database 的默认存储引擎,并可创建、查询、

    操作以 QingStor 对象存储作为存储的表

    ► 将 HDFS 做为 Hive 中 Database 的默认存储引擎,创建基于QingStor 对象存储的

    外部表

    ► 将 QingStor 对象存储中的数据导⼊入以 HDFS 为存储的 Hive 表

  • ⼤大数据平台 on AppCenter 2.0 What's Next? HUE Hadoop 2.7 HBase 1.3 Spark 2.1.1 ELK 5.0 Zeppelin Kylin Presto Impala Flink TensorFlow Caffe Cassandra Neo4j ......

  • ⼤大数据管理理平台

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用市场

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用市场

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例

  • ⼤大数据平台 on AppCenter 2.0 - ⼤大数据云应⽤用示例例