Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Preview:

DESCRIPTION

Note on Hadoop Ecosystem status: Apache Software Foundation projects around Hadoop, Hadoop-as-a-Service solutions, hadoop appliances, hadoop-enabled architecture solutions

Citation preview

ЭКОСИСТЕМЫHADOOP

Становление и тенденции коммерциализации

ЭКОСИСТЕМА?

«Экосистема» как архитектура конкретных решений, использующих Hadoop

Тиражируемые ИТ-решения, связанные с Hadoop

«Экосистема» программных

продуктов, стыкующихся с

Hadoop (как проектов фонда

Apache, так и сторонних)

Готовые сборки «экосистем» –дистриубитвы

Hadoop

Готовые услуги по предоставлению

«экосистем» –«Hadoop как услуга»

Готовые аппаратно-программные «экосистемы»

HADOOP И СВЯЗАННЫЕ

ПРОЕКТЫ

Проекты Apache

Сторонние проекты

HADOOP 2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ

YARN[yet another resource

negotiator]

От MapReduce отделена логика управления

ресурсами и планирования заданий

Мультиарендность в одном кластере

YARN – «кластерная операционная система»

Изображения: ©2014, Hortonworks

“ЭКОСИСТЕМА”ПРОЕКТОВ

HDFS

GlusterFS

Ceph

YARN

MapReduce(пакетная

обработка)

Tez(интерактивная

обработка)

Amazon S3 CloudStore

Swift

Pig(сценарии)

Hive(запросы)

HBase(NoSQL)

Impala(SQL)

Drill(аналог Dremel)

Mahout(машинное обучение)

Zookeeper(координатор)

Ambari(управление)

Hue(ClouderaManager)

Ganglia(монитор)

Spark(оперативная обработка)

Storm(поточная

обработка)

Kafka(брокер

сообщений)

Oozie(workflow)

Sqoop(пакетная загрука)

Flume(поточная загрузка)

Hama(машинное обучение)

Taychon(in-memory data grid)

Azure Blob

Storage

файловые системы объектные хранилища

обработчики

СУБД-сервис

глубинный анализ

связующие управляющие

Сторонние проекты

ЯдроHadoop

Проекты Фонда

Apache

BigTop(сборка пакетов)

©2014, Arian Nawa

ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАН НАВА)

ДИСТРИБУТИВЫ HADOOP

Рынок дистрибутивов Hadoop

ДИСТРИБУТИВЫ-ЛИДЕРЫ

Cloudera

Oracle Big Data

Appliance

EMC Isilon

MapR

Amazon EMR

Pivotal Greenplu

m HD(первая версия)

Hortonworks

Teradata

MircosoftWindows и

Azure

Изображение: ©2013, Altoros

ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»

IBM

выпускается

EMC (Pivotal)

выпускается

Intel

закрыт(в пользу Cloudera)

Yahoo

закрыт [в пользу Hortonworks]

Дистрибутивы Linux

Red Hat, Fedora, CentOS SuSE Debian, Ubuntu

Apache BigTop

.rpm .debрецепты для Vagrant,

docker…

HADOOP КАК УСЛУГА

Hadoop в публичных облаках

ОСНОВНЫЕ ПРОВАЙДЕРЫ

• На базе MapR

• Интегрирован с S3

AmazonElastic MapReduce

• На базе Hortonworks

• Интегрирован с SwiftFSRackspace

• На базе HortonworksMicrosoft Azure

• BigInsightsIBM Bluemix

HADOOP-КОМПЛЕКСЫ

Тиражируемые интегрированные аппаратно-программные комплексы с Hadoop

КОМПЛЕКСЫ

Hadoopна «голом железе»

Oracle Big Data Appliance

Teradata HadoopAppliance

EMC/PivotalGreenplum HD

Конвергентные комплексы

VCE [Cisco – Vmware – EMC]

FlexPod[Cisco –… – NetApp]

IBM/LenovoPure for Hadoop

КАРТИНЫ МИРА ОТ DATAMEER

… названные «экосистема Hadoop»

HADOOP ECOSYSTEM

as of January, 2012

Изображение: ©2012, Datameer

Изображение: ©2013, Datameer

Изображение: ©2014, Forrester Research

… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)

АРХИТЕКТУРНЫЕ РЕШЕНИЯ

Λ-АРХИТЕКТУРА

Все данные

Свежие данные

Предобработанные

данные

с л о й р а з д а ч и

п а к е т н ы й с л о й

б ы с т р ы й с л о й

Данные реального

времени

Поток данных Инкремент данных

Комплексный

агрегат

Частичный

агрегат

Частичный

агрегат

Пакетные представления

Представление реального времени

MapReduce

Storm

HDFSFlume

Flume

HBase

Свежие данные подпадают одновременно в слои пакетной и быстрой обработки

и комбинируются в отдельном слое раздачи

SPARKСамый активный

свободный проект

в области больших данных

file = spark.textFile("hdfs://...")

file.flatMap(lambda line: line.split())

.map(lambda word: (word, 1))

.reduceByKey(lambda a, b: a+b)

Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти

Изображение: ©2014, Apache Software Foundation

SharkSpark

SQL

Spark

streamingMLib

Graph

X

Проекты над Spark:

SQL НАД HADOOP

Изображение: ©2014, Gigaom Research

Федераторы

Teradata SQL-H Greenplum Hawk

Встраиваемые в «экосистему» (YARN)

Cloudera ImpalaHadapt

(поглощена Teradata)

SQL над Apache Spark

Shark Spark SQL

В развитие Hive

HortonworksStinger

Facebook Presto

«Появление решений, обеспечивающих

выполнение ANSI SQL над Hadoop

создало непосредственную возможность

признания Hadoop уже в 2015 году

как практической платформы данных для

широкого круга организаций»

Forrester Research, ноябрь 2014

ГЛОССАРИЙ

Applicance

Программно-аппаратный

комплекс

Комплекс

Bare-metal

«Голое железо»

Box

Узел

Chunk

Блок данных

Commodity hardware

Оборудование массового

класса

Curring

Каррирование

A…J

Data node

Узел данных

Deployment

Развёртывание

Direct-attached storage

Устройство хранения прямого

подключения

Engine

Механизм

Движок

Job

Задание

Job tracker

Трекерзаданий

Machine

Машина

Map

[?]

Mapper

[?]

Mapping

Соответствие

Master node

Главный узел

Multi-tennancy

Мульти-арендность

M…R

Name node

Узел имён

Namespace

Пространство имён

Node

Узел

Realtime

…реального времени

Reduce

Свёртка

Сведение

Reducer

Свёртка

S…W

Shard

Узел [распределённо

го хранения]

Shuffle

Тасовка

Slave node

Подчинённый узел

Slot

Слот

Stack

Стек

Task

Задача

Task tracker

Трекер задач

Trail

След

Worker

Исполнитель

Worker node

Узел исполнения

Workflow

Поток операций

Workload

Нагрузка

СПАСИБО ЗА ВНИМАНИЕ!

mailto:anikolaenko@ibs.ru

Recommended