Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ЭКОСИСТЕМЫHADOOP

Становление и тенденции коммерциализации

ЭКОСИСТЕМА?

«Экосистема» как архитектура конкретных решений, использующих Hadoop

Тиражируемые ИТ-решения, связанные с Hadoop

«Экосистема» программных

продуктов, стыкующихся с

Hadoop (как проектов фонда

Apache, так и сторонних)

Готовые сборки «экосистем» –дистриубитвы

Hadoop

Готовые услуги по предоставлению

«экосистем» –«Hadoop как услуга»

Готовые аппаратно-программные «экосистемы»

HADOOP И СВЯЗАННЫЕ

ПРОЕКТЫ

Проекты Apache

Сторонние проекты

HADOOP 2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ

YARN[yet another resource

negotiator]

От MapReduce отделена логика управления

ресурсами и планирования заданий

Мультиарендность в одном кластере

YARN – «кластерная операционная система»

“ЭКОСИСТЕМА”ПРОЕКТОВ

GlusterFS

MapReduce(пакетная

обработка)

Tez(интерактивная

обработка)

Amazon S3 CloudStore

Pig(сценарии)

Hive(запросы)

HBase(NoSQL)

Impala(SQL)

Drill(аналог Dremel)

Mahout(машинное обучение)

Zookeeper(координатор)

Ambari(управление)

Hue(ClouderaManager)

Ganglia(монитор)

Spark(оперативная обработка)

Storm(поточная

обработка)

Kafka(брокер

сообщений)

Oozie(workflow)

Sqoop(пакетная загрука)

Flume(поточная загрузка)

Hama(машинное обучение)

Taychon(in-memory data grid)

Azure Blob

Storage

файловые системы объектные хранилища

обработчики

СУБД-сервис

глубинный анализ

связующие управляющие

Сторонние проекты

ЯдроHadoop

Проекты Фонда

Apache

BigTop(сборка пакетов)

ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАН НАВА)

ДИСТРИБУТИВЫ HADOOP

Рынок дистрибутивов Hadoop

ДИСТРИБУТИВЫ-ЛИДЕРЫ

Cloudera

Oracle Big Data

Appliance

EMC Isilon

Amazon EMR

Pivotal Greenplu

m HD(первая версия)

Hortonworks

Teradata

MircosoftWindows и

ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»

выпускается

EMC (Pivotal)

выпускается

закрыт(в пользу Cloudera)

закрыт [в пользу Hortonworks]

Дистрибутивы Linux

Red Hat, Fedora, CentOS SuSE Debian, Ubuntu

Apache BigTop

.rpm .debрецепты для Vagrant,

docker…

HADOOP КАК УСЛУГА

Hadoop в публичных облаках

ОСНОВНЫЕ ПРОВАЙДЕРЫ

• На базе MapR

• Интегрирован с S3

AmazonElastic MapReduce

• На базе Hortonworks

• Интегрирован с SwiftFSRackspace

• На базе HortonworksMicrosoft Azure

• BigInsightsIBM Bluemix

HADOOP-КОМПЛЕКСЫ

Тиражируемые интегрированные аппаратно-программные комплексы с Hadoop

КОМПЛЕКСЫ

Hadoopна «голом железе»

Oracle Big Data Appliance

Teradata HadoopAppliance

EMC/PivotalGreenplum HD

Конвергентные комплексы

VCE [Cisco – Vmware – EMC]

FlexPod[Cisco –… – NetApp]

IBM/LenovoPure for Hadoop

КАРТИНЫ МИРА ОТ DATAMEER

… названные «экосистема Hadoop»

HADOOP ECOSYSTEM

as of January, 2012

… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)

АРХИТЕКТУРНЫЕ РЕШЕНИЯ

Λ-АРХИТЕКТУРА

Все данные

Свежие данные

Предобработанные

данные

с л о й р а з д а ч и

п а к е т н ы й с л о й

б ы с т р ы й с л о й

Данные реального

времени

Поток данных Инкремент данных

Комплексный

агрегат

Частичный

агрегат

Частичный

агрегат

Пакетные представления

Представление реального времени

MapReduce

HDFSFlume

Свежие данные подпадают одновременно в слои пакетной и быстрой обработки

и комбинируются в отдельном слое раздачи

SPARKСамый активный

свободный проект

в области больших данных

file = spark.textFile("hdfs://...")

file.flatMap(lambda line: line.split())

.map(lambda word: (word, 1))

.reduceByKey(lambda a, b: a+b)

Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти

SharkSpark

streamingMLib

Проекты над Spark:

SQL НАД HADOOP

Федераторы

Teradata SQL-H Greenplum Hawk

Встраиваемые в «экосистему» (YARN)

Cloudera ImpalaHadapt

(поглощена Teradata)

SQL над Apache Spark

Shark Spark SQL

В развитие Hive

HortonworksStinger

Facebook Presto

«Появление решений, обеспечивающих

выполнение ANSI SQL над Hadoop

создало непосредственную возможность

признания Hadoop уже в 2015 году

как практической платформы данных для

широкого круга организаций»

Forrester Research, ноябрь 2014

ГЛОССАРИЙ

Applicance

Программно-аппаратный

комплекс

Комплекс

Bare-metal

«Голое железо»

Узел

Блок данных

Commodity hardware

Оборудование массового

класса

Curring

Каррирование

Data node

Узел данных

Deployment

Развёртывание

Direct-attached storage

Устройство хранения прямого

подключения

Engine

Механизм

Движок

Задание

Job tracker

Трекерзаданий

Machine

Машина

Mapper

Mapping

Соответствие

Master node

Главный узел

Multi-tennancy

Мульти-арендность

Name node

Узел имён

Namespace

Пространство имён

Узел

Realtime

…реального времени

Reduce

Свёртка

Сведение

Reducer

Свёртка

Узел [распределённо

го хранения]

Shuffle

Тасовка

Slave node

Подчинённый узел

Слот

Стек

Задача

Task tracker

Трекер задач

След

Worker

Исполнитель

Worker node

Узел исполнения

Workflow

Поток операций

Workload

Нагрузка

СПАСИБО ЗА ВНИМАНИЕ!

mailto:anikolaenko@ibs.ru

Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Software

Snapshotting in Hadoop Distributed File System for Hadoop ...€¦ · Snapshotting in Hadoop Distributed File System for Hadoop Open Platform as Service ... 2.2 Hadoop Open Platform

Why use Hadoop?, Challenges / Learning Hadoop & Average Salary of Hadoop Professional

Hadoop Deployment Manual - Hyadespleiades.ucsc.edu/doc/bright/hadoop-deployment-manual.pdf2.2 Ncurses Installation Of Hadoop Using cm-hadoop-setup ... •The Hadoop Deployment Manual

Hadoop virtualization extensions hadoop world meetup

Apache Hadoop and Hive. Outline Architecture of Hadoop Distributed File System Hadoop usage at Facebook Ideas for Hadoop related research

Hadoop Conf 2014 - Hadoop BigQuery Connector

Securing Hadoop: Security Recommendations for Hadoop

Hadoop Present - Open Enterprise Hadoop

Hadoop Installation Guide | Hadoop Configuration

Cloud computing: the IBM point of view - OSPcon · 2014-09-05 · Service catalog, metering, and automated deployment of virtualized resources Integrated virtualization management

Introduction to Hadoop and Hadoop component

Мой доклад по Enterprise Architecture с Форума "Стратегическое управление ИТ" (OSPCon & "Открытые Системы") - май 2011

Hadoop Operations Powered By ... Hadoop (Hadoop Summit 2014 Amsterdam)

[Hadoop] Terapot: Massive Email Archiving with Hadoop

PROFESSIONAL HADOOP® SOLUTIONS - Startseite€¦ · The Hadoop Ecosystem 7 Hadoop Core Components 7 Hadoop Distributions 10 Developing Enterprise Applications with Hadoop 12 Summary

HADOOP ADMIN: Session -2 What is Hadoop?. AGENDA Hadoop Demo using Cygwin HDFS Daemons Map Reduce Daemons Hadoop Ecosystem Projects

Hadoop Interview Questions Version 2.0.0 Author: Hadoop ...kpbigdata.com/img/Hadoop_Interview_question.pdf · Hadoop Interview Questions Version 2.0.0 Author: Hadoop Learning Resource

Hadoop World 2010: Productionizing Hadoop: Lessons Learned

Introduction to Apache Hadoop & Pig - SALSAHPCsalsahpc.indiana.edu/CloudCom2010/slides/PDF/tutorials/Yahoo... · Hadoop & Pig Milind Bhandarkar ... (hadoop, pig) (apache, pig) (hadoop,

HadoopLearn | HADOOP Online Training USA | HADOOP Trainings