Big Data: миф или информационная революция?

Preview:

DESCRIPTION

Открытый семинар для студентов в компании custis (9 октября 2014). Лектор: Дмитрий Морозов, ведущий системный инженер. Из этого семинара вы узнаете о том, что такое большие данные и какие технологические возможности работы с ними существуют. Видеозапись семинара: https://vimeo.com/108889510.

Citation preview

9 октября 2014 года

Big Data: миф

или информационная

революция?

Дмитрий Морозов

Ведущий системный инженер

О себе

В CUSTIS с 2007 года

Образование: СУНЦ МГУ,

МФТИ, к. ф.-м. н.

Специализация:

виртуализация, облачные

технологии, Big Data

Сертифицированный

специалист Microsoft, Veeam

2/37

Почему я работаю в CUSTIS

Нравится принимать решения и нести

ответственность за них в проектах

Нравится искать решения проблем,

а не работать по шаблонам

Нравится человеческий подход

к сотрудникам (удобный офис,

командировки, обучение, конференции)

Нравятся люди, с которыми интересно

работать… и не только работать

3/37

Почему я работаю в CUSTIS

Нравится принимать решения и нести

ответственность за них в проектах

Нравится искать решения проблем,

а не работать по шаблонам

Нравится человеческий подход

к сотрудникам (удобный офис,

командировки, обучение, конференции)

Нравятся люди, с которыми интересно

работать… и не только работать

4/37

Brazil 2014

5/37

«Традиционный тренер»

Стандартные инструменты

футбольного тренера

7/37

SAP Football Match Insights

Инструмент

тренера

чемпионов

мира – 2014

8/37

План

Big Data – новый способ мышления?

Практическая реализация технологий

больших данных

Примеры «из жизни»

9/37

Big Data –

новый способ мышления?

10/37

Предпосылки появления

Развитие средств хранения и обработки

информации

Откуда берутся «большие данные»?

11/37

Что такое Big Data

Volume

Variety

Velocity

12/37

Новый образ мышления

Способность анализировать все данные

Работа с неупорядоченными данными

Отказ от причинности

13/37

Обработка всех данных

Иногда требуется

обработать

всю имеющуюся

информацию

14/37

Big Data помогает найти мужа!

Лекция TED

15/37

Работа

с неупорядоченными данными

Только 5–10%

информации

в мире упорядочены

16/37

Скорость обработки данных

Информация

устаревает прежде,

чем ее успевают

обработать

17/37

Пример: Билайн

и продажа смартфонов

Билайн рекламирует смартфоны тем, кто уже

готов их купить

18/37

Корреляция

Причины?

Не нужны!Big Data позволяет выявлять

и даже прогнозировать явления

еще до понимания их причин

19/37

Пример: прогноз объема

денежной массы в банкоматах

С помощью больших

данных банки прогнозируют

время и объем пополнения

банкоматов

20/37

Пример: Amazon

и таргетированные рекомендации

Существенной долей успеха Amazon обязан

персональным рекомендациям

21/37

Пример: Big Data вместо анализов

Страховая компания Aviva

использует данные,

полученные с помощью

Big Data, вместо

медицинских анализов

22/37

Как оценить стоимость данных?

Капитализация

Facebook при IPO –

$ 110 млрд,

а бухгалтерская

стоимость –

$ 6 млрд

23/37

Технологии работы с Big Data

24/37

MapReduce

25/37

Выполнение MapReduce

26/37

Реализации MapReduce

Сотни и тысячи узлов

ОС Linux

Стандартное сетевое оборудование 1 Гбит/с

Дешевые локальные диски

Распределенная файловая система

Дешево,

масштабируемо…

27/37

Отказоустойчивость в MapReduce

…и отказоустойчиво

28/37

HDFS

29/37

Hadoop

Hadoop MapReduce

HDFS

Hadoop Common

YARN

Самая массовая

экосистема для

работы с Big Data

30/37

Экосистема Hadoop

Ambari

Avro

Cassandra

Chukwa

HBase

Hive

Mahout

Pig

Spark

Tez

ZooKeeper

Sqoop

Flume

Oozie

Cascading

Cascalog

…и это еще не все

31/37

Экосистема Hadoop

32/37

Как установить Hadoop?

На «Хабре» есть подробная инструкция

С Cloudera Hadoop

это просто!

33/37

Big Data – это не только Hadoop!

34/37

Аппаратные решения

АПК:

Teradata Aster MapReduce appliance

Oracle Big Data appliance

EMC Greenplum

In-memory АПК:

SAP HANA

Oracle Exalytics

И не забываем

про облака!

35/37

Миф

или информационная

революция?

Эволюция!

36/37

Сессия вопросов и ответов

Дмитрий Морозов

morozov@custis.ru

37/37

Recommended