36
0 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential Oracle Internal

Технологии и продукты Oracle для обработки и анализа Больших Данных

Embed Size (px)

DESCRIPTION

"Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности" Forrester

Citation preview

Page 1: Технологии и продукты Oracle для обработки и анализа Больших Данных

0 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Page 2: Технологии и продукты Oracle для обработки и анализа Больших Данных

1 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Технологии и продукты Oracle для обработки и анализа Больших Данных

Андрей Пивоваров Руководитель группы перспективных технологий

Page 3: Технологии и продукты Oracle для обработки и анализа Больших Данных

2 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 2

Gartner Hype Cycle 2013

Page 4: Технологии и продукты Oracle для обработки и анализа Больших Данных

3 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 3

Откуда берутся Большие данные? (1/2) Они были всегда, но не всегда обрабатываются

Например, традиционные данные из RDBMS за прошлые

годы

В самой сущности таких данных может не быть ничего

нового, их просто очень много.

Возникают вопросы о целесообразности хранения и

обработки таких объемов в традиционных архитектурах

Это может быть просто дорого

Page 5: Технологии и продукты Oracle для обработки и анализа Больших Данных

4 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 4

Откуда берутся Большие данные? (2/2) Новые данные

Логи, данные телеметрии, датчиков, полуструктурированные

данные и неструктурированные данные, записи в социальных

сетях, вебсайты и т.д.

Данные, которые могут очень быстро накапливаться, при этом,

обычно (но не всегда) информационная плотность их низкая.

Данные, которые очень дорого хранить используя традиционный

подход

Page 6: Технологии и продукты Oracle для обработки и анализа Больших Данных

5 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 5

Зачем обрабатывать Большие Данные?

Очень многие примеры о Big

Data связаны с точечным

маркетингом и

персонализацией

Персонализированные

предложения требуют очень

большого количества данных

о поведении клиентов.

Необходимость собирать

данные из многих источников

Page 7: Технологии и продукты Oracle для обработки и анализа Больших Данных

6 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Хранение Организация Анализ

Визуализация

Платформа Oracle для обработки Больших Данных

Поток

Page 8: Технологии и продукты Oracle для обработки и анализа Больших Данных

7 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Хранение Организация Анализ

Визуализация

Платформа Oracle для обработки Больших Данных

Поток

Hadoop

Oracle NoSQL

Database

Applications

Open source R

Oracle Data Integrator

In-D

ata

bas

e

An

aly

tics

Data

Warehouse

Oracle

Advanced

Analytics

Oracle

Database

Oracle Business

Intelligence Applications

Oracle Business

Intelligence Tools

Oracle Endeca

Information Discovery

Oracle Event Processing

Or Oracle Big Data

Connectors

Oracle Real-Time Decisions

Page 9: Технологии и продукты Oracle для обработки и анализа Больших Данных

8 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Exadata Database Machine

Page 10: Технологии и продукты Oracle для обработки и анализа Больших Данных

9 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 9

Что такое Oracle Exadata?

Машина для СУБД Oracle

– OLTP

– Хранилищ данных

– Смешанных нагрузок

– Консолидации приложений на базе Oracle Database

Построено на основе:

– Oracle Database

Все приложения, работающие c Oracle Database, могут

работать на Exadata

– Oracle Hardware

Page 11: Технологии и продукты Oracle для обработки и анализа Больших Данных

10 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 10

Exadata на аппаратном уровне

Быстрая дисковая подсистема

Использование 40Gb/s Infiniband

Использование FLASH карт (до 22.4 TB)

Много RAM (до 4TB)

Много процессорных ядер (до 160+168)

In-Memory Database Machine

Page 12: Технологии и продукты Oracle для обработки и анализа Больших Данных

11 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Архитектура Exadata

•Каждая ячейка Exadata – самостоятельный

сервер с установленными дисками и ПО

Exadata

•Данные «размазаны» между многими

ячейками Exadata

•Нет ограничения на количество ячеек в

системе

•Ячейки выполняют множество операций,

которые в традиционной архитектуре делает

Oracle

•Ячейки работают в режиме MPP

Exadata Cell

InfiniBand Switch/Network

Single Instance RAC

Exadata Cell Exadata Cell

Page 13: Технологии и продукты Oracle для обработки и анализа Больших Данных

12 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Инновации в Exadata

• Интеллектуальная СХД

– Smart Scan

– InfiniBand

+ + +

• Hybrid Columnar Compression – 10-кратное сжатие для хранилищ

– 15-кратное сжатие для архивного

хранения

• Интеллектуальный PCI Flash Cache

– Ускоряет произвольный I/O до 30 раз

– Время сканирования уменьшается в

3 раза

сжатые

primary DB

standby test

dev backup

несжатые

Page 14: Технологии и продукты Oracle для обработки и анализа Больших Данных

13 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Масштабируемость

Тысячи процессорных ядер

Петабайты данных

BIG DATA???

Page 15: Технологии и продукты Oracle для обработки и анализа Больших Данных

14 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 14

Google trends. Big Data.

Page 16: Технологии и продукты Oracle для обработки и анализа Больших Данных

15 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 15

Почему о Больших Данных так много говорят?

Технологии, раньше используемые только в веб-проектах стали

достаточно зрелыми

– Не обязательно держать штат программистов, чтобы ими пользоваться

Появились новые возможности для получения конкурентных преимуществ:

– Глубокий анализ поведения клиентов

– Высокоточная реклама

– Объединение и анализ данных из многих источников, в том числе

неструктурированных

– Анализ мошенничеств

– и т.д.

Big Data технологии позволяют существенно удешевить хранение и

обработку данных

Page 17: Технологии и продукты Oracle для обработки и анализа Больших Данных

16 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 16

Недопонимания о Big Data Под Big Data разные вендоры могут понимать разное

Big Data – это множество разных технологий

– Hadoop

– NoSQL

– Event Processing

– …

Некоторые задачи из области Big Data могут решаться

и с использованием обычных СУБД, но это часто будет

дороже

Page 18: Технологии и продукты Oracle для обработки и анализа Больших Данных

17 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 17

Что такое Hadoop?

Apache Hadoop - распределенная вычислительная архитектура:

– Open source (проект Apache Software Foundation)

– Включает в себя распределенную файловую систему HDFS

– Служит для пакетной обработки и ETL

– Обрабатывает данные в массивно-параллельном режиме (MapReduce)

– Работает на очень больших кластерах (сотни и даже тысячи узлов) на дешевом «железе»

– Автоматически обрабатывает отказ узлов, и перераспределение данных

Page 19: Технологии и продукты Oracle для обработки и анализа Больших Данных

18 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 18

Apache Hive

Apache Hive

– Инфраструктура, эмулирующая реляционную СУБД над

Hadoop

– Разработана в Facebook

– Есть SQL-подобный язык HiveQL

– Позволяет строить свербольшие хранилища данных в Hadoop

Page 20: Технологии и продукты Oracle для обработки и анализа Больших Данных

19 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 19

Hadoop или реляционная база данных?

Реляционная база

данных Hadoop

Page 21: Технологии и продукты Oracle для обработки и анализа Больших Данных

20 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

ХРАНИЛИЩЕ ДАННЫХ

Классическая BI&DW система

Пользователи

SAP Файлы, MS Excel Oracle Database Oracle ERP, CRM Sybase, DB2, MS SQL Server

Page 22: Технологии и продукты Oracle для обработки и анализа Больших Данных

21 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

ХРАНИЛИЩЕ ДАННЫХ

BI&DW система c Hadoop

Пользователи

SAP Файлы, MS Excel Oracle Database Oracle ERP, CRM Sybase, DB2, MS SQL Server

Hadoop

Page 23: Технологии и продукты Oracle для обработки и анализа Больших Данных

22 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 22

Oracle NoSQL Database Распределенная, масштабируемая key-value база данных

• Простая модель данных • Пара Key-value с подходом major+sub-key

• Операции read/insert/update/delete

• Поддержка ACID и BASE транзакций

• Масштабируемость

• Динамическое партиционирование и перераспределение

• Оптимизированный доступ к данным

• Высокая доступность

• Одна или более реплик

• Катастрофоустойчивость засчет разнесения реплик

• Устойчивость к отказу мастера

• Нет одной точки отказа

• Прозрачная балансировка нагрузки

• Чтение с мастера или реплики

• Драйвер знает о сетевой топологии и временах задержки

Storage Nodes Data Center A

Storage Nodes Data Center B

NoSQLDB Driver

Application

NoSQLDB Driver

Application

Page 24: Технологии и продукты Oracle для обработки и анализа Больших Данных

23 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

BIG DATA Appliance

Page 25: Технологии и продукты Oracle для обработки и анализа Больших Данных

24 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

• Кластер из 18 узлов

– 64 GB RAM на узле = 1152 GB RAM

– 16 ядер Intel на узле = 288 ядер

– 48 TB дисков на узел = 864 TB

• 40 Gb p/sec InfiniBand

• 10 Gb p/sec Ethernet

• Может продаваться в конфигурации 1/3 и 2/3

стойки

Oracle Big Data Appliance Машина для Hadoop и NoSQL DB

Page 26: Технологии и продукты Oracle для обработки и анализа Больших Данных

25 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

• Oracle Linux

• Java Hotspot VM

• Cloudera Hadoop Distribution

Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools

• R Distribution

• Oracle NoSQL Database

• Oracle Adapters for Hadoop:

– Oracle R Connector for Hadoop

– Oracle SQL to HDFS Connector

– Oracle Data Integrator Application Adapter for Hadoop

– Oracle Loader for Hadoop

Oracle Big Data Appliance Software

Page 27: Технологии и продукты Oracle для обработки и анализа Больших Данных

26 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Пример: Крупный российский банк

Дано:

1) Файлы, генерируемые “черным ящиком”

Файлы без единого

переноса строки,

размером несколько

сотен Мб. Суммарный

объем десятки Тб

2) Мета-описание этих

файлов (Excel)

Прим: формат файлов

меняется раз в несколько

недель

Page 28: Технологии и продукты Oracle для обработки и анализа Больших Данных

27 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Задача

Необходимо:

1) Хранить всю первичную информацию в течении нескольких

лет

2) Загружать часть полей

в РСУБД Oracle (~ 50 из

1000)

3) Список полей,

необходимых для загрузки

в РСУБД постоянно

меняется

Page 29: Технологии и продукты Oracle для обработки и анализа Больших Данных

28 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Решение

+ OLH

Big Data Appliance ExaData

Page 30: Технологии и продукты Oracle для обработки и анализа Больших Данных

29 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Event Processing

Page 31: Технологии и продукты Oracle для обработки и анализа Больших Данных

30 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Oracle Event Processing

• Технология обработки и анализа

потока данных • Непрерывный поток, часто большого объема

• Отсутствует конец потока

• Упорядочен по времени

• Нужно на лету уметь обнаруживать

«шаблоны»

• Невозможно или не эффективно

обрабатывать/анализировать в реальном

времени с применением баз данных

Page 32: Технологии и продукты Oracle для обработки и анализа Больших Данных

31 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Oracle OEP: Выявление шаблонов Торговля на бирже – шаблон “W”

SELECT FIRST(x.time), LAST(z.time)

FROM ticker MATCH_RECOGNIZE (ONE ROW PER MATCH PARTITION BY name

PATTERN (X+ Y+ W+ Z+)

DEFINE X AS (price < PREV(price))

Y AS (price > PREV(price))

W AS (price < PREV(price))

Z AS (price > PREV(price)))

1 9 12 19

days

X Y

W Z

Page 33: Технологии и продукты Oracle для обработки и анализа Больших Данных

33 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Кто из абонентов послал 5 смс из определенного торгового центра

за 10 последних минут?

Oracle Event Processing in Turkcell

Page 34: Технологии и продукты Oracle для обработки и анализа Больших Данных

37 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Хранение Организация Анализ

Визуализация

Платформа Oracle для Big Data

Поток

Page 35: Технологии и продукты Oracle для обработки и анализа Больших Данных

38 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal

Хранение Организация Анализ

Визуализация

Платформа Oracle для Big Data

Поток

Hadoop

Oracle NoSQL

Database

Applications

Open source R

Oracle Data Integrator

In-D

ata

bas

e

An

aly

tics

Data

Warehouse

Oracle

Advanced

Analytics

Oracle

Database

Oracle Business

Intelligence Applications

Oracle Business

Intelligence Tools

Oracle Endeca

Information Discovery

Oracle Event Processing

Or Oracle Big Data

Connectors

Oracle Real-Time Decisions

Page 36: Технологии и продукты Oracle для обработки и анализа Больших Данных

39 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal