Upload
andrey-akulov
View
778
Download
4
Embed Size (px)
DESCRIPTION
"Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности" Forrester
Citation preview
0 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
1 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Технологии и продукты Oracle для обработки и анализа Больших Данных
Андрей Пивоваров Руководитель группы перспективных технологий
2 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 2
Gartner Hype Cycle 2013
3 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 3
Откуда берутся Большие данные? (1/2) Они были всегда, но не всегда обрабатываются
Например, традиционные данные из RDBMS за прошлые
годы
В самой сущности таких данных может не быть ничего
нового, их просто очень много.
Возникают вопросы о целесообразности хранения и
обработки таких объемов в традиционных архитектурах
Это может быть просто дорого
4 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 4
Откуда берутся Большие данные? (2/2) Новые данные
Логи, данные телеметрии, датчиков, полуструктурированные
данные и неструктурированные данные, записи в социальных
сетях, вебсайты и т.д.
Данные, которые могут очень быстро накапливаться, при этом,
обычно (но не всегда) информационная плотность их низкая.
Данные, которые очень дорого хранить используя традиционный
подход
5 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 5
Зачем обрабатывать Большие Данные?
Очень многие примеры о Big
Data связаны с точечным
маркетингом и
персонализацией
Персонализированные
предложения требуют очень
большого количества данных
о поведении клиентов.
Необходимость собирать
данные из многих источников
6 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Хранение Организация Анализ
Визуализация
Платформа Oracle для обработки Больших Данных
Поток
7 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Хранение Организация Анализ
Визуализация
Платформа Oracle для обработки Больших Данных
Поток
Hadoop
Oracle NoSQL
Database
Applications
Open source R
Oracle Data Integrator
In-D
ata
bas
e
An
aly
tics
Data
Warehouse
Oracle
Advanced
Analytics
Oracle
Database
Oracle Business
Intelligence Applications
Oracle Business
Intelligence Tools
Oracle Endeca
Information Discovery
Oracle Event Processing
Or Oracle Big Data
Connectors
Oracle Real-Time Decisions
8 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Exadata Database Machine
9 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 9
Что такое Oracle Exadata?
Машина для СУБД Oracle
– OLTP
– Хранилищ данных
– Смешанных нагрузок
– Консолидации приложений на базе Oracle Database
Построено на основе:
– Oracle Database
Все приложения, работающие c Oracle Database, могут
работать на Exadata
– Oracle Hardware
10 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 10
Exadata на аппаратном уровне
Быстрая дисковая подсистема
Использование 40Gb/s Infiniband
Использование FLASH карт (до 22.4 TB)
Много RAM (до 4TB)
Много процессорных ядер (до 160+168)
In-Memory Database Machine
11 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Архитектура Exadata
•Каждая ячейка Exadata – самостоятельный
сервер с установленными дисками и ПО
Exadata
•Данные «размазаны» между многими
ячейками Exadata
•Нет ограничения на количество ячеек в
системе
•Ячейки выполняют множество операций,
которые в традиционной архитектуре делает
Oracle
•Ячейки работают в режиме MPP
Exadata Cell
InfiniBand Switch/Network
Single Instance RAC
Exadata Cell Exadata Cell
12 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Инновации в Exadata
• Интеллектуальная СХД
– Smart Scan
– InfiniBand
+ + +
• Hybrid Columnar Compression – 10-кратное сжатие для хранилищ
– 15-кратное сжатие для архивного
хранения
• Интеллектуальный PCI Flash Cache
– Ускоряет произвольный I/O до 30 раз
– Время сканирования уменьшается в
3 раза
сжатые
primary DB
standby test
dev backup
несжатые
13 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Масштабируемость
Тысячи процессорных ядер
Петабайты данных
BIG DATA???
14 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 14
Google trends. Big Data.
15 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 15
Почему о Больших Данных так много говорят?
Технологии, раньше используемые только в веб-проектах стали
достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться
Появились новые возможности для получения конкурентных преимуществ:
– Глубокий анализ поведения клиентов
– Высокоточная реклама
– Объединение и анализ данных из многих источников, в том числе
неструктурированных
– Анализ мошенничеств
– и т.д.
Big Data технологии позволяют существенно удешевить хранение и
обработку данных
16 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 16
Недопонимания о Big Data Под Big Data разные вендоры могут понимать разное
Big Data – это множество разных технологий
– Hadoop
– NoSQL
– Event Processing
– …
Некоторые задачи из области Big Data могут решаться
и с использованием обычных СУБД, но это часто будет
дороже
17 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 17
Что такое Hadoop?
Apache Hadoop - распределенная вычислительная архитектура:
– Open source (проект Apache Software Foundation)
– Включает в себя распределенную файловую систему HDFS
– Служит для пакетной обработки и ETL
– Обрабатывает данные в массивно-параллельном режиме (MapReduce)
– Работает на очень больших кластерах (сотни и даже тысячи узлов) на дешевом «железе»
– Автоматически обрабатывает отказ узлов, и перераспределение данных
18 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 18
Apache Hive
Apache Hive
– Инфраструктура, эмулирующая реляционную СУБД над
Hadoop
– Разработана в Facebook
– Есть SQL-подобный язык HiveQL
– Позволяет строить свербольшие хранилища данных в Hadoop
19 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 19
Hadoop или реляционная база данных?
Реляционная база
данных Hadoop
20 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
ХРАНИЛИЩЕ ДАННЫХ
Классическая BI&DW система
Пользователи
SAP Файлы, MS Excel Oracle Database Oracle ERP, CRM Sybase, DB2, MS SQL Server
21 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
ХРАНИЛИЩЕ ДАННЫХ
BI&DW система c Hadoop
Пользователи
SAP Файлы, MS Excel Oracle Database Oracle ERP, CRM Sybase, DB2, MS SQL Server
Hadoop
22 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 22
Oracle NoSQL Database Распределенная, масштабируемая key-value база данных
• Простая модель данных • Пара Key-value с подходом major+sub-key
• Операции read/insert/update/delete
• Поддержка ACID и BASE транзакций
• Масштабируемость
• Динамическое партиционирование и перераспределение
• Оптимизированный доступ к данным
• Высокая доступность
• Одна или более реплик
• Катастрофоустойчивость засчет разнесения реплик
• Устойчивость к отказу мастера
• Нет одной точки отказа
• Прозрачная балансировка нагрузки
• Чтение с мастера или реплики
• Драйвер знает о сетевой топологии и временах задержки
Storage Nodes Data Center A
Storage Nodes Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
23 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
BIG DATA Appliance
24 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
• Кластер из 18 узлов
– 64 GB RAM на узле = 1152 GB RAM
– 16 ядер Intel на узле = 288 ядер
– 48 TB дисков на узел = 864 TB
• 40 Gb p/sec InfiniBand
• 10 Gb p/sec Ethernet
• Может продаваться в конфигурации 1/3 и 2/3
стойки
Oracle Big Data Appliance Машина для Hadoop и NoSQL DB
25 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
• Oracle Linux
• Java Hotspot VM
• Cloudera Hadoop Distribution
Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools
• R Distribution
• Oracle NoSQL Database
• Oracle Adapters for Hadoop:
– Oracle R Connector for Hadoop
– Oracle SQL to HDFS Connector
– Oracle Data Integrator Application Adapter for Hadoop
– Oracle Loader for Hadoop
Oracle Big Data Appliance Software
26 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Пример: Крупный российский банк
Дано:
1) Файлы, генерируемые “черным ящиком”
Файлы без единого
переноса строки,
размером несколько
сотен Мб. Суммарный
объем десятки Тб
2) Мета-описание этих
файлов (Excel)
Прим: формат файлов
меняется раз в несколько
недель
27 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Задача
Необходимо:
1) Хранить всю первичную информацию в течении нескольких
лет
2) Загружать часть полей
в РСУБД Oracle (~ 50 из
1000)
3) Список полей,
необходимых для загрузки
в РСУБД постоянно
меняется
28 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Решение
+ OLH
Big Data Appliance ExaData
29 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Event Processing
30 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Oracle Event Processing
• Технология обработки и анализа
потока данных • Непрерывный поток, часто большого объема
• Отсутствует конец потока
• Упорядочен по времени
• Нужно на лету уметь обнаруживать
«шаблоны»
• Невозможно или не эффективно
обрабатывать/анализировать в реальном
времени с применением баз данных
31 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Oracle OEP: Выявление шаблонов Торговля на бирже – шаблон “W”
SELECT FIRST(x.time), LAST(z.time)
FROM ticker MATCH_RECOGNIZE (ONE ROW PER MATCH PARTITION BY name
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price))
Y AS (price > PREV(price))
W AS (price < PREV(price))
Z AS (price > PREV(price)))
1 9 12 19
days
X Y
W Z
33 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Кто из абонентов послал 5 смс из определенного торгового центра
за 10 последних минут?
Oracle Event Processing in Turkcell
37 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Хранение Организация Анализ
Визуализация
Платформа Oracle для Big Data
Поток
38 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
Хранение Организация Анализ
Визуализация
Платформа Oracle для Big Data
Поток
Hadoop
Oracle NoSQL
Database
Applications
Open source R
Oracle Data Integrator
In-D
ata
bas
e
An
aly
tics
Data
Warehouse
Oracle
Advanced
Analytics
Oracle
Database
Oracle Business
Intelligence Applications
Oracle Business
Intelligence Tools
Oracle Endeca
Information Discovery
Oracle Event Processing
Or Oracle Big Data
Connectors
Oracle Real-Time Decisions
39 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal