53

- Oracledownload.oracle.com/opndocs/emea/Pivovarov_Oracle_DWH.pdf · ... Hyperion Financial Mng Strategic Finance ... Self-Tuning

Embed Size (px)

Citation preview

<Insert Picture Here>

Обзор продуктов Oracle для построения хранилищ данных

Андрей ПивоваровМенеджер по технологическому консалтингуOracle CIS

Загрузка данных

Хранение данных

Средства анализа

Извлечение, согласование, преобразование, загрузка

Доступ: «клиент-сервер» или Internet

Отчеты Запросы OLAPData

Mining

Хранилище данных

Архитектура и основные компоненты

ВитриныВитрины

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

Oracle BI Suite EE PLUS

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI Suite SE ONE Oracle BI SE

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Hyperion Planing

Hyperion Financial Mng

Strategic Finance

Аналитическая платформа Oracle (2009)

Oracle

Data Integrator

HYPERION

ESSBASE

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

Marketing Sales Contact Center

Finance Supply Chain HRScorecard

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI 10g

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Аналитическая платформа Oracle (Февраль 2006)

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

Oracle: #1 на рынке RDBMS

Oracle

48,6%

IBM

22%

Microsoft

15%

Другие 14,4%

Источник: Gartner May 2006, Worldwide RDBMS Total Software Revenue

Источник: IDC, Aug 2008 – “Worldwide Data Warehouse Management Tools 2007 Vendor Shares”

Building on Oracle’s Leading Position

Number 1 in Data Warehousing!

Oracle – лидер в области хранилищ данных

IBM

21.7%

Microsoft

14.8%

Teradata

11.7%Прочие

12.5%

Oracle 39.3%

Oracle Database для

хранилищ данных и

аналитических систем

Oracle 7.3Oracle 7.3

� Partitioned Tables and Indexes� Partition Pruning� Parallel Index Scans� Parallel Insert, Update, Delete� Parallel Bitmap Star Query� Parallel ANALYZE� Parallel Constraint Enabling� Server Managed Backup/Recovery� Point-in-Time Recovery

� Partitioned Tables and Indexes� Partition Pruning� Parallel Index Scans� Parallel Insert, Update, Delete� Parallel Bitmap Star Query� Parallel ANALYZE� Parallel Constraint Enabling� Server Managed Backup/Recovery� Point-in-Time Recovery

Oracle 8.0Oracle 8.0

� Hash and Composite Partitioning� Resource Manager� Progress Monitor� Adaptive Parallel Query� Server-based Analytic Functions� Materialized Views� Transportable Tablespaces� Direct Loader API� Functional Indexes� Partition-wise Joins� Security Enhancements

� Hash and Composite Partitioning� Resource Manager� Progress Monitor� Adaptive Parallel Query� Server-based Analytic Functions� Materialized Views� Transportable Tablespaces� Direct Loader API� Functional Indexes� Partition-wise Joins� Security Enhancements

Oracle9iOracle9i

� List and Range-List Partitioning� Table Compression� Bitmap Join Index� Self-Tuning Runtime Memory � New Analytic Functions� Grouping Sets� External Tables� MERGE� Multi-Table Insert� Proactive Query Governing� System Managed Undo

� List and Range-List Partitioning� Table Compression� Bitmap Join Index� Self-Tuning Runtime Memory � New Analytic Functions� Grouping Sets� External Tables� MERGE� Multi-Table Insert� Proactive Query Governing� System Managed Undo

Oracle8iOracle8i

Oracle10gOracle10g

� SQL Access Advisor� Automatic Storage Manager� Self-tuning Memory� Change Data Capture� SQL Models� SQL Frequent Itemsets� SQL Partition Outer Joins� Statistical functions� Faster sort/aggregation� Multi-dimensional part. pruning� and much more ...

� SQL Access Advisor� Automatic Storage Manager� Self-tuning Memory� Change Data Capture� SQL Models� SQL Frequent Itemsets� SQL Partition Outer Joins� Statistical functions� Faster sort/aggregation� Multi-dimensional part. pruning� and much more ...

Oracle Database – платформа для DW&BI

Новые возможности для ХД в 11g

• VLDB• Composite Range-Range

• Composite List-Range

• Composite List-List

• Composite List-Hash

• REF Partitioning

• Virtual Column Partitioning

• Compression enhancements

• Performance• Query Result Cache

• Data loading• Change data capture enhancements

• Materialized view refresh enhancements

• Manageability • Partition Advisor

• Interval Partitioning

• SQL Plan Management

• Automatic SQL Tuning with Self-Learning Capabilities

• Enhanced Optimizer Statistics Maintenance

• Multi-Column Optimizer Statistics

• ASM Fast Resync, Fast VLDB Startup and other enhancements

• SQL

• SQL Pivot and Unpivot

• Continuous Query Notification

• OLAP

• Materialized view refresh and SQL rewrite

• Continued database integration

• Cube metadata in the Data Dictionary

• Fine-grained data security on cubes

• Simplified application development

• Fully declarative cube calculations

• Cost-Based Aggregation

• Simpler calculation definitions

• Data Mining

• Simplified development and deployment of models

• Supermodels: data preparation combined with mining model

• Additional packaged predictive analytics

• Integration in database dictionary

• New algorithms: “General Linear Models”

• Encapsulates several widely used analytic methods

• Multivariate linear regression; logistic regression

Возможности Oracle, используемые в больших ХД

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

DB Res Mgr

RMAN

ASM

Read Only

VPD

MV Use

Compression

Parallel Exec

Partitioning

Source: TB Club Report: A survey of 30 multi-TB Oracle DW’s – data July 2006

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI SE

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Аналитическая платформа Oracle

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

Oracle OLAP

Куб OLAP

Время

Продукты

Регионы

Прибыль

Агрегация

Распределение

Прогноз

Рост прибыли

Прибыль за год

Прибыль

Доля прибыли

Единица

Тип продукта

Всего по продуктам

Месяц Квартал Год

Доступ с помощью любых инструментов

Реляционая таблица Многомерный куб

Oracle Database 11g

Реляционные View

ДругиеBusiness

Objects

CognosOracle BI

EE

Ускорение для реляционных приложений и отчетных средств

SQL запрос над OLAP

C OLAP

Без

OLAP

Больше времени

Меньше времени

Предсказуемые

Простые вычисдения

Непредсказуемые

Сложные вычисления

Время отработки

Повышение производительностиВремя выполнения запроса

Материализованные представления

Объемы продаж

по Западному и

Восточному

регионам за

последние 3

месяца ?

x

(30 GB)

Продажи

(детальные

данные)

ПродажиПродажи

((детальныедетальные

данныеданные))

• Хранение суммарныхданных

• Использованиематериализованныхпредставлений приавтоматическойоптимизации запросов

• Средства модификациизапросов

• Различные методыобновления (полное, частичное иотложенное)

(2 GB)

Продажи порегионампо месяцам

Продажи порегионампо месяцам

11g Cube-Organized Materialized Views

Cube MV

Cube OrganizedCube Organized

MV MV показываетпоказывает

агрегированныеагрегированные

данныеданные

Tables

ДетальныеДетальные данныеданные вв

обычныхобычных таблицахтаблицах

SQLSQL запросзапрос

АгрегированныеАгрегированные

данныеданные вв кубекубе

СУБДСУБД обновляеиобновляеи

данныеданные

QueryQuery

RewriteRewrite

• Детальные данные вреляционных таблицах

• Приложение генерируетSQL запрос

• Агрегированные данные вOLAP кубе

• Доступ к агрегированнымданным в кубе –автоматический, черезquery rewrite

• Приложение не меняется, но запросы работаютбыстрее

Преимущества Oracle OLAP

• Упрощение написания запросов. Чем сложнее запрос, тем более очевидны преимущества OLAP

• Позволяет во многих случаях значительно уменьшитьвремя отработки запроса.

• В 11g интегрирован с Materialized Views, что позволяетпредлагать его для «обычных» хранилищ данных

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI SE

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Аналитическая платформа Oracle

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

HYPERION

ESSBASE

Hyperion Essbase

• Универсальный OLAP-сервер для сбора, обработки и представления информации вразличных аналитических разрезах

• Построение аналитических витрин

• Загрузка данных из хранилища данных и / или изтранзакционных систем

InformationAge

August 2005

... Essbase в списке10 наиболее важныхинновационных

технологий за

последние 10 лет

Hyperion Essbase для OLAP анализа

Наилучшие результаты по масштабируемости

аналитических вычислений

294

162

0

50

100

150

200

250

300

350

Продукт-

конкурент

Essbase

11.9

0

2

4

6

8

10

12

14 83

7

0

10

20

30

40

50

60

70

80

90

0.01

Продукт-

конкурент

Essbase Продукт-конкурент

Essbase

Одинаковыекомпьютеры

Длительность загрузкии вычислений в минутах

50 одновременныхпользователей

Время выполнениязапроса в сек

50 одновременныхпользователей% утилизации CPU

Извлечение знанийOracle Data Mining

Что такое Data Mining?

• Одна из технологий анализа данных

• Автоматический поиск скрытых общихзакономерностей в больших наборахданных

• Использование методов и алгоритмовстатистики, распознавания образов, машинного обучения, искусственногоинтеллекта

• Data Mining = Извлечение знаний

Запросы, OLAP и Data Mining

Выявление скрытыхзакономерностей

Кто купит продукт вследующие 6 месяцев и почему?

Извлечениефактов

Кто покупалнаш продукт запоследние 3 месяца?

Суммы,тренды,прогнозы

Как распре-делен среднийдоходпокупателей, по регионам, по годам?

Запросы OLAP Data Mining

“Предсказание”“Информация” “Анализ”

Типовые задачи

• Какие клиенты собираются отказаться от услуг иперейти в конкурирующую организацию?

• Какие характеристики имеет типичный прибыльныйклиент?

• Выявить убыточные договора

• Какими параметрами характеризуются пользователипластиковых карточек?

• Какие сочетания параметров говорят о возможныхнарушениях?

Oracle Data MiningСписок алгоритмов 11g

Classification

Association Rules

Clustering

Attribute Importance

Задача Алгоритм ПрименениеClassical statistical technique

Popular / Rules / transparency

Embedded app

Wide / narrow data / text

Minimum Description

Length (MDL)

Attribute reduction

Identify useful data

Reduce data noise

Hierarchical K-Means

Hierarchical O-Cluster

Product grouping

Text mining

Gene and protein analysis

AprioriMarket basket analysis

Link analysis

Multiple Regression (GLM)

Support Vector Machine

Classical statistical technique

Wide / narrow data / text

Regression

Feature Extraction NMFText analysis

Feature reduction

Logistic Regression (GLM)

Decision Trees

Naïve Bayes

Support Vector Machine

One Class SVM Lack examplesAnomaly Detection

Пример

Доход

Время

Нелояльные vs. Лояльные

Сегмент #1:

Если CUST_MO > 14 ИINCOME < $90K, тоКлиент нелояльный, Вероятность 100%

Сегмент #3:

Если CUST_MO > 7 ИINCOME < $175K, тоКлиент нелояльный, Вероятность = 83%

Применение модели

Информация о клиентах

Если возраст < 38 и область деятельности «HR» , то

клиент является прибыльным с достоверностью 0,85

ИНН

077348923

078344864

063678454

054778355

782999634

Дата

рождения

22/01/53

14/08/68

15/07/77

14/11/70

17/11/67

Адрес

Москва

С.-Петерб

Рязань

Тула

С.-Петерб

Дата

Регистр.

23/07/99

15/09/01

20/06/99

12/08/00

24/03/01

Карточка

да

да

нет

нет

да

. . . Прибыльный?

да

нет

нет

да

нет

1

2

3

1

0

Область

деятельн

IT

HR

Finance

HR

IT

нетПсков45679/326 17/05/71 14/10/99 ?HR 3

Построение

модели

Применение модели (scoring)

Модель

да

Oracle Data MiningOverview (Classification)

FunctionalRelationship:

Y = F(X1, X2, …, Xm)

Cases

Name Income Age . . . . . . .Buy Product?1 =Yes, 0 =No

Jones

Smith

LeeRogers

30,000

55,000

25,00050,000

30

6723

44

1

1

00

Model

Historic Data

Campos

Horn

Habers

Berger

40,500

37,000

57,200

95,600

52

73

32

34

New Data.85

.74

.93

.65

Prediction Confidence

1

0

0

1

?

?

?

?

Input Attributes Target

Примеры применения Data Mining

Финансы– Прогноз оттока клиентов– Выявление мошенничества– Потенциальные банкротства– Возможные продажи

Маркетинг– Предложение купить конкретный

продукт– Более нацеленные кампании

– Выявление возможностей длякросс-продаж

Телеком– Выявление оттока клиентов

– Выявление возможностей длякросс продаж

Страхование– Выявление аномалий– Уменьшение стоимости

расследований подозрительныхслучаев и фальшивых заявок

Розница– Программы лояльностей

– Кросс продажи

– Анализ корзины

– Мошенничества

Медицина– Выявление факторов влияющих

на здоровье пациентов– Генетический анализ– Новые лекарства

Oracle Data Mining

• Инфраструктура вместо готовойинструментальной среды

• Встроенные в Oracle Database алгоритмы извлечения знаний

• API для разработки

• Java API

• PL/SQL API

• Графический интерфейс дляаналитиков – Oracle Data Miner

Data Mining

Oracle Data Miner

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI SE

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Аналитическая платформа Oracle

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

Oracle Warehouse Builder –средство проектирования,

развертывания и управления корпоративнымхранилищем данных

Отображение данных

Oracle OLAP

Oracle Data Mining

Oracle Partitioning

Oracle

Warehouse Builder

ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ

ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА

Oracle BI SE

АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ

Аналитическая платформа Oracle

ORACLE DATABASE

УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ

ДЕЯТЕЛЬНОСТИ BI APPLICATIONS

Oracle

Data Integrator

<Insert Picture Here>

Oracle Data Integrator

Oracle Data Integrator

• В ноябре 2006 года Oracle покупает компанию-конкурента - Sunopsis

• Sunopsis предлагал на рынке продукт Sunopsis Data Conductor

• Штат компании Sunopsis - 57 человек

• Программистов - 5

Journalize

Read from CDC Source

Load

From Sources to Staging

Check

Constraints before Load

Integrate

Transform and Move to Targets

Service

Expose Data and Transformation

Services

Reverse

Engineer Metadata

� Используется опыт лучших наработок

� Легко администрировать

Reverse

Journalize

Load

Check

IntegrateServices

CDC

Sources

Staging Tables

Error Tables

Target Tables

WSWS

WS

SAP/R3

Siebel

Log Miner

DB2 Journals

SQL Server Triggers

Oracle DBLink

DB2 Exp/Imp

JMS QueuesCheck MS

Excel

Check Sybase

Oracle SQL*Loader

TPump/ Multiload

Type II SCD

Oracle Merge

Siebel EIM Schema

Oracle Web Services

DB2 Web Services

Готовые модули знаний

Преимущества

Модули знаний (Knowledge Modules)

Knowledge Module

Knowledge Module

Oracle Real Time

Decisions

Oracle RTD

Бизнес-процесс

Устраняется разрыв между анализом процессов

и их оптимизацией

• Встраивает аналитику в бизнес-процессы

• Оптимизация с учетом приоритетов бизнеса

• Использует обратную связь для самонастройки

• Помогает получать новые знания о процессах

Использование контекстных данных реального

времени для достижения бизнес-целей

• Связывает историческую информацию с данными

реального времени

• Объединяет правила и модели прогноза

• Самообучение и автоматизация прогнозирования

Платформа корпоративного уровня

• SOA архитектура (fully J2EE)

• Интеграция с различными транзакционными

приложениями и каналами взаимодействия

RTD расширяет возможности BI-платформы Oracle

Корпоративная

информационная модель

Real-time Business Rules &

Self-Learning Predictive Models

Inputs

Process data

& context

Process decision

point & feedback

RTD прогнозирует в реальном масштабе

времени, что в настоящий момент

никакого существенного риска потерять

этого клиента нет и следовательно не

нужно предпринимать каких действий

по удержанию клиента

RTD прогнозирует в реальном масштабе

времени, что в настоящий момент

никакого существенного риска потерять

этого клиента нет и следовательно не

нужно предпринимать каких действий

по удержанию клиента

… но что наиболее подходящим

предложением будет добавить к плану

возможности Интернет служб (high

speed internet capability).

… но что наиболее подходящим

предложением будет добавить к плану

возможности Интернет служб (high

speed internet capability).

Oracle TimesTen

Oracle TimesTen In-Memory Database

Applications Applications

СУБД, работающая

в оперативной

памяти,

обеспечивающая

очень большую

скорость отклика

Enabling a Real-Time World

In the Enterprise

Real-Time Billing

Call Processing

Value Added Services

In Networks In Telecom

Service Authorization

Revenue Assurance

Network & QOS Mgmt

On Wall Street

Order Matching

Risk Management

Real-Time Analytics

SOAs

Call Centers

Business Intelligence

Over 1,500 companies worldwide use Oracle TimesTen

Scalable on Commodity Platforms

32,663

53,361

70,111

98,568

169,437

250,550

0

50,000

100,000

150,000

200,000

250,000

300,000

100% updates 100% reads

1 CPU

2 CPUs

4 CPUs

transactions per second

32,663

53,361

70,111

98,568

169,437

250,550

0

50,000

100,000

150,000

200,000

250,000

300,000

100% updates 100% reads

1 CPU

2 CPUs

4 CPUs

transactions per second

TimesTen In-Memory Database 6.0, 4-CPU, 3 GHz x86 Xeon, 32-bit RHLinux

ОТВЕТЫ

ВОПРОСЫ