Upload
hoanghanh
View
216
Download
2
Embed Size (px)
<Insert Picture Here>
Обзор продуктов Oracle для построения хранилищ данных
Андрей ПивоваровМенеджер по технологическому консалтингуOracle CIS
Загрузка данных
Хранение данных
Средства анализа
Извлечение, согласование, преобразование, загрузка
Доступ: «клиент-сервер» или Internet
Отчеты Запросы OLAPData
Mining
Хранилище данных
Архитектура и основные компоненты
ВитриныВитрины
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
Oracle BI Suite EE PLUS
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI Suite SE ONE Oracle BI SE
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Hyperion Planing
Hyperion Financial Mng
Strategic Finance
Аналитическая платформа Oracle (2009)
Oracle
Data Integrator
HYPERION
ESSBASE
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
Marketing Sales Contact Center
Finance Supply Chain HRScorecard
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI 10g
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Аналитическая платформа Oracle (Февраль 2006)
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
Oracle: #1 на рынке RDBMS
Oracle
48,6%
IBM
22%
Microsoft
15%
Другие 14,4%
Источник: Gartner May 2006, Worldwide RDBMS Total Software Revenue
Источник: IDC, Aug 2008 – “Worldwide Data Warehouse Management Tools 2007 Vendor Shares”
Building on Oracle’s Leading Position
Number 1 in Data Warehousing!
Oracle – лидер в области хранилищ данных
IBM
21.7%
Microsoft
14.8%
Teradata
11.7%Прочие
12.5%
Oracle 39.3%
Oracle Database для
хранилищ данных и
аналитических систем
Oracle 7.3Oracle 7.3
� Partitioned Tables and Indexes� Partition Pruning� Parallel Index Scans� Parallel Insert, Update, Delete� Parallel Bitmap Star Query� Parallel ANALYZE� Parallel Constraint Enabling� Server Managed Backup/Recovery� Point-in-Time Recovery
� Partitioned Tables and Indexes� Partition Pruning� Parallel Index Scans� Parallel Insert, Update, Delete� Parallel Bitmap Star Query� Parallel ANALYZE� Parallel Constraint Enabling� Server Managed Backup/Recovery� Point-in-Time Recovery
Oracle 8.0Oracle 8.0
� Hash and Composite Partitioning� Resource Manager� Progress Monitor� Adaptive Parallel Query� Server-based Analytic Functions� Materialized Views� Transportable Tablespaces� Direct Loader API� Functional Indexes� Partition-wise Joins� Security Enhancements
� Hash and Composite Partitioning� Resource Manager� Progress Monitor� Adaptive Parallel Query� Server-based Analytic Functions� Materialized Views� Transportable Tablespaces� Direct Loader API� Functional Indexes� Partition-wise Joins� Security Enhancements
Oracle9iOracle9i
� List and Range-List Partitioning� Table Compression� Bitmap Join Index� Self-Tuning Runtime Memory � New Analytic Functions� Grouping Sets� External Tables� MERGE� Multi-Table Insert� Proactive Query Governing� System Managed Undo
� List and Range-List Partitioning� Table Compression� Bitmap Join Index� Self-Tuning Runtime Memory � New Analytic Functions� Grouping Sets� External Tables� MERGE� Multi-Table Insert� Proactive Query Governing� System Managed Undo
Oracle8iOracle8i
Oracle10gOracle10g
� SQL Access Advisor� Automatic Storage Manager� Self-tuning Memory� Change Data Capture� SQL Models� SQL Frequent Itemsets� SQL Partition Outer Joins� Statistical functions� Faster sort/aggregation� Multi-dimensional part. pruning� and much more ...
� SQL Access Advisor� Automatic Storage Manager� Self-tuning Memory� Change Data Capture� SQL Models� SQL Frequent Itemsets� SQL Partition Outer Joins� Statistical functions� Faster sort/aggregation� Multi-dimensional part. pruning� and much more ...
Oracle Database – платформа для DW&BI
Новые возможности для ХД в 11g
• VLDB• Composite Range-Range
• Composite List-Range
• Composite List-List
• Composite List-Hash
• REF Partitioning
• Virtual Column Partitioning
• Compression enhancements
• Performance• Query Result Cache
• Data loading• Change data capture enhancements
• Materialized view refresh enhancements
• Manageability • Partition Advisor
• Interval Partitioning
• SQL Plan Management
• Automatic SQL Tuning with Self-Learning Capabilities
• Enhanced Optimizer Statistics Maintenance
• Multi-Column Optimizer Statistics
• ASM Fast Resync, Fast VLDB Startup and other enhancements
• SQL
• SQL Pivot and Unpivot
• Continuous Query Notification
• OLAP
• Materialized view refresh and SQL rewrite
• Continued database integration
• Cube metadata in the Data Dictionary
• Fine-grained data security on cubes
• Simplified application development
• Fully declarative cube calculations
• Cost-Based Aggregation
• Simpler calculation definitions
• Data Mining
• Simplified development and deployment of models
• Supermodels: data preparation combined with mining model
• Additional packaged predictive analytics
• Integration in database dictionary
• New algorithms: “General Linear Models”
• Encapsulates several widely used analytic methods
• Multivariate linear regression; logistic regression
Возможности Oracle, используемые в больших ХД
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
DB Res Mgr
RMAN
ASM
Read Only
VPD
MV Use
Compression
Parallel Exec
Partitioning
Source: TB Club Report: A survey of 30 multi-TB Oracle DW’s – data July 2006
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI SE
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Аналитическая платформа Oracle
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
Oracle OLAP
Куб OLAP
Время
Продукты
Регионы
Прибыль
Агрегация
Распределение
Прогноз
Рост прибыли
Прибыль за год
Прибыль
Доля прибыли
Единица
Тип продукта
Всего по продуктам
Месяц Квартал Год
Доступ с помощью любых инструментов
Реляционая таблица Многомерный куб
Oracle Database 11g
Реляционные View
ДругиеBusiness
Objects
CognosOracle BI
EE
Ускорение для реляционных приложений и отчетных средств
SQL запрос над OLAP
C OLAP
Без
OLAP
Больше времени
Меньше времени
Предсказуемые
Простые вычисдения
Непредсказуемые
Сложные вычисления
Время отработки
Повышение производительностиВремя выполнения запроса
Материализованные представления
Объемы продаж
по Западному и
Восточному
регионам за
последние 3
месяца ?
x
(30 GB)
Продажи
(детальные
данные)
ПродажиПродажи
((детальныедетальные
данныеданные))
• Хранение суммарныхданных
• Использованиематериализованныхпредставлений приавтоматическойоптимизации запросов
• Средства модификациизапросов
• Различные методыобновления (полное, частичное иотложенное)
(2 GB)
Продажи порегионампо месяцам
Продажи порегионампо месяцам
11g Cube-Organized Materialized Views
Cube MV
Cube OrganizedCube Organized
MV MV показываетпоказывает
агрегированныеагрегированные
данныеданные
Tables
ДетальныеДетальные данныеданные вв
обычныхобычных таблицахтаблицах
SQLSQL запросзапрос
АгрегированныеАгрегированные
данныеданные вв кубекубе
СУБДСУБД обновляеиобновляеи
данныеданные
QueryQuery
RewriteRewrite
• Детальные данные вреляционных таблицах
• Приложение генерируетSQL запрос
• Агрегированные данные вOLAP кубе
• Доступ к агрегированнымданным в кубе –автоматический, черезquery rewrite
• Приложение не меняется, но запросы работаютбыстрее
Преимущества Oracle OLAP
• Упрощение написания запросов. Чем сложнее запрос, тем более очевидны преимущества OLAP
• Позволяет во многих случаях значительно уменьшитьвремя отработки запроса.
• В 11g интегрирован с Materialized Views, что позволяетпредлагать его для «обычных» хранилищ данных
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI SE
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Аналитическая платформа Oracle
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
HYPERION
ESSBASE
Hyperion Essbase
• Универсальный OLAP-сервер для сбора, обработки и представления информации вразличных аналитических разрезах
• Построение аналитических витрин
• Загрузка данных из хранилища данных и / или изтранзакционных систем
InformationAge
August 2005
... Essbase в списке10 наиболее важныхинновационных
технологий за
последние 10 лет
Hyperion Essbase для OLAP анализа
Наилучшие результаты по масштабируемости
аналитических вычислений
294
162
0
50
100
150
200
250
300
350
Продукт-
конкурент
Essbase
11.9
0
2
4
6
8
10
12
14 83
7
0
10
20
30
40
50
60
70
80
90
0.01
Продукт-
конкурент
Essbase Продукт-конкурент
Essbase
Одинаковыекомпьютеры
Длительность загрузкии вычислений в минутах
50 одновременныхпользователей
Время выполнениязапроса в сек
50 одновременныхпользователей% утилизации CPU
Извлечение знанийOracle Data Mining
Что такое Data Mining?
• Одна из технологий анализа данных
• Автоматический поиск скрытых общихзакономерностей в больших наборахданных
• Использование методов и алгоритмовстатистики, распознавания образов, машинного обучения, искусственногоинтеллекта
• Data Mining = Извлечение знаний
Запросы, OLAP и Data Mining
Выявление скрытыхзакономерностей
Кто купит продукт вследующие 6 месяцев и почему?
Извлечениефактов
Кто покупалнаш продукт запоследние 3 месяца?
Суммы,тренды,прогнозы
Как распре-делен среднийдоходпокупателей, по регионам, по годам?
Запросы OLAP Data Mining
“Предсказание”“Информация” “Анализ”
Типовые задачи
• Какие клиенты собираются отказаться от услуг иперейти в конкурирующую организацию?
• Какие характеристики имеет типичный прибыльныйклиент?
• Выявить убыточные договора
• Какими параметрами характеризуются пользователипластиковых карточек?
• Какие сочетания параметров говорят о возможныхнарушениях?
Oracle Data MiningСписок алгоритмов 11g
Classification
Association Rules
Clustering
Attribute Importance
Задача Алгоритм ПрименениеClassical statistical technique
Popular / Rules / transparency
Embedded app
Wide / narrow data / text
Minimum Description
Length (MDL)
Attribute reduction
Identify useful data
Reduce data noise
Hierarchical K-Means
Hierarchical O-Cluster
Product grouping
Text mining
Gene and protein analysis
AprioriMarket basket analysis
Link analysis
Multiple Regression (GLM)
Support Vector Machine
Classical statistical technique
Wide / narrow data / text
Regression
Feature Extraction NMFText analysis
Feature reduction
Logistic Regression (GLM)
Decision Trees
Naïve Bayes
Support Vector Machine
One Class SVM Lack examplesAnomaly Detection
Пример
Доход
Время
Нелояльные vs. Лояльные
Сегмент #1:
Если CUST_MO > 14 ИINCOME < $90K, тоКлиент нелояльный, Вероятность 100%
Сегмент #3:
Если CUST_MO > 7 ИINCOME < $175K, тоКлиент нелояльный, Вероятность = 83%
Применение модели
Информация о клиентах
Если возраст < 38 и область деятельности «HR» , то
клиент является прибыльным с достоверностью 0,85
ИНН
077348923
078344864
063678454
054778355
782999634
Дата
рождения
22/01/53
14/08/68
15/07/77
14/11/70
17/11/67
Адрес
Москва
С.-Петерб
Рязань
Тула
С.-Петерб
Дата
Регистр.
23/07/99
15/09/01
20/06/99
12/08/00
24/03/01
Карточка
да
да
нет
нет
да
. . . Прибыльный?
да
нет
нет
да
нет
1
2
3
1
0
Область
деятельн
IT
HR
Finance
HR
IT
нетПсков45679/326 17/05/71 14/10/99 ?HR 3
Построение
модели
Применение модели (scoring)
Модель
да
Oracle Data MiningOverview (Classification)
FunctionalRelationship:
Y = F(X1, X2, …, Xm)
Cases
Name Income Age . . . . . . .Buy Product?1 =Yes, 0 =No
Jones
Smith
LeeRogers
30,000
55,000
25,00050,000
30
6723
44
1
1
00
Model
Historic Data
Campos
Horn
Habers
Berger
40,500
37,000
57,200
95,600
52
73
32
34
New Data.85
.74
.93
.65
Prediction Confidence
1
0
0
1
?
?
?
?
Input Attributes Target
Примеры применения Data Mining
Финансы– Прогноз оттока клиентов– Выявление мошенничества– Потенциальные банкротства– Возможные продажи
Маркетинг– Предложение купить конкретный
продукт– Более нацеленные кампании
– Выявление возможностей длякросс-продаж
Телеком– Выявление оттока клиентов
– Выявление возможностей длякросс продаж
Страхование– Выявление аномалий– Уменьшение стоимости
расследований подозрительныхслучаев и фальшивых заявок
Розница– Программы лояльностей
– Кросс продажи
– Анализ корзины
– Мошенничества
Медицина– Выявление факторов влияющих
на здоровье пациентов– Генетический анализ– Новые лекарства
Oracle Data Mining
• Инфраструктура вместо готовойинструментальной среды
• Встроенные в Oracle Database алгоритмы извлечения знаний
• API для разработки
• Java API
• PL/SQL API
• Графический интерфейс дляаналитиков – Oracle Data Miner
Data Mining
Oracle Data Miner
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI SE
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Аналитическая платформа Oracle
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
Oracle Warehouse Builder –средство проектирования,
развертывания и управления корпоративнымхранилищем данных
Отображение данных
Oracle OLAP
Oracle Data Mining
Oracle Partitioning
Oracle
Warehouse Builder
ХРАНИЛИЩА И ВИТРИНЫ ДАННЫХ
ИНСТРУМЕНТЫ БИЗНЕС-АНАЛИЗА
Oracle BI SE
АНАЛИТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Аналитическая платформа Oracle
ORACLE DATABASE
УПРАВЛЕНИЕ ЭФФЕКТИВНОСТЬЮ
ДЕЯТЕЛЬНОСТИ BI APPLICATIONS
Oracle
Data Integrator
<Insert Picture Here>
Oracle Data Integrator
Oracle Data Integrator
• В ноябре 2006 года Oracle покупает компанию-конкурента - Sunopsis
• Sunopsis предлагал на рынке продукт Sunopsis Data Conductor
• Штат компании Sunopsis - 57 человек
• Программистов - 5
Journalize
Read from CDC Source
Load
From Sources to Staging
Check
Constraints before Load
Integrate
Transform and Move to Targets
Service
Expose Data and Transformation
Services
Reverse
Engineer Metadata
� Используется опыт лучших наработок
� Легко администрировать
Reverse
Journalize
Load
Check
IntegrateServices
CDC
Sources
Staging Tables
Error Tables
Target Tables
WSWS
WS
SAP/R3
Siebel
Log Miner
DB2 Journals
SQL Server Triggers
Oracle DBLink
DB2 Exp/Imp
JMS QueuesCheck MS
Excel
Check Sybase
Oracle SQL*Loader
TPump/ Multiload
Type II SCD
Oracle Merge
Siebel EIM Schema
Oracle Web Services
DB2 Web Services
Готовые модули знаний
Преимущества
Модули знаний (Knowledge Modules)
Knowledge Module
Knowledge Module
Oracle Real Time
Decisions
Oracle RTD
Бизнес-процесс
Устраняется разрыв между анализом процессов
и их оптимизацией
• Встраивает аналитику в бизнес-процессы
• Оптимизация с учетом приоритетов бизнеса
• Использует обратную связь для самонастройки
• Помогает получать новые знания о процессах
Использование контекстных данных реального
времени для достижения бизнес-целей
• Связывает историческую информацию с данными
реального времени
• Объединяет правила и модели прогноза
• Самообучение и автоматизация прогнозирования
Платформа корпоративного уровня
• SOA архитектура (fully J2EE)
• Интеграция с различными транзакционными
приложениями и каналами взаимодействия
RTD расширяет возможности BI-платформы Oracle
Корпоративная
информационная модель
Real-time Business Rules &
Self-Learning Predictive Models
Inputs
Process data
& context
Process decision
point & feedback
RTD прогнозирует в реальном масштабе
времени, что в настоящий момент
никакого существенного риска потерять
этого клиента нет и следовательно не
нужно предпринимать каких действий
по удержанию клиента
RTD прогнозирует в реальном масштабе
времени, что в настоящий момент
никакого существенного риска потерять
этого клиента нет и следовательно не
нужно предпринимать каких действий
по удержанию клиента
… но что наиболее подходящим
предложением будет добавить к плану
возможности Интернет служб (high
speed internet capability).
… но что наиболее подходящим
предложением будет добавить к плану
возможности Интернет служб (high
speed internet capability).
Oracle TimesTen
Oracle TimesTen In-Memory Database
Applications Applications
СУБД, работающая
в оперативной
памяти,
обеспечивающая
очень большую
скорость отклика
Enabling a Real-Time World
In the Enterprise
Real-Time Billing
Call Processing
Value Added Services
In Networks In Telecom
Service Authorization
Revenue Assurance
Network & QOS Mgmt
On Wall Street
Order Matching
Risk Management
Real-Time Analytics
SOAs
Call Centers
Business Intelligence
Over 1,500 companies worldwide use Oracle TimesTen
Scalable on Commodity Platforms
32,663
53,361
70,111
98,568
169,437
250,550
0
50,000
100,000
150,000
200,000
250,000
300,000
100% updates 100% reads
1 CPU
2 CPUs
4 CPUs
transactions per second
32,663
53,361
70,111
98,568
169,437
250,550
0
50,000
100,000
150,000
200,000
250,000
300,000
100% updates 100% reads
1 CPU
2 CPUs
4 CPUs
transactions per second
TimesTen In-Memory Database 6.0, 4-CPU, 3 GHz x86 Xeon, 32-bit RHLinux
ОТВЕТЫ
ВОПРОСЫ