Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 1
Big Data как часть корпоративной стратегии. SAP вам поможет
Вадим Табаков
Big Data & Technology, SAP 16.10.2014 08.10.2014
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 2
Animus ex machina?
1. Анализировать все данные, а не довольствоваться
их частью или статистическими выборками
2. Иметь дело с неупорядоченными данными в
ущерб точности
3. Доверять корреляциям, а не гнаться за
труднодостижимой причинностью
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 3
Источники Big Data
1. Открытые данные – общедоступные наборы данных для получения
дополнительной информации
2. Интернет – интернет-ресурсы для доступа к созданному пользователями
контенту
3. Коммерческие данные – CRM, разработка программ повышения
лояльности и (или) формы регистрации для сбора дополнительных данных
о клиентах
4. Технологии M2M и интернет вещей – данные о клиентах или сотрудниках
в режиме реального времени с помощью M2M (например, с приложениями
M2M с функциями определения местоположения пользователя) и
интернета вещей (датчики, мобильные протоколы и др.)
5. Экосистема – покупка необходимых данных или налаживание
сотрудничества с другой организацией (зависит от принятой в компании
стратегии в отношении больших данных)
Big Data – группа технологий и методов производительной
обработки динамически растущих объемов данных
(структурированных и неструктурированных) в распределенных
информационных системах, обеспечивающих организацию
качественно новой полезной информацией.
Big Data с точки зрения ИТ-компании
Инструменты для работы с Big Data
In-Memory СУБД 1
2
4
СУБД с вертикальным хранением данных
No SQL СУБД
MAP REDUCE и HADOOP 3
5 Управление потоками событий
6 Data Mining и прогнозная аналитика
SAP HANA Data Platform для Big Data
Consume
Store &
Process
Ingest
SAP HANA
SAP HANA
OLTP BI (OLAP) ■ Данные хранятся и обрабатываются
непосредственно в оперативной памяти
■ «In-memory» позволяет избежать эффекта
задержек ввода/вывода
■ Строчное и колоночное хранение
данных позволяют оптимизировать
выборку по запросу
■ Сжатие данных за счет хранения и
обработки только значимого содержимого
■ Поставляется как единый программно-
аппаратный комплекс
© 2013 SAP AG. All rights reserved. 8
Задачи аналитики
Знания
Прогноз Будет ли новый клиент
прибыльным и почему?
Предсказательное
Моделирование
Автоматическое
исследование
данных
Характеристики клиентов,
склонных к невозврату
Описательное
моделирование
Информация
Исследование
данных «вручную»
Потери от невозвратов по
возрастным категориям
клиентов
OLAP
Агрегирование и
обобщение данных Потери от невозвратов
Запросы
и
отчеты
Базы Данных и
Витрины Данных Данные о клиенте Данные
Аналитика на уровне СУБД
Сокращение
времени принятия
решения
Интеллектуальное
моделирование на
уровне предприятия
Предиктивная
аналитика для
широкого круга
потребителей
Масштабируемая
интеграционная
платформа
SAP ADVANCED ANALYTICS
SAP
Predictive Analysis
SAP HANA
Predictive Analysis Library
(PAL)
Аналитическая
библиотека R
Predictive RDS
Преднастроенные сценарии для аналитических проектов
SAP Data Science
Индустриальная специфика, математические алгоритмы
прогнозной аналитики
InfiniteInsight
ANTICIPATES CONSUMER BEHAVIOR
SAP MAKES BIG DATA REAL
Hadoop – проект фонда Apache Software Foundation, свободно
распространяемый набор утилит, библиотек и программный каркас
для разработки и выполнения распределённых программ,
работающих на кластерах из сотен и тысяч узлов.
Hadoop
Hadoop партнеры SAP
© 2013 SAP AG. All rights reserved. 13
Интеграционная модель
SAP
HANA
Визуализация и
прогноз
Журналы Неструктурированные
данные
Загрузка данных
для
предобработки
Загрузка
результатов в
SAP HANA
SAP IQ
(Data Services)
Федерация
запросов
Smart Query Access (Data Virtualization)
SAP IQ
Интеграция на уровне ETL
Data Services предоставляет прямой
доступ к Hadoop: SAP Data Services
генерируют и выполняют
инструкции HiveQL для запроса,
выборки и загрузки данных в
таблицы Hive.
Анализ выполняется
непосредственно в HDFS как
задания модели MapReduce
ETL непосредственно в SAP IQ
Прямой доступ к Hadoop
Виртуальные таблицы (SAP HANA
smart data access)
Интеграция с HCatalog
Федерация запросов с SAP IQ
SAP BI доступ
Доступ SAP BOBJ напрямую к
Hadoop HIVE через JDBC
Ценность HADOOP заключается в том, чтобы создать
репрезентативную выборку из гигантских объемов первичных
данных и затем передать эту выборку для оперативной обработки в
SAP HANA (яркий пример – сборка генома)
Ценность Hadoop + SAP HANA
© 2013 SAP AG. All rights reserved. 15
Требования
Повышение эффективности процесса принятия решений при
диагностике и лечении раковых заболеваний
Снижение временных и денежных затрат на исследования и
разработку новых лекарственных препаратов
Технические сложности
Существующая архитектура R и Hadoop не полностью удовлетворяет
условиям работы с Big Data
Медленная скорость обработки данных замедляет процесс сборки
генома
Полученные преимущества
Снижение времени сравнения ДНК и повышение качества терапии
SAP HANA предоставляет повышение скорости корреляционного
анализа
Фармацевтические компании получают возможность своевременно
проводить необходимые исследования и синтезировать новые
препараты
Собрать геном
© 2013 SAP AG. All rights reserved. 16
Функциональная архитектура
SAP HANA
Результаты исследований биоматериала
Сбор и предварительная обработка,
консолидация информации
Анализ полученных фрагментов и восстановление
последовательностей ДНК хромосом
© 2013 SAP AG. All rights reserved. 17
Собрать геном
© 2013 SAP AG. All rights reserved. 18
Требования
Повышение эффективности процесса принятия решений при
диагностике и лечении раковых заболеваний
Снижение временных и денежных затрат на исследования и
разработку новых лекарственных препаратов
Технические сложности
Существующая архитектура R и Hadoop не полностью удовлетворяет
условиям работы с Big Data
Медленная скорость обработки данных замедляет процесс сборки
генома
Полученные преимущества
Снижение времени сравнения ДНК и повышение качества терапии
SAP HANA предоставляет повышение скорости корреляционного
анализа
Фармацевтические компании получают возможность своевременно
проводить необходимые исследования и синтезировать новые
препараты
Собрать геном
© 2013 SAP AG. All rights reserved. 19
Управление потоками событий
SAP Event Stream
Processor
Входные потоки
Рыночная аналитика
Записи о транзакциях
Телеметрические датчики
Средства анализа/отчетности
Прикладные системы
Средства разработки
Эталонные данные
SAP HANA,
SAP IQ
Инфопанели
Потоковый вывод
© 2013 SAP AG. All rights reserved. 20
Типовые задачи для SAP ESP
Управляемые сети электропередач
Своевременная доставка Управление поставками
Задача: Снижение риска
отключения электропитания,
оптимизация затрат на
электропитание
Решение: Мониторинг
производства и потребления
электроэнергии от подстанций и
расчет превышения
использования в регионе
Оповещение о превышении
использования энергии
Преимущества: Оптимальное
распределение энергии между
регионами в зависимости от
спроса
Задача: Доставка свежих продуктов
для клиентов в соответствии с
требованиями качества и уровня
сервиса
Решение: Мониторинг маршрута
доставки и прогнозируемого срока
поставки. Постоянный пересчет
скорости доставки для каждого
маршрута.
Оповещение о снижении скорости
доставки для возможности принятия
необходимых мер.
Преимущества: Снижение задержек
доставки за счет изменения маршрута и
резервных грузовиков
Повышение лояльности заказчиков
Задача: Повышение
конкурентного преимущества за
счет сокращения простоев
Решение: Мониторинг
прибывающих и отбывающих
составов, анализ таких
параметров как погода и
интенсивность трафика,
сопоставление данных о
реальном местоположении
составов с планируемым.
Реальное управление на
основании оповещений,
сигнализирующих о наступлении
условий, приводящих к задержкам
и простоям.
Преимущества: Повышение
качества обслуживания за счет
сокращения задержек с
дополнительным преимуществом
сокращения расходов
© 2013 SAP AG. All rights reserved. 21
Мониторинг состояния паровых котлов
© 2013 SAP AG. All rights reserved. 22
По ходу игрового процесса генерируется
более 5000 различных пользовательских
событий в секунду, составляющих объем
порядка 0,5 Тб данных. Эти события требуют
мгновенной обработки, и для поддержания
атмосферы реального времени
используются преимущества технологий SAP
HANA и SAP Event Stream Processor.
Игра в материальном мире
© 2013 SAP AG. All rights reserved. 23
World Cup in Brazil
SG Hoffenheim, футбольный клуб первого дивизиона
Германии, использует сбор и анализ данных в реальном
масштабе времени: изучаются пространственные перемещения
игроков, чтобы сделать тренировки эффективнее.
Футболисты экипируются датчиками, они же есть в мяче. Все
сведения поступают на вход аппаратно-программного комплекса
SAP HANA.
Похожая система готовится для немецкой национальной
сборной.
«Речь идет не о прогнозировании результатов, а о
повышении возможностей команды. Такая же картина рисуется в
бизнесе, и связана она с ростом эффективности на основе
анализа данных: если вы обращаетесь к интуиции, а не фактам,
легко прийти к неверным выводам».
Джим Хагеман Снейбе, соисполнительный директор SAP
Приложения SAP BIG DATA
Чем более
персонализированны
ми являются данные,
которые могут быть
собраны о клиентах в
режиме реального
времени, тем больше
их потенциальная
ценность
26
Customer
Value
Intelligence
(CEI)
:-) Audience
Discovery
(CEI)
Account
Intelligence
(CEI)
Fraud
Management
Demand
Signal
Management
Social Contact
Intelligence
(CEI)
Sentiment
Intelligence (RDS)
Manufacturing
(Operational
Intelligence)
Manufacturing
(Responsive
Manufacturing)
Стратегия – это плановый документ, определяющий направление
«главного удара» в развитии организации и формирующий ее
качественно новое будущее состояние (в горизонте планирования 3-
5 лет) относительно ее роли и места в расстановке отраслевых сил
и создания ее новой рыночной стоимости.
Стратегия
1. Поиск и оценка данных: необходимо знать, какие данные
имеются у организации, и какие она может получить, понимать
экосистему данных, с которой работает компания, и
потенциальные возможности сотрудничества с другими
организациями
2. Выявление перспективных источников прибыли:
необходимо понимать способы анализа данных, чтобы повысить
ценность для бизнеса и открыть новые бизнес-возможности
3. Распознавание и решение задач: необходимо заранее знать о
деловых, операционных, технологических и юридических
сложностях, которые могут возникнуть
Бизнес-задачи Big Data
1. Электронная торговая площадка
2. Анализ кредитоспособности
3. Управление рисками ликвидности
4. Brand Analytics
5. Расчет нормативов по достаточности капитала
6. Распознавание и идентификация по изображению
Финансовые организации
1. Управление сбытом
2. Поддержка систем горнотранспортного комплекса
3. Управление энергосбережением
4. Ремонты по состоянию (Predictive Maintanance)
5. Ситуационный центр
Металлургия и добывающая промышленность
1. Сбыт в рознице (АЗС)
2. Оценка экономической эффективности месторождения
3. Digital Oil Field – Монитор бурения
4. Оценка экономической эффективности инноваций
5. Ремонты по состоянию (Predictive Maintanance)
Нефтегазовая промышленность
1. Прогноз Социально-Экономического развития
2. Централизованное хранилище данных электронного
бюджета
3. Система видео-контроля мигрантов
4. Ситуационный центр выявления угроз Национальной
безопасности
5. Выявление мошенничества в налоговой сфере
Государственный сектор
1. Прогнозирование спроса и планирование
ассортимента
2. Поддержка мероприятий по продвижению товаров
3. Управление товарными запасами дистрибутора в
реальном времени
4. Оптимизация использования торговых площадей • Оптимизация использования торговых площадей
• Предсезонное планирование
Розничная торговля
1. Слияние биллинговых систем
2. Хранилище данных с телекоммуникационной моделью
3. Управление лояльностью абонентов
4. Превентивная диагностика
Телекоммуникации
1. Электроэнергетическая система с интеллектуальной
сетью
2. Мониторинг технического состоянии электронно-
сетевого оборудования
3. Оперативный мониторинг и прогнозирование
4. Поддержка системы управления режимами
энергосистемы
Энергетика
1. Контроль дислокации и выполнения графиков
2. Планирование расписания грузоперевозок
3. Железнодорожный транспорт • Учёт расхода дизтоплива
• Контроль/мониторинг состояния активов
• Мониторинг поведения пассажиров
4. Авиа транспорт • Определение срока прибытия воздушного судна
• Диагностика работы авиационных двигателей на лету
• Мониторинг состояния покрытия ВПП
Транспорт
Градиент развития
Градиент развития 2014
Let’s Do IT
Вадим Табаков
Big Data&Technology, SAP
к.э.н.
+7 495 755 9800
+7 967 132 5871