Система анализа работы приложений и протоколов Riverbed Cascade
Румянцев Александр инженер департамента телекоммуникаций
компании КРОК
Москва, 2013
2
КАКИЕ ПРИЛОЖЕНИЯ ГРУЗЯТ КАНАЛ? ЧТО ПРОИСХОДИТ В ЦОД?
ЦОД Web Tier
App Tier
DB Tier DNS AD NTP
?
Офис 1
Офис 2
Офис N
?
3
КАК ФУНКЦИОНИРУЕТ CASCADE
Cascade Profiler
Состав архитектуры решения Cascade
1. Cascade Gateway – коллектор всех видов flow, SNMP, DHCP
2. Cascade Sensor/Shark – коллектор всех пакетов (TCPdump)
3. Cascade Profiler – анализатор полученных данных от Gateway и Sensor
4. Cascade Pilot – упрощенный пакетный анализ
Cascade Gateway
Packeteer FDR
IPFIX NetFlow
sFlow
J-Flow
Cascade Flow
Cascade Flow SPAN
(Packets) Shark Sensor
Cascade Pilot
Дедупликация и консолидация статистики
4
ВНЕДРЕНИЕ CASCADE
Profiler • Централизованная
отчетность • Поведенческая
аналитика • Сайзинг
на основании flow per minute
Gateway • Собирает flow • Поддерживает
все типы flow • Устанавливается
вместе с Profiler или в офисе
Sensor • End user experience • Метрики
производительности • Классификация
приложений на уровне 7 OSI
Shark • Захват и индексация
пакетных данных • Временной анализ
Pilot • Пакетный
и транзакционный анализ • Расширение функционала
Wireshark
Cascade Shark
Cascade Profiler & Gateway
Сервера Приложений
Steelhead
Cascade Pilot ДАТА-ЦЕНТР
INTERNET WAN
Steelhead
Virtual Cascade
Shark
УДАЛЕННЫЙ ОФИС
УДАЛЕННЫЙ ОФИС
Virtual Cascade Shark
5
ЧТО УМЕЕТ RIVERBED CASCADE
6
Перегружен WAN-канал
ПОИСК ИСТОЧНИКА ПРОБЛЕМ
7
Перегружен WAN-канал
Каким приложением?
ПОИСК ИСТОЧНИКА ПРОБЛЕМ
8
Перегружен WAN-канал
Каким приложением?
Каким сервером?
ПОИСК ИСТОЧНИКА ПРОБЛЕМ
9
Перегружен WAN-канал
Каким приложением?
Кто виноват? Какой пользователь?
Каким сервером?
ПОИСК ИСТОЧНИКА ПРОБЛЕМ
10
Перегружен WAN-канал
Каким приложением?
Кто виноват? Какой пользователь?
Каким сервером?
Это - John Smith
ПОИСК ИСТОЧНИКА ПРОБЛЕМ
11
Service Dashboard – тревога в сегменте WebFront сервиса ERP
ЗАДУМЧИВЫЙ СЕРВЕР
12
Service Dashboard – тревога в сегменте WebFront сервиса ERP
Проблема для всех филиалов
ЗАДУМЧИВЫЙ СЕРВЕР
13
Service Dashboard – тревога в сегменте WebFront сервиса ERP
Проблема для всех филиалов
Service Incident Report – журнал регистрации событий
Посмотрим детали события …
ЗАДУМЧИВЫЙ СЕРВЕР
14
A Service Policy event, triggered by policy ERP > WebFront > ByLocation:Hartford > User Experience > Response Time, began May 18, 2012 9:30 AM and ended Jul 5, 2012 3:00 AM. The last development in the behavior of this event occurred Jul 5, 2012, 2:45 AM - 3:00 AM and consisted of a spike in response time, increasing by 662.08% from 157 milliseconds to 1,194 milliseconds.
3. Аномалия! Параметр далеко за пределами обычно наблюдаемых и допустимых по SLA значений
2. Время отклика WebFront возросло в ~8 раз. Аномалия?
1. Even Details Report: Problem Summary
ЗАДУМЧИВЫЙ СЕРВЕР
15
2. Страдают все пользователи, в большей или меньшей степени
1. Even Details Report: Impact Details – кому и насколько плохо
3. Проблема не в сети, и лишь с одним сервером кластера
4. В чём же дело *&%#%@! ?
ЗАДУМЧИВЫЙ СЕРВЕР
16
2. Страдают все пользователи, в большей или меньшей степени
1. Even Details Report: Impact Details – кому и насколько плохо
3. Проблема не в сети, и лишь с одним сервером кластера
4. В чем же дело *&%#%@! ?
5. Рассмотрим подробнее …
ЗАДУМЧИВЫЙ СЕРВЕР
17
Server Information Report – подробные сведения о сервере
Посмотрим на обмен пакетами. Наш помощник – Cascade Pilot !
ЗАДУМЧИВЫЙ СЕРВЕР
18
Service Response Time by Web Object
У сервера проблема с «/complex.psp»!
ЗАДУМЧИВЫЙ СЕРВЕР
19
Service Response Time by Web Object
У сервера проблема с «/complex.psp»!
Посмотрим на временную диаграмму …
ЗАДУМЧИВЫЙ СЕРВЕР
20
Transaction Analysis by Web Object & Application Sequence Diagram
Проблема сервера – доказана !
ЗАДУМЧИВЫЙ СЕРВЕР
21
А кто все еще не верит – пусть проверит! Пакеты не врут, Wireshark – наш друг
Это – HTTP GET …
ЗАДУМЧИВЫЙ СЕРВЕР
22
… а это – на него ответ. Вот так.
ЗАДУМЧИВЫЙ СЕРВЕР
23
Неизвестно устройство – невозможно управление
• Создание и использование сервисных карт (Discovery & Dependency Mapping)
— Автоматическое непрерывное выявление и фиксация объективных взаимосвязей пользователей, сервисов, приложений, серверов
— На основе реальной статистики взаимодействия субъектов — Селективное отображение сервисных компонентов и сегментов
для конкретных решаемых задач мониторинга
СЕРВИСНЫЕ КАРТЫ
24
• Автоматическое самообучение поведению сервисов — Непрерывный, тотальный, точный контроль на основе математического
моделирования поведения фактических параметров L2-L7 статистики — Возможность тонкой настройки и полного ручного управления — Оперативный мониторинг, превентивное выявление, объективная фиксация
контекста (мета-статистика и пакетные дампы) и корреляция аномалий и деградации сервисов, приложений, режима безопасности, каналов
ПОВЕДЕНЧЕСКАЯ АНАЛИТИКА
25
WAN ОПТИМИЗАЦИЯ
26
WAN ОПТИМИЗАЦИЯ
27
Взаимодействия между отделениями по сервису Citrix
ВЗАИМОДЕЙСТВИЯ МЕЖДУ ОТДЕЛЕНИЯМИ
28
QOS ANALYSIS
29
CASCADE’S SECURITY ANALYTICS ADD MORE VISIBILITY
Host scan Информирует, если пользователи сканируют сеть
Информирует, если пользователь сканирует открытые порты
Информирует, если новый хост появился в ЦОД
Обнаруживает, если хост начал отвечать на новый сервис
Идентификация и изоляция появления Worms
Port scan
New host
New port
Worm attack
Преимущества • Определение zero day атаки • Достаточный для определения
«stealth attacks» • Единый severity и alerting механизм
• Возможна конфигурация и настройка • Опциональный план подавления угроз
30
РЕАЛИЗОВАННЫЕ ПРОЕКТЫ
• КРУПНЕЙШАЯ ЗОЛОТОДОБЫВАЮЩАЯ КОМПАНИЯ • РЕГИОНАЛЬНЫЕ ПОДРАЗДЕЛЕНИЯ КРУПНЕЙШЕГО
БАНКА • КРУПНАЯ ЭНЕРГЕТИЧЕСКАЯ КОМПАНИЯ • DHL
31
Румянцев Александр инженер департамента телекоммуникаций
компании КРОК [email protected]
+7 915 289 97 29
СПАСИБО ЗА ВНИМАНИЕ!