43
Copyright © 2012, SAS Institute Inc. All rights reserved. Обзор решений SAS Data Quality и SAS Data Governance

Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Обзор решений SAS Data Quality и

SAS Data Governance

Page 2: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИНСТРУМЕНТЫ ДЛЯ ПОВЫШЕНИЯ КАЧЕСТВА ДАННЫХ

60%• SQL-преобразования

• Стандартизация

• Анализ шаблонов написания

85% • Регулярные выражения

• Словари и грамматики

90%• Фонетический разбор

• Орфография

• Нечеткий поиск

99% • Ручная проверка

• Машинное обучение

DQ

DI

DG, MDM

TA, TM

Сложность применяемых алгоритмов

Уровень качества разбора

Page 3: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ОСНОВНЫЕ ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ

Анализ и исследование данных:▪ Инструменты анализа числовых данных (статистика, выбросы, пропущенные

значения и др.)

▪ Инструменты анализа текстовых данных (профилирование, анализ взаимосвязей,

нечёткий поиск связей и др.)

Автоматизированная очистка “грязных” данных: ▪ Локализация алгоритмов для России

▪ Мощные, настраиваемые инструменты очистки текстовых данных (грамматики,

словари, фонетика, дедупликация и др.)

▪ Детерминированные алгоритмы – повторяемый результат

Обогащение данных и аналитика:▪ Обогащение данных из внешних источников, поддержка КЛАДР-ФИАС, база

телефонных кодов, СПАРК и любых других «эталонных» баз данных

▪ Обогащение данных на основе анализа (определение пола, родственных связей и

др.)

Настраиваемые бизнес-процессы ручной очистки и согласования

исправлений в данных

Мониторинг и контроль качества данных:▪ Настраиваемые правила, визуальные инструменты

▪ Возможность проверки на этапе ввода данных в транзакционные системы

Page 4: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality АНАЛИЗ ДАННЫХ

Профилирование – анализ существующих данных с целью определения их пригодности для использования в

планируемом бизнес процессе

По результатам

профилирования были

найдены телефонные номер

в полях для хранения e-mail

Неверный формат e-mail

Анализ связей на основе

контекста,

включая нечёткий поиск

Поиск полей с одними

Бизнес-данными

Page 5: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

5

ID ФИО Телефон Адрес

1-1LTL2 Иванов Алексей

Иванович

89998881252 ул. Кирова,,, Энск, к. 12,

дом44

SAS RURUS QKB

Адрес

ФИО Телефон

SAS QKB

RURUS

ID ФИО Телефон Адрес

1-1LTL2 Иванов Алексей

Иванович

+7-(999)-888-12-52 Россия, г. Энск,

ул. Кирова, д. 44, кв. 12

• ФИО

• ДУЛ

• Адреса

• Телефоны

• Организации

• …

SAS Data Quality СТАНДАРТИЗАЦИЯ И ИСПРАВЛЕНИЕ ДАННЫХ

Page 6: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality АВТОМАТИЧЕСКАЯ ВАЛИДАЦИЯ ДАННЫХ

Определение корректности ИНН

Описание Анализируя длину и контрольную сумму, определяет корректность ИНН

Примеры Входные Данные Результат

9666114540 Ошибка контрольной суммы

504901209231 ИНН ИП

7717032288 ИНН 10Определение корректности адреса электронной почты

Описание Анализируя шаблон электронной почты, определяет её корректность

Примеры Входные Данные Результат

[email protected] OK

Ptich@ Ошибка

7717032288 Ошибка

Page 7: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality СТАНДАРТИЗАЦИЯ И ОБОГАЩЕНИЕ ДАННЫХ

Адрес

Описание Результат Анализа

Пример Входные данные Результат

г. Заволжье, ул.

Пономарева, д. 1, кв.

12

Почтовый Индекс 606524

Область Нижегородская

Район Городецкий

Город Заволжье

Улица Пономарева

Дом 1

Квартира 12

Телефон

Описание Определение типа телефона, стандартизация номера, определение кода КЛАДР

Пример Входные данные Результат

Телефонный номер Код страны Код города Номер Код КЛАДР Тип

7-343-3710589 8 343 3710589 6600000000000 Дополнительный

8-985-1238825 8 485 1238825 7700000000017 Мобильный

7-495-1354184 8 499 1354184 7700000000012 Дополнительный

Page 8: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ПОИСК И ВОССТАНОВЛЕНИЕ ПО КЛАДР

Адрес:

140180,г.Жуковский,

Жуковского ул.,1

✓ ищем в ФИАС

✓ исправляем написание

✓ восстанавливаем полный

адрес индекс , КОД

КЛАДР

Результат :

Индекс: 140181

Регион: обл Московская

Нас. пункт: г Жуковский

Улица: ул Жуковского

Дом: д. 1

КОД КЛАДР: 5000000500000130001

=>Исходные данные:

Page 9: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ПРОВЕРКА ОРФОГРАФИИ В АДРЕСАХ

125212,г.Москва,Крондштадский б-р,9 => 125212 г Москва, б-р Кронштадтский, д. 9

125459,г.Москва,Туристкая ул.,8 => 125459,г.Москва,Туристская ул,8

109457,г.Москва,Федора Пролетаева ул.,вл.11 => 109457,г.Москва,Федора Полетаева ул.,вл.11

141983,г.Дубна,Понтекрова ул. 9, => 141985 обл Московская, г Дубна, ул академика

Б.М.Понтекорво, д. 9

Page 10: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality НАИМЕНОВАНИЕ ПРОДУКТОВ

• Стандартизация написания

• Категоризация

• Выделение кода страны

• Выделение кода производителя

МОЛОКО ОТБ 3,4-6% ЮРЬЕВ БУРЕНКА 1Л(бутылка)

Страна: РоссияПроизводитель: ООО "Производственно-Коммерческая Фирма РОСТОК" Категория: Молоко пастеризов. -> Молоко ->Молочная гастрономия

Page 11: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ПАРСИНГ НАИМЕНОВАНИЯ ПРОДУКТОВ

Page 12: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ПАРСИНГ НАИМЕНОВАНИЯ ПРОДУКТОВ

PALMOL.Шамп.БЛ.СВЕТ.ВОЛОС 200мл

SHAMTU Кондиц.ТРАВЯН.КОКТЕЛЬ д/вол.380мл

DOVE Бал.-оп.ЗАЩИТА и УХОДд/окр.вол200мл

Наименование:

Наименование:

Наименование:Марка: Palmol.

Категория: Шамп.

Тип: БЛ.СВЕТ.ВОЛОС

Объем: 200мл

Марка: SHAMTU

Категория: Кондиц.

Тип: д/вол.

Объем: 380мл

Марка: DOVE

Категория: Бал.-оп.

Тип: д/окр.вол

Объем: 200мл

Page 13: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ПОСТРОЕНИЕ КОДОВ НЕЧЁТКОГО ПОИСКА

Match-код – код, генерируемый SAS Data Quality с использованием алгоритмов нечеткого

поиска, обладающий регулируемой чувствительностью и используемый для поиска дубликатов

записей.

ФИО

Описание Генерация match-кода для ФИО

Пример Входные данные Результат (чувств. 75) Результат (чувств. 85)

Ермакова Мария Владимировна ЙРМХФА$$$$$МША$$$$$$$$$$ ЙРМКВА$$$$$МША$$$$$$ВЛДМ

Ермакова Маша ЙРМХФА$$$$$МША$$$$$$$$$$ ЙРМКВА$$$$$МША$$$$$$$$$$

Ермакова Мария Владимир ЙРМХФА$$$$$МША$$$$$$$$$$ ЙРМКВА$$$$$МША$$$$$$$$$$

Page 14: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИДЕНТИФИКАЦИЯ ДУБЛИКАТОВ В ДАННЫХ

Пример набора правил кластеризации данных о физлице:

Матч-код (Имя, Отчество) + Серия документа + Номер документа + тип документа

Матч-код (Фамилия) + Серия документа + Номер документа + тип документа

Матч-код (Имя, Отчество) + Дата рождения + Адрес физлица

Матч-код (Фамилия, Имя) + Дата рождения + Адрес физлица

Матч-код (Фамилия, Имя, Отчество) + Год рождения + Адрес физлица

Матч-код (Имя, Отчество) + Год рождения + Номер сотового

Page 15: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality КЛАСТЕРИЗАЦИЯ И ПРОЦЕСС ФОРМИРОВАНИЯ «ЗОЛОТОЙ ЗАПИСИ»

3721B

ID

3721B

First Name

Мария

Middle

В

Last Name

Золотько

DOB

July 20

INN

56349123

Address

119333, Вавилова 48

ID

30391-244

First Name

Маша

Middle

Владимировна

Last Name

Золотько

DOB

20/07/1986

INN

563-49-1234

Address

48 Вавилова, Москва

Member ID

30391244

First Name

Маша

Middle

В.

Last Name

Ермакова

DOB

7-20-86

INN

563491234

Address

Вавилова 48

ConsumerID

30391-244

First Name

Мария

Middle

Владимировна

Last Name

Ермакова

DOB

07/20/1986

INN

563-49-1234

Address

119333 Москва, Вавилова 48

Мария Владимировна Золотько 20/07/1986 563491234 119333 Москва, Вавилова 48 Москва 7730391-2441001 30391-24430391244

EID Ключевые поля Выжившие поля

Правила выживания полей

MDM HUB

?

Источник 3

Источник 4

Источник 2

Источник 1

Ж

Page 16: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИДЕНТИФИКАЦИОННЫЙ АНАЛИЗ

Casper Pedersen Individual

[email protected] E-mail

3749 012 345 67890 Payment Card Number?

?

?

Категоризация данных на основе заданных правил:

Page 17: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИДЕНТИФИКАЦИЯ И ИЗВЛЕЧЕНИЕ АТРИБУТОВ

Casper Pedersen, [email protected]

Individual

E-mail

Casper Pedersen

[email protected]

Arturo Salazar

0820-123-123

Individual

Phone

Arturo Salazar

0820-123-123

Page 18: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ DATA MANAGEMENT STUDIO

▪ Интуитивно понятный

графический интерфейс для

создания процессов

управления качеством данных

▪ Возможность просмотра

результатов выполнения

процесса на каждом шаге

▪ Разработка процессов для

интеграции как в пакетном

режиме, так и онлайн

Шаги

процесса

Просмотр результатов

на каждом шаге

Панель

ресурсов

Page 19: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ DATA MANAGEMENT STUDIO

Поддерживаются следующие шаги:

▪ Data Inputs – источники данных: таблицы, файлы, параметры

веб-сервиса, очереди JMS и др.

▪ Data Outputs - Результаты работы: таблицы, файлы, отчеты

▪ Data Integration – Интеграция: сортировка, объединение (join,

union), вызов веб-сервисов, SQL запросов

▪ Quality – Задачи по качеству данных: парсинг, стандартизация,

генерация схем и т.д. (используются алгоритмы из QKB)

▪ Entity Resolution – задачи по дедупликации: генерация

матчкодов, дедупликация, анализ и сравнение кластеров,

«выживание» записей

▪ Monitor / Profile – мониторинг качества данных: запуск

различных проверок, формирование отчетов, генерация

событий в случае ошибок

▪ Utilities – дополнительные задачи: вызов внешних программ и

Java, параллельное выполнение задач и т.д.

Page 20: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИНТЕГРАЦИОННЫЙ СЛОЙ SAS DATA QUALITY И SAS MDM

▪ Исполняет в промышленной среде процессы, правила и

сервисы, созданные в Data Management Studio

▪ Процессы могут запускаться как в пакетном режиме, так и в

режиме реального времени, каждый процесс может быть

опубликован как веб-сервис SOAP или REST

▪ Поддерживается интеграция с различными источниками

данных (СУБД, файл, очереди сообщений и др.)

▪ Поддерживается интеграция с различными приложениями

через вызовы веб-сервисов, Java, внешних программ и т.д.

▪ Управление правами доступа выполняется через SAS

Metadata Server

▪ Работает как под Windows, так и под Unix/Linux

Page 21: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality БАЗА ЗНАНИЙ ДЛЯ РУССКОГО ЯЗЫКА - QKB RURUS

▪ С 2007 года существует и развивается локализация базы знаний QKB для русского

языка и России

▪ База содержит более ½ миллиона имен и фамилий, около 150 тысяч

географических названий в РФ (по КЛАДР), десятки правил грамматического и

фонетического разбора и пр.

▪ Реализованы категории: ФИО, паспорт, адрес (короткий, полный), телефоны,

название организации и пр.

▪ Обогащение по базам КЛАДР, номерных ёмкостей операторов, замены номерных

ёмкостей и пр.

▪ Реализован анализ и корректировка отдельных латинских букв в русских словах

(C→C, A→A, и пр.)

▪ Реализованы проверки кодов ИНН, ОГРН, ОГРНИП, и др., кросс-проверки адреса,

телефонов и пр.

Page 22: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data Quality ИНТЕРФЕЙС РЕДАКТИРОВАНИЯ БАЗЫ ЗНАНИЙ

База знаний не является

«черным ящиком» !

Встроенные инструменты редактирования

алгоритмов обработки данных и создания

методов для новых типов обрабатываемых

данных

Page 23: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data QualityИСПОЛЬЗОВАНИЕ SAS QKB В РАЗЛИЧНЫХ ПРОДУКТАХ

SAS DATA MANAGEMENT

SASQKB

SAS In-Database Technologies

SAS Data Integration & SAS Base

SAS Data Quality

SAS Federation Server

SAS Data Loader for Hadoop

SAS Event Stream Processing

SAS DM Studio

Customize

Page 24: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

КОМПОНЕНТЫ РЕШЕНИЯSAS Data Quality

External Systems

QKBSAS Data Management

Server

DQ Repository

SAS Data Management

Studio

QKBQKBQKBQKBQKBQKB

QKBQKBQKB

SAS Visual AnalyticsSAS Data Remediation /

SAS Workflow

Пакетная

интеграция

Отчеты и информационные

панели

по качеству данных

Управление инцидентами в области

качества данных

External

Database/FilesExternal

Database/FilesВнешние базы

данных или файлы

Разработка и выполнение правил и процессов

управления качеством данных

External SystemsИнформационные

системы

Онлайн

интеграция

Page 25: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS DATA GOVERNANCE

Page 26: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Governance КОМПОНЕНТЫ SAS DATA GOVERNANCE

Глоссарий бизнес-терминов

Мониторинг показателей

качества данных

Метаданные и взаимосвязи

объектов (Lineage)

Управление инцидентами

качества данныхWorkflow

Data

Quality

Работа с данными

(BI, ETL, DB, …)

Page 27: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Бизнес Глоссарий

Бизнес пользователи Сотрудники ИТ

Владельцы данных

BUSINESS GLOSSARY

Создание и потребление

данных

Управление и мониторинг

качества данных

Разработка, внедрение и эксплуатация

ИТ систем

Согласованная работа между различными участниками

процесса

Page 28: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Governance ГЛОССАРИЙ БИЗНЕСС ТЕРМИНОВ

▪ Создание, редактирование, удаление и

управление бизнес терминами

▪ Реестр описаний отчётности

▪ Реестр бизнес-требований

▪ Расширяемость свойств объектов

▪ Описание взаимосвязей между

объектами

▪ Версионность и историчность объектов

▪ Электронные оповещения

▪ Полнотекстовый поиск по описаниям

объектов БГ и связям из объектов

MS Office, Web приложений

▪ Прикрепление файлов и описание

бизнес методик

Page 29: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Каталогизация элементов данных

Бизнес

термин

Элемент

данных

“Где же мои данные в этом озере?”

?

?

?

Page 30: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Governance МЕТАДАННЫЕ И ВЗАИМОСВЯЗИ ОБЪЕКТОВ (LINEAGE)

▪ Интеграция с различными

приложениями

▪ Импорт физических моделей данных

▪ Ссылки на различные отчёты

▪ Анализ зависимостей между

объектами

▪ Отображение серверов, приложений,

кубов, таблиц, колонок, файлов,

процессов интеграции и очистки

данных и др.

▪ Отображение различных типов

связей между объектами

Page 31: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data GovernanceЗАГРУЗКА МЕТАДАННЫХ ИЗ РАЗЛИЧНЫХ ИНСТРУМЕНТОВ(приведен не полный перечень)

Инструменты интеграции

данных

BI

инструменты

Базы данных

Инструменты моделирования

управления метаданными

Page 32: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Governance СБОР МЕТАДАННЫХ - ОЖИДАЕМЫЙ РЕЗУЛЬТАТ

Oracle Data Integrator

SAS Business Data

Network

Oracle

Database

CA ERwin

SAS Data

Quality

(DataFlux)

SAS

SAS Data

Integration

Studio

SAS

Visual

Analytics

Page 33: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Переход от оценки DQ на оперативном уровне к оценке на тактическом и стратегическом уровнях

Правила контроля

Правила контроля

Правила контроля

Правила контроля

Уро

вен

ь о

цен

ки к

аче

ства

дан

ны

х

Область примененияОбласть применения Область применения

Критерии Показатели качества данных Приоритезация

Визуализация качества данных

• Фокус на достижении поставленных бизнес-целей

• Результаты оценки качества данных на уровне областей данных в виде значений согласованных KPI

• Информация по наиболее критичным проблемам качества данных

Стр

атег

иче

ски

йТа

кти

ческ

ий

Оп

ерат

ивн

ый

Page 34: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Governance ИНФОРМАЦИОННЫЕ ПАНЕЛИ КАЧЕСТВА ДАННЫХ

Мониторинг качества данных:

▪ Data Quality Dashboards –

информационные панели,

отображающие показатели качества

данных в целом

▪ К каждому отдельному бизнес-

правилу привязывается ряд метрик и

весов к ним. Информационная

панель позволяет показать

состояние качества данных в

организации по макрометрикам

собрав информацию со всех бизнес-

правил

▪ Существует возможность переходить

от агрегированных показателей

качества данных к более детальной

информации

Page 35: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Время запуска

процесса

профилирования

Графическое отображение NON-

NULL метрики в разрезе

источника данных, таблицы,

столбца

Отображение метрик в табличном формате

Page 36: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Выбор

столбцов

Параметры – источник, таблица

Общий взгляд на

изменение метрик

Детальное представление

исторических значений метрик

Page 37: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Процесс ручных исправлений ошибок в данныхИспользование SAS Data Remediation

• Улучшенное взаимодействие

бизнеса и IT

• Быстрое разрешение

проблем

• Центральный репозиторий

для фиксации проблем в

данных

• Контроль исполнения

Отправка в Data

Remediation

Data QualityDQ Dashboards

МониторингПроблема в данных

Workflow

Владелец данных исправляет ошибку

Администратор Данных утверждает исправления

Корректировка записи после согласования и публикация изменений

Page 38: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Развитие института Владельцев данных

Владелец Данных

Ответственность Экспертиза

• Выступает в качестве единой точки ответственности

• Отвечает за поддержание необходимого уровня качества данных

• Обладает полномочиями для внесения изменений и исправлений в данные

• Выступает в качестве бизнес-эксперта по соответствующей области данных

• Участвует в проработке системных решений, направленных на повышение уровня качества данных

• На основе прямых должностных обязанностей, связанных с внесением данных в информационные системы

• На основе ответственности за результаты выполнения технологических процессов

• В рамках повышения зрелости бизнес-процессов

Ключевой фактор успеха –вовлеченность

топ-менеджмента

Подходы к идентификации Владельцев Данных

Page 39: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.

Мотивация и оценка эффективности системы управления качеством данных

Функция управления качеством данных

Потребители данныхВладельцы

данных

Стандартизированные SLA –самый простой и эффективный способ контроля эффективности системы управления качеством данных

• Выдвигают требования к качеству данных

• Оценивают уровень предоставленного сервиса

• Отвечают за поддержание требуемого уровня качества данных

• Выделяют ресурсы

Service Level Agreement

• Закрепляет требования к качеству данных в формализованном виде

• Определяет процедуры эскалации

Page 40: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Data GovernanceПОЛНОФУНКЦИОНАЛЬНОЕ РЕШЕНИЕ

ДЛЯ УПРАВЛЕНИЯ КАЧЕСТВОМ ДАННЫХ

SAS BDN

▪ Определение бизнес-терминов

▪ Определение показателей качества данных и

правил проверки

SAS Data Quality

▪ Профилирование данных

▪ Расчет показателей качества

данных

SAS Linage

▪ Анализ причин

возникновения проблем

▪ Data flows, Lineage, Impact Analysis

SAS Data Quality

▪ Автоматические процессы

улучшения качества данных

SAS Data Remediation

▪ Управление инцидентами в

данных

SAS Data Quality

▪ Мониторинг показателей

качества данных

▪ Контроль решения

инцидентов

Контроль

Исправление

Определение

Измерение

Анализ

Page 41: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Операционные риски

Сквозной процесс управления качеством данных и операционными рисками

Управление данными

Проверки данных

Проверки DQ и Мониторинг качества данных

Управление инцидентами качества данных

Инциденты качества данных

Объекты данных

Тип ошибки/проблемы, Причина проблемы

Тип ошибки/проблемы, Причина ошибки/проблемы

Инциденты

Риски и Контроли

Проблемы и Планы действий

Бизнес-процессыБизнес-процессы

Отбор инцидентов в области качества данных, согласно правилам формирования

операционных рисков с учетом типа проблемы и критичности

процесса

Отчеты и визуализация данных

Отчеты и визуализация данныхИнциденты

Классификация инцидентов

Page 42: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

External Systems

QKBSAS Data Management

Server

DQ Repository

SAS Data Management

Studio

QKBQKBQKBQKBQKBQKB

QKBQKBQKB

SAS Visual AnalyticsSAS Data Remediation /

SAS Workflow

Пакетная

интеграция

Отчеты и информационные панели

по качеству данныхУправление инцидентами в области

качества данных

External

Database/FilesExternal

Database/FilesБазы данных или

файлы

Разработка и выполнение правил и процессов

управления качеством данных

External SystemsИнформационные

системы

Онлайн

интеграция

Управление

метаданнымиУправление качеством данных SAS DQSAS DG

SAS MetabridgesSAS MetabridgesSAS Metabridges

DG Repository

SAS BDN SAS Lineage

Сбор технических метаданных

Управление бизнес-

метаданнымиАнализ взаимосвязей

Технические

метаданные

Page 43: Обзор решений SAS Data Quality SAS Data Governance · 2019-06-14 · Марка: dove Категория: Бал.-оп. Тип: д/окр. ... опубликован как

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com

СПАСИБО