SQL Server 2012 Data Quality Services

Preview:

DESCRIPTION

SQL Server 2012 Data Quality Services. Косяков Иван Архитектор ( SQL-BI), MTC Moscow ivank@microsoft.com , http://microsoftbi.ru. Содержание. Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS - PowerPoint PPT Presentation

Citation preview

SQL Server 2012Data Quality Services

Косяков ИванАрхитектор (SQL-BI), MTC Moscowivank@microsoft.com, http://microsoftbi.ru

Содержание Введение в управление качеством

данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение

Что такое качество данных? Представляет уровень пригодности данных

для использования в работе Определяется, измеряется и управляется

через метрики: точность непротиворечивость полнота наличие дубликатов своевременность

Обеспечивается людьми + технологиями + процессами

Общие проблемы качества данныхХарактеристика Вопрос Пример

Формат Удовлетворяют ли данные непротиворечивым стандартам форматирования?

Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д.

Соответствие стандарту

Элементы данных непротиворечиво определены и понятны?

Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе

Непротиворечивость Значения представляют одинаковое значение?

Доходы всегда представлены в рублях, или иногда в долларах?

Полнота Присутствуют ли все необходимые данные?

Имя 20% клиентов пустое, 50% индексов равны 999999

Точность Насколько точно данные представляют реальность или состояние источника данных?

Поставщик помеченный как «Активный» перестал существовать 6 лет назад.

Пригодность Находится ли значение в пределах допустимых значений?

Значения зарплаты должны быть между60,000-120,000

Наличие дубликатов Появляется ли одно и то же значение несколько раз?

John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек?

Концепция Data Quality Services (DQS)• Сервисы основаны на базе знаний о качестве данных (Data

Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных

На основе знаний

• Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных

Семантика (смысл)

• Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей

Обнаружение знаний

• Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные

Открытые и расширяемые

• Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности

Простота использования

Data Quality ServicesПроцесс обеспечения качества данных

Построение

Использование

DQ-проекты

Управление знаниями

Сопоставление и

де-дубликация Корректи

ровка

и стан

дарти

зация

Управление

знаниями

Обнаружение знанийИсследование данныхПодсоединение справочников

Данные организации

Справочные данные

Облачные сервисы

Встроенное профилиро-вание НотифиацииУлучшениеСостояние

База знаний

СопоставлениеСправочные

данные

Архитектура DQSDQ-клиенты

Интерфейс DQS

DQ-сервер

Хранилище DQ-проектов Склад обобщенных знаний Склад баз знаний

DQ-движок

Сторонние

Склад доменов MS DQ

Сервисы справочных

данных

Справочные наборы данныхSSIS DQ -компонент

Активные DQ-проектыДомены

данных MS

Локальные домены данных

Опублико-ванные базы

знаний

Обнаружение знаний

Профилирование и исследование

данных

Очистка

Обнаружение знаний и

управление

Интерактивные DQ-проекты

Исследование данных

Будущие клиенты (Excel,

SharePoint…)

Azure Market Place

Категоризованные справочные данные

Категоризованные сервисы справочных данных

Reference Data API(Browse, Get, Update…)

RD Services API(Browse, Set, Validate…)

Data Quality Knowledge Base (DQKB)What the DQKB contains ? Data Domains

Examples : email, gender , sate Composite Data Domain

Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country)

Domain Knowledge Properties Name, type Values Correct, Errors, Synonyms Rules Validation, Standardization, Business 3rd party reference

Matching Policy Rules that drive the Matching computation

Высоко-уровневые сценарии DQS• Создание и управление базами знаний о качестве

данных (Data Quality Knowledge Bases или DQKBs)• Исследование и интеграция со сторонними

справочными данными

Управление знаниями и ссылочными данными

• Корректировка• Удаление дубликатов• Стандартизация данных

Очистка и сопоставление

• Инструменты мониторинга и контроля качества DQ-процессовАдминистрирование

Управление знаниями

DQS-сервер

Внешние знания – ссылочные сервисы и наборы данных

Пример данных источника +

сопоставление (mapping)

Автоматически обнаруженные значения и правила

Одобренные пользователем значения доменов и правила

Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д.

База знаний

Политика сопоставления и определение справочных данных

Интерактивная очистка

DQS-сервер

Сервисы ссылочных данных

Неправильные

Корректные записи

Исправленные записи

Предлагаемые исправления

Источник + сопоставление

Значения/правила

Определения справочных данных

Политика сопоставления

База знаний

Interactive Cleansing – ScenarioBefore:

After:

Name Gender Street House Number Zip code City State Date of Birth

John Doe Male 60th streat 45 New York New York 08/12/64

Jane Doe Male Jonathan ln 36 10023 Poughkeepsy NY 21-dec-1954

Completeness Accuracy Conformity Consistency

Name Gender Street House Number Zip code City State Date of Birth

John Doe Male E 60th St 45W 10022 New York NY 08/12/64Jane Doe Female Jonathan Lane 36 10023 Poughkeepsie NY 12/21/54

Значения/правила

Определения справочных данных

Политика сопоставления

Пакетная очистка с помощью SSIS

Source + Mapping

Data correctionComponent

SSIS-пакетDestination

DQS-сервер

Ссылочные сервисы данных Поток данных SSIS

База знаний

Неправильные

Корректные записи

Исправленные записи

Предлагаемые исправления

Сопоставление

Процесс сопоставления: 1. Тренировка2. Сопоставление3. Авто-подтверждение4. Слияние/наследование

DQS-серверDQ-клиент – Результаты

База знаний

Источник + сопоставление

Значения/правила

Определения справочных данных

Политика сопоставления

Сценарий сопоставленияBefore:

After:

Name Address Postal Code City State

John Smith 545 S Valley View Drive # 136 34563 Anytown New YorkMargaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New YorkMaggie Smith 545 S Valley View Dr Anytown New YorkJohn Smith 545 Valley Drive St. 34253 NY NY

Name Address Postal Code City State Cluster

John Smith 545 S Valley View Drive # 136 34563 Anytown New York 1Margaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New York 1Maggie Smith 545 S Valley View Dr Anytown New York 1John Smith 545 Valley Drive St. 34253 NY NY 2

Справочные данные

Знания, сгенерированные

пользователями

Интеграция с SSIS

Открыты и расширяемы

Производительность и удобство

Для офисных пользователей

Авто-обнаружение знаний

Просты в использовании

Большая база знаний

Постоянное улучшение и

расширение знаний

Повторное использование

Основаны на знаниях

Заключение – характеристики DQS

Recommended