Ivan Kosyakov — BI — DQS

реклама
SQL Server 2012
Data Quality Services
Косяков Иван
Архитектор (SQL-BI), MTC Moscow
ivank@microsoft.com, http://microsoftbi.ru
Содержание






Введение в управление качеством данных
Концепция DQS
Процесс управления качеством данных
Архитектура DQS
Сценарии использования DQS
Заключение
Что такое качество данных?
 Представляет уровень пригодности данных для
использования в работе
 Определяется, измеряется и управляется через
метрики:





точность
непротиворечивость
полнота
наличие дубликатов
своевременность
 Обеспечивается
людьми + технологиями + процессами
Общие проблемы качества данных
Характеристика
Вопрос
Пример
Формат
Удовлетворяют ли данные
непротиворечивым стандартам
форматирования?
Варианты телефонных номеров: xxxxxxxxxx,
+x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д.
Соответствие
стандарту
Элементы данных
непротиворечиво определены и
понятны?
Пол = M, F, U в одной системе и
Код пола = 0, 1, 2 в другой системе
Непротиворечивость
Значения представляют
одинаковое значение?
Доходы всегда представлены в рублях, или иногда
в долларах?
Полнота
Присутствуют ли все
необходимые данные?
Имя 20% клиентов пустое,
50% индексов равны 999999
Точность
Насколько точно данные
представляют реальность или
состояние источника данных?
Поставщик помеченный как «Активный» перестал
существовать 6 лет назад.
Находится ли значение в
пределах допустимых значений?
Значения зарплаты должны быть между
60,000-120,000
Появляется ли одно и то же
значение несколько раз?
John Ryan и Jack Ryan присутствуют в системе –
это один и тот же человек?
Пригодность
Наличие дубликатов
Концепция Data Quality Services (DQS)
На основе
знаний
• Сервисы основаны на базе знаний о качестве данных (Data
Quality Knowledge Base, DQKB), которая повторно
используется для множества улучшений качества данных
Семантика
(смысл)
• Данные сопоставляются с доменами данных, которые
отражают семантику (смысл) данных
Обнаружение
знаний
• Дополнительные знания обнаруживаются через примеры
данных и корректировки пользователей
Открытые и
расширяемые
• Сервисы поддерживают использование знаний,
сгенерированных сторонними компаниями,
предоставляющими справочные данные
Простота
использования
• Сервисы предоставляют удобный интерфейс, разработанный
с целью увеличения производительности
Data Quality Services
Процесс обеспечения качества данных
Управление
знаниями
Построение
Встроенное
профилирование
Обнаружение знаний
Исследование данных
Подсоединение справочников
База
знаний
Использование
DQ-проекты
Архитектура DQS
DQ-клиенты
Интерфейс DQS
Azure Market Place
Склад доменов
MS DQ
Категоризованные
справочные данные
Категоризованные сервисы
справочных данных
Обнаружение
знаний и
управление
DQ-сервер
Интерактивные
DQ-проекты
RD Services API
(Browse, Set, Validate…)
Reference Data API
(Browse, Get, Update…)
Сервисы
справочных
данных
DQ-движок
Исследование
данных
SSIS DQ -компонент
Будущие клиенты
(Excel,
SharePoint…)
Обнаружение
знаний
Профилирование и
исследование
данных
Очистка
Сопоставление
Хранилище DQ-проектов
Склад обобщенных знаний
Активные DQ-проекты
Домены
данных MS
Локальные
домены
данных
Сторонние
Справочные
данные
Склад баз знаний
Опубликованные базы
знаний
Справочные
наборы
данных
Data Quality Knowledge Base (DQKB)
What the DQKB contains ?
 Data Domains

Examples : email, gender , sate
 Composite Data Domain

Examples: Full Name (Given + Middle + Surname)
Address (Street + City + State + Country)
 Domain Knowledge




Properties
Values
Rules
3rd party reference
Name, type
Correct, Errors, Synonyms
Validation, Standardization, Business
 Matching Policy

Rules that drive the Matching computation
Высоко-уровневые сценарии DQS
Управление знаниями и
ссылочными данными
Очистка и сопоставление
Администрирование
• Создание и управление базами знаний о качестве
данных (Data Quality Knowledge Bases или DQKBs)
• Исследование и интеграция со сторонними
справочными данными
• Корректировка
• Удаление дубликатов
• Стандартизация данных
• Инструменты мониторинга и контроля качества DQпроцессов
Управление знаниями
Внешние знания – ссылочные
сервисы и наборы данных
Пример данных
источника +
сопоставление
(mapping)
База знаний
DQS-сервер
Автоматически обнаруженные
значения и правила
Одобренные пользователем
значения доменов и правила
Общие знания – алгоритмы,
сервисы, пред-настроенные домены
и т.д.
Политика сопоставления и
определение справочных данных
Интерактивная очистка
Сервисы ссылочных данных
Источник +
сопоставление
DQS-сервер
Корректные записи
Исправленные записи
Предлагаемые исправления
Неправильные
Значения/правила
База
знаний
Определения справочных данных
Политика сопоставления
Interactive Cleansing – Scenario
Before:
Name
Gender
Street
House Number
John Doe
Male
60th streat
45
Jane Doe
Male
Jonathan ln
36
Name
Gender
Street
John Doe
Male
Jane Doe
Female
Zip code
City
State
Date of Birth
New York
New York
08/12/64
10023
Poughkeepsy
NY
21-dec-1954
House Number
Zip code
City
State
Date of Birth
E 60th St
45W
10022
New York
NY
08/12/64
Jonathan Lane
36
10023
Poughkeepsie
NY
12/21/54
After:
Completeness
Accuracy
Conformity
Consistency
Пакетная очистка с помощью SSIS
Поток данных SSIS
Ссылочные сервисы данных
DQS-сервер
Корректные записи
База знаний
Значения/правила
Определения справочных данных
Политика сопоставления
SSIS-пакет
Source +
Mapping
Data correction
Component
Destination
Исправленные записи
Предлагаемые исправления
Неправильные
Сопоставление
Источник +
сопоставление
DQS-сервер
DQ-клиент – Результаты
Значения/правила
Определения справочных данных
Политика сопоставления
База знаний
Процесс сопоставления:
1.
2.
3.
4.
Тренировка
Сопоставление
Авто-подтверждение
Слияние/наследование
Сценарий сопоставления
Before:
Name
Address
Postal Code
City
State
John Smith
Margaret & John smith
Maggie Smith
John Smith
545 S Valley View Drive # 136
545 Valley View ave unit 136
545 S Valley View Dr
545 Valley Drive St.
34563
34563-2341
34253
Anytown
Anytown
Anytown
NY
New York
New York
New York
NY
Name
Address
Postal Code
City
State
John Smith
Margaret & John smith
Maggie Smith
John Smith
545 S Valley View Drive # 136
545 Valley View ave unit 136
545 S Valley View Dr
545 Valley Drive St.
34563
34563-2341
Anytown
Anytown
Anytown
NY
New York
New York
New York
NY
After:
34253
Cluster
1
1
1
2
Заключение – характеристики DQS
Основаны на знаниях
Просты в
использовании
Открыты и
расширяемы
 Большая база знаний
 Производительность и удобство
 Справочные данные
 Постоянное улучшение и
 Для офисных пользователей
 Знания, сгенерированные
расширение знаний
 Повторное использование
пользователями
 Авто-обнаружение знаний
 Интеграция с SSIS
Скачать