SQL Server 2012 Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow ivank@microsoft.com, http://microsoftbi.ru Содержание Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение Что такое качество данных? Представляет уровень пригодности данных для использования в работе Определяется, измеряется и управляется через метрики: точность непротиворечивость полнота наличие дубликатов своевременность Обеспечивается людьми + технологиями + процессами Общие проблемы качества данных Характеристика Вопрос Пример Формат Удовлетворяют ли данные непротиворечивым стандартам форматирования? Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д. Соответствие стандарту Элементы данных непротиворечиво определены и понятны? Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе Непротиворечивость Значения представляют одинаковое значение? Доходы всегда представлены в рублях, или иногда в долларах? Полнота Присутствуют ли все необходимые данные? Имя 20% клиентов пустое, 50% индексов равны 999999 Точность Насколько точно данные представляют реальность или состояние источника данных? Поставщик помеченный как «Активный» перестал существовать 6 лет назад. Находится ли значение в пределах допустимых значений? Значения зарплаты должны быть между 60,000-120,000 Появляется ли одно и то же значение несколько раз? John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек? Пригодность Наличие дубликатов Концепция Data Quality Services (DQS) На основе знаний • Сервисы основаны на базе знаний о качестве данных (Data Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных Семантика (смысл) • Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных Обнаружение знаний • Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей Открытые и расширяемые • Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные Простота использования • Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности Data Quality Services Процесс обеспечения качества данных Управление знаниями Построение Встроенное профилирование Обнаружение знаний Исследование данных Подсоединение справочников База знаний Использование DQ-проекты Архитектура DQS DQ-клиенты Интерфейс DQS Azure Market Place Склад доменов MS DQ Категоризованные справочные данные Категоризованные сервисы справочных данных Обнаружение знаний и управление DQ-сервер Интерактивные DQ-проекты RD Services API (Browse, Set, Validate…) Reference Data API (Browse, Get, Update…) Сервисы справочных данных DQ-движок Исследование данных SSIS DQ -компонент Будущие клиенты (Excel, SharePoint…) Обнаружение знаний Профилирование и исследование данных Очистка Сопоставление Хранилище DQ-проектов Склад обобщенных знаний Активные DQ-проекты Домены данных MS Локальные домены данных Сторонние Справочные данные Склад баз знаний Опубликованные базы знаний Справочные наборы данных Data Quality Knowledge Base (DQKB) What the DQKB contains ? Data Domains Examples : email, gender , sate Composite Data Domain Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country) Domain Knowledge Properties Values Rules 3rd party reference Name, type Correct, Errors, Synonyms Validation, Standardization, Business Matching Policy Rules that drive the Matching computation Высоко-уровневые сценарии DQS Управление знаниями и ссылочными данными Очистка и сопоставление Администрирование • Создание и управление базами знаний о качестве данных (Data Quality Knowledge Bases или DQKBs) • Исследование и интеграция со сторонними справочными данными • Корректировка • Удаление дубликатов • Стандартизация данных • Инструменты мониторинга и контроля качества DQпроцессов Управление знаниями Внешние знания – ссылочные сервисы и наборы данных Пример данных источника + сопоставление (mapping) База знаний DQS-сервер Автоматически обнаруженные значения и правила Одобренные пользователем значения доменов и правила Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д. Политика сопоставления и определение справочных данных Интерактивная очистка Сервисы ссылочных данных Источник + сопоставление DQS-сервер Корректные записи Исправленные записи Предлагаемые исправления Неправильные Значения/правила База знаний Определения справочных данных Политика сопоставления Interactive Cleansing – Scenario Before: Name Gender Street House Number John Doe Male 60th streat 45 Jane Doe Male Jonathan ln 36 Name Gender Street John Doe Male Jane Doe Female Zip code City State Date of Birth New York New York 08/12/64 10023 Poughkeepsy NY 21-dec-1954 House Number Zip code City State Date of Birth E 60th St 45W 10022 New York NY 08/12/64 Jonathan Lane 36 10023 Poughkeepsie NY 12/21/54 After: Completeness Accuracy Conformity Consistency Пакетная очистка с помощью SSIS Поток данных SSIS Ссылочные сервисы данных DQS-сервер Корректные записи База знаний Значения/правила Определения справочных данных Политика сопоставления SSIS-пакет Source + Mapping Data correction Component Destination Исправленные записи Предлагаемые исправления Неправильные Сопоставление Источник + сопоставление DQS-сервер DQ-клиент – Результаты Значения/правила Определения справочных данных Политика сопоставления База знаний Процесс сопоставления: 1. 2. 3. 4. Тренировка Сопоставление Авто-подтверждение Слияние/наследование Сценарий сопоставления Before: Name Address Postal Code City State John Smith Margaret & John smith Maggie Smith John Smith 545 S Valley View Drive # 136 545 Valley View ave unit 136 545 S Valley View Dr 545 Valley Drive St. 34563 34563-2341 34253 Anytown Anytown Anytown NY New York New York New York NY Name Address Postal Code City State John Smith Margaret & John smith Maggie Smith John Smith 545 S Valley View Drive # 136 545 Valley View ave unit 136 545 S Valley View Dr 545 Valley Drive St. 34563 34563-2341 Anytown Anytown Anytown NY New York New York New York NY After: 34253 Cluster 1 1 1 2 Заключение – характеристики DQS Основаны на знаниях Просты в использовании Открыты и расширяемы Большая база знаний Производительность и удобство Справочные данные Постоянное улучшение и Для офисных пользователей Знания, сгенерированные расширение знаний Повторное использование пользователями Авто-обнаружение знаний Интеграция с SSIS