Uploaded by Алекс

Процесс очистки данных. Методы и проблемы

advertisement
Процесс очистки данных:
Методы и проблемы.
Очистка данных: понятие
Очистка данных – процесс выявления и
исправления ошибок, позволяющий обеспечить
качественный анализ.
Задачи:
 Оценка достоверности информации


Выявление ошибочных и подозрительных
данных: аномалий, дубликатов,
противоречий…
Исправление выявленных ошибок
Очистка: частотный анализ
Метод основывается на анализе частоты
появления определенного значения или
комбинаций таких значений во всей совокупности
данных.
Имя
Количество
человек
Жен
Муж
Александ
р
20
80
Жанна
95
5
Наргиз
92
8
Хамзатоглы
3
97
Юлия
99
1
Имя
Пол
Александ
р
Мужской
Жанна
Женский
Наргиз
Женский
Хамзатоглы
Мужской
Юлия
Женский
Очистка: контрольные числа
В основе алгоритма контрольных чисел
лежит расчет определенных функций, которые
применяются для проверки правильности
номеров банковских карт, ИНН, СНИЛС, ОКПО,
ОКАТО, ОГРН…
Контрольные
ИНН
числа
12345678
4
7
9046
Контрольные числа не совпадают
ИНН введен с ошибкой
Очистка: схожесть строк
Анализ строк выявляет «похожесть» записей с
помощью алгоритмов сравнения значений:
метода Левенштейна, Soundex, нахождения
максимальной общей подпоследовательности…
Игроь
Словарь имен
Игорь
Имена
Расстояние
из
Левенштейн
словаря
а
Игнатий
5
Игорь
2
Измаил
5
Изот
3
…
…
Очистка: дедубликация
Дедубликация основывается на поиске
совпадающих и похожих объектов по
определенным стратегиям с целью устранения
повторов.
Стратегия поиска 1:
совпадение паспортных
данных
Стратегия поиска 2:
совпадение ФИО + адрес +
дата рождения
Стратегия поиска 3:
совпадение ФИО + телефон
Стратегия поиска 4:
совпадение ИНН
Очистка: другие методы
Для очистки данных используются и другие
методы:
 Формализованные правила:
накладывание заранее определенных
правил очистки на контролируемые поля
 Способы замены: индексирование слов по
их звучанию, кодирование…
 Проверка по статистическим значениям:
по доверительному интервалу, средним
значениям…
 Кластерный анализ: проверка написания
значения с учетом попадания его в
кластер…
Проблемы очистки данных
Мы грубо различаем проблемы с
одним источником и проблемы с
несколькими источниками, а также
проблемы, связанные со схемой и
записями.
Проблемы очистки данных
Проблемы с одним источником
Проблемы качества данных, связанные со схемой, таким
образом, возникают из-за отсутствия соответствующих
ограничений целостности, специфичных для модели или
приложения, например, из-за ограничений модели данных или
плохого проектирования схемы, или из-за того, что было
определено только несколько ограничений целостности, чтобы
ограничить накладные расходы контроль правильности.
Проблемы, связанные с конкретной записью, связаны с
ошибками и несоответствиями, которые невозможно
предотвратить на уровне схемы (например, орфографические
ошибки).
Проблемы с одним источником
Проблемы с несколькими
источниками
Проблемы, существующие в отдельных источниках,
усугубляются, когда необходимо объединить несколько
источников. Каждый источник может содержать грязные данные,
и данные в источниках могут быть представлены по-разному,
совпадать или противоречить. Это связано с тем, что источники
обычно разрабатываются, развертываются и обслуживаются
независимо для удовлетворения конкретных потребностей. Это
приводит к большой степени неоднородности относительно.
системы управления данными, модели данных, схемы и
фактические данные.
Проблемы с несколькими
источниками
Проблемы очистки данных
Основная проблема при очистке данных из нескольких
источников состоит в том, чтобы идентифицировать
перекрывающиеся данные, в частности совпадающие записи,
относящиеся к одному и тому же реальному объекту (например,
клиенту). Эту проблему также называют проблемой
идентичности объекта, устранением дубликатов или проблемой
слияния / очистки. Часто информация является лишь частично
избыточной, и источники могут дополнять друг друга,
предоставляя дополнительную информацию об объекте. Таким
образом, дублирующаяся информация должна быть удалена, а
дополнительная информация должна быть консолидирована и
объединена, чтобы получить единообразное представление об
объектах реального мира.
Download