Визуализация данных

advertisement
Переменные
Распространенные методы визуализации
Зависимости переменных
Визуализация данных
Теория аргументации и академическое письмо
Кирилл Александрович Маслинский
1.12.2014
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Переменная
Переменная —
результат измерения
серии измерений
одного и того же параметра (свойства)
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Переменная
Переменная —
результат измерения
серии измерений
одного и того же параметра (свойства)
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Переменная
Переменная —
результат измерения
серии измерений
одного и того же параметра (свойства)
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Шкалы измерений
с какой точностью можно измерить?
в каждом измерении присутствует ошибка
она задает количество информации, которое
можно получить в измерении
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Шкалы измерений
с какой точностью можно измерить?
в каждом измерении присутствует ошибка
она задает количество информации, которое
можно получить в измерении
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Шкалы измерений
с какой точностью можно измерить?
в каждом измерении присутствует ошибка
она задает количество информации, которое
можно получить в измерении
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Категориальные (номинальные)
Измерение — принадлежность предмета к одному из
нескольких заранее заданных классов.
Примеры:
омлет
винегрет
компот
антрекот
сырое
термически обработанное
вареное
тушеное
жареное
печеное
гнилое
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Категориальные (номинальные)
Измерение — принадлежность предмета к одному из
нескольких заранее заданных классов.
Примеры:
омлет
винегрет
компот
антрекот
сырое
термически обработанное
вареное
тушеное
жареное
печеное
гнилое
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Ординальные (порядковые)
Объекты в большей или меньшей степени обладают признаком
— можно упорядочить (ранжировать).
Нельзя сравнить объекты количественно — на сколько больше
или меньше признака.
Примеры:
Позиция в рейтинге
общий балл ЕГЭ
Социально-экономический статус
IQ
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Интервальные/Относительные
Можно численно сравнить объекты по степени выраженности
признака.
В относительных в дополнение к этому имеет смысл нулевое
значение — отсутствие измеряемого признака.
Примеры:
возраст (в годах, в месяцах, в днях...)
рост
цена
количество событий за период времени
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Богатые и бедные шкалы
Красный
Оранжевый
Длина
электромагнитной
волны
Желтый
теплые цвета
Зеленый
холодные
цвета
Голубой
Синий
Фиолетовый
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Богатые и бедные шкалы
Красный
Оранжевый
Длина
электромагнитной
волны
Желтый
теплые цвета
Зеленый
холодные
цвета
Голубой
Синий
Фиолетовый
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Богатые и бедные шкалы
Красный
Оранжевый
Длина
электромагнитной
волны
Желтый
теплые цвета
Зеленый
холодные
цвета
Голубой
Синий
Фиолетовый
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Распределение переменной
Описание изменчивости: какова вероятность, что переменная
примет
данное значение
значение из заданного интервала
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Медиана и квартили
Упорядоченная выборка
4 6 7 7 7 8 8
8
8
9
10
среднее — 7.364
медиана — 50% значений выборки меньше этого
квартили — 25%, 50%, 75% соответственно
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Медиана и квартили
Упорядоченная выборка
4 6 7 7 7 8 8
8
8
9
10
среднее — 7.364
медиана — 50% значений выборки меньше этого
квартили — 25%, 50%, 75% соответственно
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Медиана и квартили
Упорядоченная выборка
4 6 7 7 7 8 8
8
8
9
9000
среднее — 824.7
медиана — 50% значений выборки меньше этого
квартили — 25%, 50%, 75% соответственно
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
5 numbers & boxplot
минимальное значение
первая квартиль
медиана
вторая квартиль
максимальное значение
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Коробчатая диаграмма
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Гистограмма
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Среднее, дисперсия и стандартное отклонение
µ среднее (арифметическое)
D дисперсия — мера
разброса P
2
D = σ 2 = (x−x̄)
N
σ стандартное
отклонение
√
σ= D
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Расчет дисперсии
Простая дисперсия
2 5 5 7 8 9
среднее = 6
Дисперсия D = σ 2 =
P
(x−x̄)2
N
стандартное отклонение σ =
√
D
Пример
D = ((2−6)2 +(5−6)2 +(5−6)2 +(7−6)2 +(8−6)2 +(9−6)2 )/6 =
5, 33√
σ = 5.33 = 2, 3
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Диаграмма рассеяния
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Временные ряды
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Процентное отношение
процент X
среди Y
?
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Таблица
не воровал(а) воровал(а)
ж 19
3
43
м 415
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Круговая диаграмма
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Круговая диаграмма
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
Столбчатые диаграммы
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
План
1
Переменные
2
Распространенные методы визуализации
Одномерные числовые данные
Двумерные числовые данные
Категориальные данные
3
Зависимости переменных
Кирилл Александрович Маслинский
Визуализация данных
Переменные
Распространенные методы визуализации
Зависимости переменных
Корреляция и зависимость
Кирилл Александрович Маслинский
Визуализация данных
Download