Лекция 12 Деление страхователей на группы «хорошие» и «плохие» для целей тарифной дифференциации 1 Идентификация распределения, оценка его параметров Исходная задача: имеем набор статистических данных. Вопрос – какому распределению они соответствуют? Ответ: допустим, что перед нами (…) распределение. Возможно, что мы правы, но, возможно, что мы ошибаемся. Насколько наше суждение соответствует действительному распределению? Как только вид моделирующего распределения выбран, необходимо решить каким образом оценивать значение каждого параметра. Существует три метода подгонки (оценивания параметров) предполагаемого распределения и один метод проверки качества суждения: 1. Метод моментов: у одинаковых распределений параметры одинаковы 2. Метод максимального правдоподобия: теоретическая функция распределения должна максимально близко «ложиться» возле (всех) наблюдаемых значений 3. Метод процентилей теоретическая функция распределения должна максимально близко «ложиться» возле реперных (процентильных) точек 4. Критерий распределения Пирсона 2 1. Метод моментов Для получения оценки параметра по методу моментов, необходимо приравнять выборочные и теоретические начальные моменты. Например, если бы мы пытались оценить значение параметров, то решали бы систему уравнений: Пример 1.4., Кларк, с. 27 Основываясь на анализе прошедших исков, страховая компания считает, что средняя величина индивидуального иска в выделенной категории в следующем году составит 5000, а стандартное отклонение 7500. Величина индивидуального иска имеет логнормальное распределение. Оцените долю исков, размер которых превысит 25000. Решение: Для логнормального распределения запишем следующую систему уравнений: => Доля исков, превышающих 25000, является всего лишь вероятностью того, что размер индивидуального иска превысит значение 25000: 3 2. Метод максимального правдоподобия 1. 2. 3. 4. 5. Пример 1.5, Кларк, с. 28 Страховая компания моделирует стоимость Алгоритм ремонта застрахованных автомобилей, попавших в применения метода аварию, используя экспоненциальное распределение. оценки максимального правдоподобия: Найти оценку максимального правдоподобия средней стоимости, если средняя стоимость ремонта Выпишите функцию правдоподобия – составила 2200 и было отремонтировано 1000 т. е. предполагаемую функцию автомобилей. распределения с ее естественными Решение: параметрами Запишем предполагаемую функцию Прологарифмируйте эту функцию ‐ это распределения, по условию она экспоненциальная: значительно упростит вычисления. Продифференцируйте функцию ∑ ̅ правдоподобия по каждому неизвестному параметру и приравняйте 1 полученные выражения к нулю. где: ̅ – средняя величина иска Решите полученную систему уравнений – полученные значения параметров и Прологарифмируем, помним, что необходимо есть искомые оценки. вычислить Проверьте, что найденные значения ln ln ̅ параметров действительно максимизируют функцию ln ̅ правдоподобия. 1 ⇒ ̅ 1 2200 1 ̅ 2200 4 3. Метод процентилей Метод процентилей включает в себя установление равенства между выборочным и теоретическим процентилями. Выбор процентилей будет зависеть от числа оцениваемых параметров. В однопараметрическом случае обычно используются выборочная и теоретическая медианы. В двухпараметрическом случае могут быть использованы верхняя и нижняя квартили. Пример 1.6, Кларк, с. 29 Используйте метод процентилей для вычисления параметров распределения Вейбулла, основываясь на следующей случайной выборке (значения неупорядочены). Величины исков выражены в тысячах руб. 0,1 0,2 0,5 2,2 4,1 28,1 0,7 2,6 5,9 30,0 0,2 0,9 2,9 6,2 49,2 0,3 1,3 3,2 12,1 63,8 0,4 1,8 3,3 15,2 118,0 Решение: Поскольку мы оцениваем два параметра, то будем использовать верхнюю и нижнюю квартили для нахождения оценок и в распределении Вейбулла. Запишем эту функцию распределения: Таким образом, верхняя квартиль распределения Вейбулла ‐ значение х, из уравнения: Уравнение для нижней квартили: Его решение: Исходя из имеющихся 25 выборочных значений, выборочные квартили будут соответствовать значению · 25 0,5 6,75 → 0,65и 3 · 25 0,5 19,25 → 12,875 4 5 4. Проверка достоверности суждения о выбранном распределении Одним из способов проверки того, может ли выбранное распределение ущерба служить хорошей моделью для рассматриваемых величин исков, является критерий распределения Пирсона. Пример 1.7, Кларк, с. 30 Анализ стоимости ремонта в примере 1.5 дает нам следующие значения в различных интервалах: 0‐1000 200 1000‐2000 300 2000‐3000 250 3000‐4000 150 4000‐5000 100 5000+ 0 Является ли экспоненциальное распределение хорошей моделью для стоимости индивидуального ремонта? Решение: проверяемая (нулевая) гипотеза: «стоимость имеет экспоненциальное распределение» альтернаьтивная гипотеза: «стоимость имеет не экспоненциальное распределение». Для каждого интервала таблицы необходимо вычислить ожидаемые значения, т.е. наиболее вероятные значения в каждом интервале, при условии, что цена подчиняется экспоненциальному распределению . Используя нашу оценку параметра 1/2200, вероятность того , что цена индивидуального ремонта попадет на интервал 2000‐3000, может быть вычислена следующим образом: Это означает, что ожидаемое число исков на этом интервале равно 1000 * 0.1472 = 147.2 6 Расчеты Такое же ожидаемое число исков нужно вычислить на каждом интервале: 0‐1000 200 365,3 1000‐2000 300 231,8 2000‐3000 250 147,2 3000‐4000 150 93,4 4000‐5000 100 59,3 5000+ 0 103,0 Теперь можно вычислить значение статистики : У нас 6 интервалов, но мы установили равенство для итоговых значений и оценили один параметр. Таким образом у нас 6 ‐ 1 ‐ 1 = 4 степени свободы. Для 4 степеней свободы и доверительной вероятности 99,5% значение критической точки равно 14,86. Если набл. Если набл. Главное заклинание всех теорий проверки гипотез: кр то нет оснований отвергнуть нулевую (исходную) гипотезу кр то нулевую (исходную) гипотезу безоговорочно отвергают 331,89 значительно превосходит кр 14,86. Как видим, вычисленное значение Это означает, что нулевую гипотезу следует отвергнуть, т. е. заявить, что экспоненциальное распределение для моделирования стоимости индивидуального ремонта абсолютно не подходит. 7 Сюжет 2: Дифференциация страхователей Жан Лемер разделил страхователей на «хороших» и «плохих» следующим образом: пусть доля «хороших» страхователей характеризуется параметром , а плохих ‐ . Поскольку потоки ожидаемых исков независимы, то действует теорема сложения и моделирующее распределение должно иметь вид: ! ! , , , 0и 1 Применяя метод моментов, можно получить следующие оценки параметров этого распределения: где , , ‐ моменты первого, второго и третьего порядков случайной величины ‐ числа страховых случаев, наступивших за год в одном договоре. После того, как параметры весов и найдены, следует верифицировать модель: рассчитать теоретические частоты и с помощью критерия согласия проверить гипотезу о согласованности модели с эмпирическими данными. Практическая задача: Найти такие значения весов и , чтобы премии по хорошим и по плохим страхователям компенсировали друг друга 8 Пример Миронкина, с. 204, пример 3.12 Рассмотрим реальный портфель договоров страхования ОСАГО: По приведенным формулам рассчитаем теоретические параметры распределения этого портфеля: Запишем результаты в виде распределения Лемера: , 0,92 0,02 ! , 0,08 0,42 ! Полученные результаты свидетельствуют о том, что доля «хороших» водителей в портфеле составляет около 91,85% и в среднем они попадают в 0,02 аварии в год. Остальные 8,15% ‐ «плохие» водители, у них частота страхового случая составляет 0,42 аварии в год. Теперь следует протестировать качество подгонки распределения при помощи критерия Пирсона 9 Тестируем качество подгонки распределения при помощи критерия Пирсона Составим сводную таблицу эмпирических и теоретических частот: Построим наблюдаемый критерий статистики Пирсона: 105925 105925 4940 4941 1 1 ⋯ 0,0147 набл. 105925 4941 1 У нас 6 интервалов и три параметра, таким образом имеем 6 ‐ 3 ‐ 1 = 2 степени свободы Для 2 степеней свободы и доверительной вероятности 95% находим значение критической точки: ХИ2. ОБР 0,05; 2 0,102587 Поскольку набл. кр , то нет оснований отвергнуть нулевую гипотезу об адекватности построенной модели. Общий вывод: в основу построения тарифа следует положить распределение кр , 0,92 0,02 ! , 0,08 0,42 ! Именно в этой модели 8% плохих страхователей будут погашаться 92% хороших страхователей. 10 Дальнейшее развитие темы: На базе деления страхователей на группы и учитывая вероятности переходов из одной группы в другую как Построить систему бонус‐малус? 11