1 SAS/STAT. HOME WORK 2. REG ФИО DATA Набор данных CARS – информация, включая цену, о различных марках и моделях автомобилей 1993 года. Чтобы создать набор, выполните код в файле CARS.sas. Переменные: Manufacturer – производитель Model – модель Type – Compact, Large, Midsize, Small, Sporty Price – цена – ЕЕ БУДЕМ ПРЕДСКАЗЫВАТЬ. Citympg – потребление топлива при езде по городу (кол-во миль / галлон) Hwympg – потребление топлива при езде за городом (кол-во миль / галлон) Cylinders – кол-во цилиндров в двигателе EngineSize – рабочий объем цилиндров (в литрах) Horsepower – максимальная мощность в лошадиных силах FuelTank – объем топливного бака (в галлонах) Passengers – вместимость Luggage – объем багажника Weight – вес Origin - US or non-US Car TASKS 1. (1) Exploratory Data Analysis. Исследовать данные с помощь PROC SGSCATTER (пример) (обратите внимание на опцию PBSPLINE <= (options)> в операторе PLOT) и PROC CORR (см. пример тут). Дать общее описание наличия и характера «связи» между различными переменными и ценой (Price). Линейная/нелинейная? Если нелинейная, то какая? ОТВЕТ [только картинки и выводы] 2 2. Если обнаружена нелинейная зависимость, нужно применить соответствующее преобразование входной переменной, а точнее использовать полиномиальную регрессию (см. пример тут) . Идея здесь простая: если на графике видна некая нелинейная зависимость, то преобразованная переменная будет «более» линейно связана с целевой: ОТВЕТ [код преобразования + график до и после (как в примере выше)] 3. (2) Candidate Model Selection. Протестировать различные методы выбора переменных (пошаговые и перебор подмножеств). Для пошаговых методов исследовать влияние порогов для p-value для входных (включаемых в регрессию) и выходных (исключаемых из регрессии) переменных. Выбрать «наилучшую» модель на основе любого из исследованных методов. ОТВЕТ [код – статистика=значение/график – вывод] 4. (3) Model Assumption Validation Для выбранной в предыдущем пункте «наилучшей» модели проверить предположения регрессионного анализа. Если вы не заметили раньше, то теперь почти точно нужно моделировать не Price, а log(Price) – все из-за дисперсий))). 5. [THEORY PART] познакомиться с процедурой PROC TRANSREG: посмотреть, как с ее помощью можно выбрать нужное преобразование. ОТВЕТ [код – статистика=значение/график – вывод] 3 6. (4) Collinearity and Influential Variables Detection Проверить наличие коррелирующих переменных среди выбранных, используя различные статистики в моей презентации. ОТВЕТ [код – статистика=значение/график – вывод] 7. Прочитать главу «3 Linear Methods for Regression» из вот этой книги (правда не совсем о статистике). Уделить особое внимание разделам «3.4 Shrinkage Methods»! (они могут помочь справиться с проблемой коллинеарности). Протестировать 3 метода в SAS/STAT: (1) PROC REG …. RIDGE …. (пример) и (2,3) PROC GLMSELECT опция SELECTION={LAR, LASSO} в операторе MODEL. ОТВЕТ [код – статистика=значение/график – вывод] 8. Исследовать данные на предмет наличия «влиятельных» наблюдений (Influential Observation), используя методы в моей презентации. ОТВЕТ [код – статистика=значение/график – вывод] 9. Убедившись, что теперь-то модель в порядке, применить ее к новому набору данных (для простоты к тому же самому (со всеми наблюдениями) из которого удалены значения переменной Price). Для этого использовать PROC SCORE (пример). ОТВЕТ [код – статистика=значение/график – вывод]