ЗАО « Мерлин Инк» Восстановление сервиса MERLIN INC в случае сбоя (Disaster recovery plan) Для внутреннего пользования ИТ службы Автор Версия 1.0 1.1 Дата Цели документа: сокращение времени простоя сервиса сокращение возможного финансового ущерба обучение персонала работе в чрезвычайных условиях описание шагов для обеспечения быстрого восстановления работоспособности системы Роли участников Номер Название роли Описание Контактная информация Обслуживающий персонал «Национальная Сервисная Компания» Почтовый адрес Имя Должность Название группы Номер телефона Группа A vasy@example.ru Заместитель технического директора Инженер технической поддержки Инженер технической поддержки Инженер технической поддержки +7 910 111 22 33 Группа A Группа A Контакты внешних подрядчиков Поставщик HP Идентификатор HP CarePack: Телефон Сервис и поддержка +7 (495) 797-3520 / 8-800-7003520 e-mail Другое http://h20000.www2.hp.com/bizsupport/TechSupport/ProductRoot.jsp?lang=ru&cc=ru Вход на сайт: U: P: Поддержка 8 x 5 Trendmicro Atlassian For your licenses that have active software maintenance, you have access to the legendary service of Atlassian's Support Team – 24 hours a day, 5 days a week at support.atlassian.com. Партнеры как http://atlassian.com/ Email: Password: itsm-group@example.ru ЦОД Location 1. Информация о площадках (контакты менеджера, дежурной смены ЦОД, номера стоек, схема в VISIO для каждой площадки) Location 1 Служба поддержки Дежурный инженер support@aaa.ru support@aaa.ru Вед. Спец. по работе с клиентами +7 (495) +7 (495) Офис: +7 (495) доб. 5555 Моб. Номер стойки в ЦОД location 2 – H1B100 Номер стойки в ЦОД location 3– 2H1E000 Расположение серверов можно увидеть в файле VISIO. Процедура регистрации и обработки сбоя Рабочее время В рабочее время администратор руководствуется регламентом по внесению изменений в систему. Актуальная версия документа доступна по адресу http://confluence.example.ru/pages/viewpage.action?pageId=4063871 Не рабочее время В не рабочее время дежурный администратор руководствуется документом – порядок действий дежурного http://confluence.example.ru/pages/viewpage.action?pageId=5079724 Мониторинг Актуальное состояние объектов инфраструктуры можно увидеть тут http://192.168.20.61/welcome.htm Доступ только через VPN. Для доступа к VPN нужно установить клиента (https://vpn.example.ru ) и подключиться под учечтной записью EXAMPLE. Резервные данные (бэкап) Актуальны бэкап данных можно взять на сервере backup-02d, папка D:\sy-dedup-02 Процедура аварийного восстановления Сервисы, подлежащие резервированию: № 1 Название Active directory Приоритет наивысший Компоненты 2 контроллера домена на разных площадках. 2 Процессинг Example наивысший Прокси шлюз для SOAP запросов к ядру. Влияние Обеспечивает аутентификацию и авторизацию для всех бизнес критичных сервисов, включая процессинг. 92% оборота компании. Сервис необходимо восстанавливать с Ядро системы наивысшим выполненное в приоритетом за виде .net минимальное время. сервисов БД MSSQL 3 Web витрина высокий Back Office WEB сервер БД PosGre example.ru 5% оборота компании. Недоступность виджетов у партнеров Неработоспособност ь мобильного приложения 4 Web витрина 1 средний Партнер 1 5 Web витрина 2 Партнер 1 WEB сервер БД PosGre низкий WEB сервер БД PosGre Имиджевые риски. 3,7% оборота компании. Имиджевые риски Партнер 1 0,5% оборота компании. Имиджевые риски Партнер 1 Active directory В случае сбоя одного из контроллеров домена, необходимо перенастроить клиентские сервера на работу с резеревным домен контроллером. В случае если - удалены часть записей и репликация обновила эту информацию на обоих домен контроллерах - недоступны оба сервера Необходимо произвести authoritative restore. Актуальная инструкция доступна здесь http://support.microsoft.com/?kbid=840001 Или же, если нет доступа в Интернет, в документе. WindowsServer2008 R2ADBackupandDisasterRecoveryProcedures_V3.0.pdf На 08.10.2012 DNS сервера: Name: example.ru - Addresses: 192.168.1.111, 192.168.20.100 Процессинг EXAMPLE Web витрина example.ru Тестирование по результатам восстановления. Тест кейсы После завершения работ по восстановлению того или иного сервиса, необходимо выполнить соответствующий тест кейс. Процессинг Зависимые документы Сервисы, подлежащие резервированию: 1. Web витрины (уровень критичности Mission Critical) 2. Процессинг (уровень критичности Mission Critical) 3. Service Desk (уровень критичности Business Critical) Web витрины состоят из следующих модулей: Web сервер. Сервер БД. Процессинг состоит из следующих модулей: Прокси шлюз для SOAP запросов к ядру. Ядро системы выполненное в виде .net сервисов БД Back Office Service Desk система реализована в виде java приложения работающего под управлением application сервера tomcat. Модуль Отметка о выполнении Описание Примечания Web витрины Web сервер Сервер БД Резервируется с помощью коммутаторов приложений Alteon, переключение в случае недоступности web сервера должно происходить автоматически. Резервируется путем холодного резерва, в случае выхода из строя основного сервера, переключение осуществляется путем изменения настроек конфигурационных файлов. Для www.example.ru это /home/www/example.ru/ current/config/databases. yml Процессинг Прокси шлюз для SOAP запросов к Резервируется путем холодного резерва, переключение осуществляется путем В ближайшее время планируется переход на версию PostgeSQL 9.1.1 после перехода можно планировать работы по построению отказоустойчивого кластера ядру изменения наcтроек NAT правила на Firewall Ядро системы Резервируется путем холодного резерва, переключение осуществляется изменением настроек в конфигурационном файле прокси шлюза, в файле web.config для всех интерфейсов необходимо изменить в разделе endpoint значение поля address БД Резервируется путем горячего резерва – кластер собранный средствами ОС Windows 2008 R2 Back Office Резервируется путем холодного резерва, переключение осуществляется путем изменения наcтроек NAT правила на Firewall Service Desk Service Desk Резервируется путем поднятия образа на виртуальной машине, затем изменением правила Nat на Firewall Проверка доступности: Web витрины – убедиться, что сайты открываются, провести тестовый платеж. Процессинг – провести тестовый платеж, в Back Office сделать фильтр по платежам в статусе «Завершен», убедиться, что есть успешные платежи за последние n минут. Back Office – убедиться, что страница доступна, переход по пунктам меню не вызывает сообщений «Сервис временно не доступен» Service Desk – убедиться, что страница http://frontend-01.example.ru:8080 доступна. 1. Тестирование плана аварийного восстановления (пример) Не Элемент Да Нет Применимо применимо Комментарии Определите цель тестирования. Какие характеристики плана будут оцениваться? Выберите критерии тестирования. Как будет оцениваться эффективность плана? Разъясните менеджерам суть и цели тестирования. Заручитесь их согласием и поддержкой. Проследите, что менеджеры объявили персоналу о тестировании и об ожидаемом времени выполнения работ. По окончании тестирования соберите результаты. Оцените результаты. Восстановление выполнено успешно? Если нет, то выясните причины. Сделайте выводы на основе результатов тестирования. Если восстановление в простейшем случае прошло успешно, значит ли это, что все основные функции будут восстановлены за приемлемое время? Разработайте рекомендации по изменению плана. Установите срок выполнения рекомендаций. Проинформируйте всех, кого могут касаться результаты тестирования, включая пользователей и службу контроля. Внесите необходимые изменения в документацию по аварийному восстановлению. 2. Информация об изменениях