Enabling Grids for E-sciencE WMS (Workload Management System) Бережная А.Я. Институт физики высоких энергий г.Протвино www.eu-egee.org EGEE-II INFSO-RI-031688 Использование заданий для запуска приложений Enabling Grids for E-sciencE • Задание (job) – это средство для запуска приложений в Грид • Информация, которая должна быть определена, когда задание должно быть запущено в Грид – Характеристики задания – Требования задания и условия на вычислительные ресурсы Включая требования на программное обеспечение – Требования к данным • Эта информация определяется при помощи Job Description Language (JDL) – Основан на CLASSified ADvertisement language (ClassAd) из проекта Condor ClassAd – последовательность атрибутов, разделённых (;) EGEE-II INFSO-RI-031688 Protvino, Introduction to Grid Computing, 27.06.2007 2 Как это работает? Основные компоненты. Enabling Grids for E-sciencE User Interface (UI): Место, откуда пользователь вошёл в Грид Resource Broker (RB): Сопоставляет пользовательские требования и доступные ресурсы Грид Computing Element (CE): Очередь на выполнение заданий на том кластере, где будет выполняться задание Storage Element (SE): Сервер хранения данных, где сохраняются Грид файлы (чтение/запись/копирование) или их реплики. Information System: Характеристики и статус для CE иSE (Используя “GLUE schema”) EGEE-II INFSO-RI-031688 Protvino, Introduction to Grid Computing, 27.06.2007 3 EGEE/LCG Workload Management System Enabling Grids for E-sciencE • Пользователь управляет заданиями через подсистему управления загрузкой (Workload Management System - WMS); • Основная задача WMS - планирование и управление распределенными ресурсами в системе Grid; • Что может пользователь? – Посылать задачи на выполнение; – Выполнять задачи на наиболее подходящих для этого ресурсах (WMS автоматически оптимизирует использование ресурсов); – Получать информацию о состоянии задач; – Получать результаты выполнения задач. EGEE-II INFSO-RI-031688 Protvino, Introduction to Grid Computing, 27.06.2007 4 Сервисы и запуск заданий Enabling Grids for E-sciencE “User interface” Input “sandbox” Output “sandbox” DataSets info Replica Catalogue Information Service Resource Broker Logging & Book-keeping EGEE-II INFSO-RI-031688 Publish Job Query Job Submit Event Author. &Authen. Storage Element Job Status Computing Element Protvino, Introduction to Grid Computing, 27.06.2007 5 Выполнение задания Enabling Grids for E-sciencE SUBMITTED - задание послано пользователем, но пока не обработано Network Server WAITING - задание принято Network Server, но ещё не обработано Workload Manager READY - заданию назначен Computing Element, но оно туда ещё не передано SCHEDULED - задание ожидает в очереди на Computing Element RUNNING - задание выполняется DONE - задание завершилось ABORTED - задание снято WMS (т.к. слишком долгое, срок действия сертификата истёк, и т.п.) CANCELLED - задание снято пользователем CLEARED - Output Sandbox передан на User Interface EGEE-II INFSO-RI-031688 Protvino, Introduction to Grid Computing, 27.06.2007 6 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Information Service Workload Manager Job Contr. CondorC Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 7 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел submitted Information Service Workload Manager UI: позволяет пользователям получить доступ к функциональности WMS (CLI, GUI, C++ и Java APIs) Computing Element EGEE-II INFSO-RI-031688 Job Status Job Contr. CondorC Характеристики. и статус CE Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 8 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел submitted Information Service Workload Manager edg-job-submit myjob.jdl Job Description Language (JDL) определяет характеристики и требования задания myjob.jdl JobType = “Normal”; Job Contr. Executable = "$(CMS)/exe/sum.exe"; InputSandbox = {"/home/user/WP1testC","/home/file*”, "/home/user/DATA/*"}; OutputSandbox = {“sim.err”, CondorG “test.out”, “sim.log"}; Requirements = other. GlueHostOperatingSystemName == “linux" && Характеристики. other.GlueCEPolicyMaxWallClockTime > 10000; и статус CE Rank = other.GlueCEStateFreeCPUs; Computing Element EGEE-II INFSO-RI-031688 Job Status Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 9 Запуск задания Enabling Grids for E-sciencE UI NS: сетевой сервис, ответственный за прием входных запросов Задание Network Server RLS RB узел Job Status submitted waiting Файлы из Input Sandbox RB storage Information Service Workload Manager Job Contr. CondorC Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 10 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage WM: ответственен за Job Contr. выполнение действий для удовлетворения CondorC запроса Computing Element EGEE-II INFSO-RI-031688 Information Service Workload Manager Характеристики. и статус CE Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 11 Запуск задания Enabling Grids for E-sciencE Job Status RLS UI Network Server RB storage Workload Manager RB узел submitted MatchMaker/ Broker waiting Information Где должно выполняться Service это задание ? Job Contr. CondorC Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 12 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB storage Workload Manager Job Contr. CondorC RB узел submitted MatchMaker/ Broker waiting Information Service Matchmaker: отвечает за поиск “лучшего” CE, где будет выполняться задание Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Job Status Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 13 Запуск задания Enabling Grids for E-sciencE Где (на каком SE), необходимые данные? UI Network Server RB storage RB узел submitted MatchMaker/ Broker waiting Information Service Workload Manager Какой статус у Грид-ресурсов Job Contr. CondorC Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Job Status RLS Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 14 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB storage Workload Manager RB узел Job Status submitted MatchMaker/ Broker waiting Information Service Выбор CE Job Contr. CondorC Характеристики. и статус CE Computing Element EGEE-II INFSO-RI-031688 Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 15 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage Workload Manager Information Service Job Adapter Job Contr. CondorG Computing Element EGEE-II INFSO-RI-031688 JA: ответственен за окончательную Характеристики. Характеристики “доводку” задания перед и статус SE и статус CE процедурой запуска (напр. создание wrapper скрипта, и т.п.) Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 16 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage Information Service Workload Manager ready Job Contr. CondorC JC: ответственен за операции управления заданием (через Computing CondorC) Element EGEE-II INFSO-RI-031688 Характеристики. и статус CE Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 17 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage CE получает запрос и посылает задание на выполнение LRMS Файлы из Input Sandbox Computing Element EGEE-II INFSO-RI-031688 Information Service Workload Manager Job Contr. CondorC Задание ready scheduled Характеристики. и статус CE Характеристики и статус SE Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 18 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage Information Service Workload Manager Job Contr. CondorC LRMS управляет выполнением задания ready scheduled running Доступ к данным “через Грид” Computing Element EGEE-II INFSO-RI-031688 Storage Element Protvino, Introduction to Grid Computing, 27.06.2007 19 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage Файлы из Output Sandbox Information Service Workload Manager Job Contr. CondorC ready scheduled running Computing Element EGEE-II INFSO-RI-031688 Storage Element done Protvino, Introduction to Grid Computing, 27.06.2007 20 Запуск задания Enabling Grids for E-sciencE RLS UI Network Server RB узел Job Status submitted waiting RB storage Information Service Workload Manager edg-job-get-output <job-id> Job Contr. ready scheduled CondorC running Computing Element EGEE-II INFSO-RI-031688 Storage Element done Protvino, Introduction to Grid Computing, 27.06.2007 21 Запуск задания Enabling Grids for E-sciencE RLS UI Файлы из Output Sandbox Network Server RB узел Job Status submitted waiting RB storage Information Service Workload Manager Job Contr. CondorC ready scheduled running Computing Element Storage Element done cleared EGEE-II INFSO-RI-031688 Protvino, Introduction to Grid Computing, 27.06.2007 22