Институт прикладной математики им. М.В.Келдыша Российской академии наук Cуперкомпьютер и вычислительный эксперимент М.В.Якобовский mail: lira@imamod.ru web: http://lira.imamod.ru Ратмино (Дубна) 2011 Задачи большого вызова (Kenneth G. Wilson, Cornell University, 1987) • Вычислительная газовая динамика: – Создание летательных аппаратов, эффективных автомобильных двигателей – Предсказания погоды, и глобальных климатических изменений – Оптимизация нефтедобычи, … • Молекулярная динамика: – Создание материалов с заданными свойствами – Разработка новых лекарственных соединений – Сверхпроводимость, Свойства веществ в экстремальных состояниях, … • Символьные вычисления – – – – • • Распознавание речи Компьютерное зрение Изучение сложных систем Автономные системы управления Квантовая хромодинамика и теория конденсированных сред Управляемый термоядерный синтез, Геном человека, … 2 http://en.wikipedia.org/wiki/Grand_Challenge Области применения многопроцессорных систем • Задачи большого вызова (HPC) • Обработка больших объемов данных – – – – Ускорители Секвенаторы Социальные сети, … Космическая фотосъёмка • Задачи реального времени – Железнодорожные станции – Управление технологическими процессами • Системы высокой надёжности – Бортовые системы 3 Транспьютерная материнская плата МТБ-8 Транспьютер T-800 • Сделан на основе языка Оккам 6 из 47 Транспьютерная материнская плата МТБ-8 Транспьютер Т800 и коммутатор С004 Электронный коммутатор Узел с общей памятью – два процессора Узел PowerXplorer Гибридная система Плата и 4 модуля Развитие суперкомпьютеров 1 Ef/s оп./с 1018 www.top500.org 1015 1 Pf/s 1 Tf/s 1 Gf/s 1 Mf/s ENIAC 1946 1012 ЭСЛ-база CDC Cray 1 6600 10 9 КМОП-база 10 6 Транзисторы IBM 701 (С)В.К.Левин 10 3 1953 1964 1975 1986 1997 2008 2019 гг. Производительность процессора и частота 14000 Производительность MFlops 12000 Частота, MHz 10000 8000 6000 4000 2000 0 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 17 Рост производительности одного процессора прекратился несколько лет назад 14000 Производительность MFlops Частота*4, MHz 12000 10000 8000 6000 • Одновременная обработка фиксированной и плавающей запятой • Кеш память • Конвейерная обработка • Гипертрединг 4000 2000 0 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 18 Компьютер пользователя на порядки слабее суперкомпьютера flops 2301 Tf Китай, Tianhe-1A USA, Jaguar 1 Pflops 281 Tf МСЦ 100 T 10 T 1T МГУ, Ломоносов МГУ, Чебышев МСЦ РАН 1,12 Tf 1,65 Tf МВС-1000М 100 G 60 Gf 10 G 1G 0,42 Gf 1995 2000 2005 2010 2015 г г. Workstation: 1/100 000 TOP 500 19 Производительность http://www.bbc.co.uk/news/10187248 20 Страна http://www.bbc.co.uk/news/10187248 21 Производитель http://www.bbc.co.uk/news/10187248 22 Процессор http://www.bbc.co.uk/news/10187248 23 ОС http://www.bbc.co.uk/news/10187248 24 Приложения http://www.bbc.co.uk/news/10187248 25 26 Ограничения Закон Амдаля S p 1% последовательных операций - сокращение времени не более чем в 100 раз 100% 90% 80% Эффективность 1 1 a a p 1 E p 1 a p 1 a=.0001 a=.001 a=.01 a - доля последовательных действий 70% 60% 50% 40% 30% 20% 10% 0% 0 250 500 750 1000 1250 1500 1750 2000 Число процессоров • • • • Ступор производительности последовательных систем Закон Амдаля Стена памяти Высокое энергопотребление традиционных процессоров 27 Особенности момента • Потребность в суперкомпьютерах высока • Эффективность использования суперкомпьютеров низка: – Не все последовательные алгоритмы адекватны параллельным вычислительным системам – Обмены, синхронизация, другие дополнительные операции снижают эффективность параллельной программы – Использование каждого ядра последовательной программой составляет проценты и доли процентов 28 Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2.66GHz) Реальная производительность, Mflops 600 500 400 300 200 100 0 1 240 479 718 957 1196 1435 1674 1913 2152 2391 2630 2869 3108 3347 3586 3825 4064 4303 4542 4781 5020 5259 5498 5737 5976 6215 6454 КПД процессора на задаче: 4% !!! (С) Вл.В.Воеводин Видеолекции (показ открытый, кроме 3х часов времени никаких требований) • В.В. Воеводин Суперкомпьютеры и КПД паровоза http://www.intuit.ru/video/70/ • В.К. Левин Суперкомпьютеры - этапы большого пути и перспективы http://www.intuit.ru/video/72/ 30 Особенности момента • При решении конкретной задач есть минимальный объем вычислений на процессорное ядро, определяющий максимальное число используемых в расчете ядер • За счет многопроцессорности сложно сокращать время решения, но можно повышать сложность решаемых задач - оперирование большими объёмами данных 31 Дозвуковая аэродинамическая труба Т-104, ЦАГИ • • • • Скорость потока 10–120 м/с Диаметр сопла 7 м Длина рабочей части 13 м Мощность вентилятора 28.4 МВт http://www.tsagi.ru/rus/base/t104 Суперкомпьютер СКИФ МГУ «ЧЕБЫШЁВ» • Пиковая производительность 60 TFlop/s • Мощность комплекса 0.72 МВт http://parallel.ru/cluster/skif_msu.html 32 Малые размеры объекта изучения 33 Условия, отличные от натурных 34 Суперкомпьютеры • Анализ и обработка результатов натурного эксперимента – важная, требующая методов высокой точности, ниша для вычислительного эксперимента • Суперкомпьютер не просто составляет конкуренцию натурному эксперименту, но: – Необходим для его проведения – Позволяет делать то, что натурный эксперимент делать не позволяет: – Виртуальные ядерные испытания – прогнозирование климата, космология, изучение свойств вещества в экстремальных условиях – Синтез лекарств – Прогнозирование экстремальных событий (допуски на волны) 35 «… если подобное можно сделать, то это будет научный подвиг!« (Ландау) • 1948 г., семинар у Игоря Васильевича Курчатова, вопрос о мощности взрыва. • Модель теоретического отдела Института физических проблем, под руководством академика Льва Давидовича Ландау, не допускающая аналитического решения. • Андрей Николаевич Тихонов предложил выполнить прямой численный расчёт. – Александр Андреевич Самарский – около тридцати девушек-вычислителей, выпускниц геодезического института. • 1949г., расхождение всего 30 %. • http://www.pseudology.org/science/SamarskyAA.htm 36 Суперкомпьютер «Ломоносов» пиковая производительность 414,42 ТФлопс реальная производительность 350,10 ТФлопс процессоры Intel EM64T Xeon X55xx (Nehalem-EP) 2930 МГц (11,72 ГФлопс) число процессорных ядер 35 360 общий объем оперативной памяти 54 312 ГБ коммуникационная сеть Infiniband операционная система Linux 37 Суперкомпьютер МГУ “Ломоносов” (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” Всего в системе 10т гликоля и 40т воды (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” Вес оборудования машзала – 57 т, СБЭ – 92т Суперкомпьютер МГУ “Ломоносов” Общая длина кабелей более 80 км (С)Вл.В.Воеводин Суперкомпьютер МГУ “Ломоносов” Т-Платформы: T-Blade2 • На 14-слойной системной плате расположены – 4 четырехъядерных процессора Intel® Xeon 5500, – 4 трехканальных модуля памяти DDR3 разработки «Т-Платформы» – интегрированные контроллеры системной сети QDR InfiniBand. 46 Суперкомпьютер МГУ “Ломоносов” Пиковая производительность Реальная производительность Эффективность Число вычислительных узлов Число процессоров Число процессорных ядер Типы вычислительных узлов Основной процессор Оперативная память Коммуникационная сеть Система хранения данных Операционная система Занимаемая площадь Энергопотребление вычислителя 420 Тфлопс 350 Тфлопс 83% 4 446 8 892 35 776 T-Blade2, T-Blade 1.1, PowerXCell 8i Intel Xeon 5570, 2.93 GHz 56,5 ТБайт QDR Infiniband 1,35 ПБайт Clusrtx T-Platforms Edition 252 м2 1.5 МВт (С)Вл.В.Воеводин 48 Kraken 49 50 Tianhe-1A, Китай • Национальный суперкомпьютерный центр в Тяньжине, 2,5 из 4.7 петафлоп. • 7168 графических процессоров NVIDIA Tesla M2050 и 14336 процессоров Intel Xeon, • Энергопотребление 4,04 Мегаватт • Tianhe-1A - система открытого доступа 51 Системы с неоднородным доступом к памяти (NUMA) SGI Altix UV (UltraVioloet) 1000 256 Intel® Xeon® 4-, 6- or 8-core 7500 series (2048 cores) 16 TB памяти Interconnect Speed 15 ГБ/с, 1мкс http://www.sgi.com/products/servers/altix/uv/ Москва, 2010 г. Параллельное программирование с OpenMP: Введение © Бахтин В.А. 52 Скиф Аврора 24 TFLOPS http://www.3dnews.ru/editorial/skif_aurora_chelyabinsk/index2.htm Алексей Дрожжин СКИФ Аврора ЮУрГУ: суровый Челябинский суперкомпьютер 53 Россия в top500 • • • • • • • • TOP500: 12. Ломоносов (НИВЦ МГУ) 38. МВС-100К (МСЦ РАН — Межведомственный Суперкомпьютерный Центр РАН) 107. СКИФ МГУ «Чебышёв» (НИВЦ МГУ) (37-е место в июне 2008 года) 138. IBM BladeCenter HS22 Cluster (банковский сектор) 181. IBM xSeries x3650M2 Cluster (правительственный сектор) 320. HP Cluster Platform 3000 BL460c (РНЦ «Курчатовский институт») (118-е место в ноябре 2008 года) 377–382. IBM Blue Gene/P (факультет ВМК МГУ) (126–130-е место в ноябре 2008 года) 450. СКИФ-Аврора (ЮУрГУ — Южно-Уральский государственный университет) 55 56 57 58 top500.org 59 Экзафлопсный барьер: проблемы и решения Виктор Горбунов, Леонид Эйсымонт Открытые системы :: Платформы, http://www.osp.ru/os/2010/05/13003034/ 60 Архитектура CUDA «Fermi» • Более трех миллиардов транзисторов и 512 ядер CUDA • http://itc.ua/articles/nvidia_geforce_gtx_480_chast_1_arhitektura_fermi_45158 61 Компьютеры с реконфигурируемой архитектурой (http://fpga.parallel.ru) МОДУЛЬ АЛЬКОР Число ПЛИС Vertex V, 11 млн. вентилей, шт. 16 Число элементарных процессоров 512 Объем памяти, Гбайт 2 Производительность, Гфлопс 200 Частота платы, МГц330 Частота информационных обменов, МГЦ 1200 Габариты, мм 6U Потребляемая мощность 225 Вт 63 Суперкомпьютерный комплекс МГУ (суперкомпьютер с реконфигурируемой архитектурой) 5 стоек x 4 блока x 4 модуля = 1280 Xilinx Virtex-5, - (n Tflops) Энергопотребление – 30 КВт на всю систему, Разработчик – НИИ МВС ЮФУ, г.Таганрог. Классы систем • • • • Распределенная память Двусторонние обмены Односторонние обмены Общая память – UMA – ccNUMA – NUMA • Grid • Мультитредовые • ПЛИС 65 Упорядочить элементы массива • • • • O(n2) O(n log n) O(n) O(?) 66 Упорядочить элементы массива за 1 шаг 010 001 И И И ИЛИ И ИЛИ Якобовский М.В. проф., д.ф.-м.н., зав. сектором «Программного обеспечения многопроцессорных систем и вычислительных сетей» Института прикладной математики им. М.В.Келдыша Российской академии наук mail: lira@imamod.ru http://lira.imamod.ru 68