Пределы детализации и формулировка уравнений, описывающих поведение сплошной среды. Четверушкин Б.Н. Институт прикладной математики им. М.В. Келдыша РАН Grand Challenge – Экзафлопсные вычисления Рост производительности вычислительной техники – 1EXAFLOPS – 2018 г. Системы производительностью в 1PFLOPS будут достаточно распространены к 2015 г. Существует реальная потребность в высокопроизводительных вычислениях: нефтедобыча, экологически чистое горение, атомная и термоядерная энергетика, турбулентность, астрофизика В настоящее время расчетов использующих более 100 TFLOPS на задачу мало. Фактически существует 100 TFLOPS барьер. Причина: необходимость использования для высокопроизводительных вычислений принципиально новых моделей, алгоритмов программного обеспечения. Логически простые, но эффективные алгоритмы. Решение средствами фундаментальной науки «Физически» бесконечно малый объем содержит несколько десятков молекул. В воздухе нормальной плотности, характерный размер этого объема – размер молекулы см, – длина свободного пробега Уравнение теплопроводности – парадокс мгновенного распространения тепла Неявная схема – парадокс существует Явная схема –конечная скорость распространения Гиперболическая теплопроводность Кинетические схемы – квазигазодинамическая система 1983 г. Умножим на сумматорные инварианты и проинтегрируем по скоростям молекул Гиперболическая система - КГУ КГУ =N - S + O(Kn2) - Дюффорт Франкел Lattice Boltzmann схемы БГК модель Явные схемы. В роли длины свободного пробега выступает h Метод стабилизационных поправок Проинтегрируем это уравнение на отрезке и воспользуемся разложением в ряду Тейлора - внутреннее время При наличии достаточных вычислительных ресурсов степень детализации (величина h) определяется из реальных потребностей. Задачи фильтрации - несколько десятков зерен породы Уравнение Больцмана - вероятностный характер и объем диаметра содержать несколько десятков молекул должен Моделирование течения в каверне Мгновенные линии тока, Уровни давления Моделирование течения в каверне Сетка: 1024 блока, общее число ячеек сетки – 32 млн. Эффективность параллельного расчета при различном числе ускорителей (GPU) На СК «Ломоносов», МГУ им. М. В. Ломоносова. В расчете использовалось до 512 GPU (256 узлов gpu-сегмента) #GPUs 4 8 16 32 64 128 256 512 Time, s 414.8 209.8 110 62.9 33.9 16.6 8.7 4.76 4.0 7.9 15.1 26.4 48.9 100.0 190.7 348.6 100.0 98.9 94.3 82.4 76.5 78.1 74.5 68.1 SpeedUp Efficiency % Весь расчет проводился на GPU, CPU-ядра отвечают только за управление графическими процессорами. Данные располагаются целиком в памяти GPU Моделирование течения в каверне Сравнение производительности GPU и CPU Time, s SpeedUp 512 GPUs (256 Nodes) 512 CPU-cores (64 Nodes) 4.76 67.68 14.25 Таким образом, при использовании только CPU-ядер потребовалось бы в 3.5 раза больше узлов вычислительной системы – порядка 900 (больше 7000 ядер). Максимальный расчет проводился на 684 GPU (трехмерная каверна с подвижной крышкой). Размерность сетки ~400 млн. Hyperbolic Model of Multiphase Fluid Flow in Porous Medium S 2 S m div u 2 t t l c q div grad S 2 k u K grad p g 3D problem of tetrachloroethylene infiltration into the water-saturated soil (vertical central section) 0 1 p p0 S 1 p p pc S , S , α ( ) indicates the phase t h 3 2 Contaminant saturation field Комплекс программ для моделирования процессов в подземном пространстве на гибридных суперкомпьютерах • Задачи в прямоугольных областях, покрытых ортогональными расчетными сетками; • Логически простые алгоритмы на основе явных разностных схем; • Геометрический параллелизм, равномерная балансировка загрузки и обмен данными на внутренних границах подобластей; • Язык программирования C++, технологии CUDA и MPI ; • Модульная структура (вычислительные, коммуникационные и управляющие модули); • Расчеты 2D и 3D задач с двойной точностью; • Операционные системы Windows и Linux; • Возможность задействовать всю вычислительную мощность NUMA кластеров (любое число многоядерных CPU и GPU); • Оптимизация доступа к различным типам памяти, предпочтительное использование кэшируемой памяти. Эффективность параллельной реализации Расчеты 3D тестовой задачи просачивания на суперкомпьютере К-100 Количество расчетных точек – 15 миллионов Вычислительные устройства Ускорение 1 GPU по сравнению с 1 ядром CPU 108.5 1 GPU по сравнению с 1 CPU (6 ядер) 20.4 3 GPU по сравнению с 2 CPU (12 ядер) 14 Количество расчетных точек – 1.5 миллиарда Вычислительные устройства 80 GPU по сравнению с 80 ядрами CPU Ускорение 71.8 Заключение • Современные суперкомпьютеры в ряде случаев уже не ставят ограничений на степень детализации решения. • Существуют масштабы, меньше которых детализация не имеет смысла. • Дополнительные члены, как правило, выступают в роли физически обоснованных регуляризаторов, сглаживая нефизические эффекты, получающиеся при численном решении. • Конкретное значение коэффициентов, входящих в решение, важно лишь по порядку величины. • Учет минимальных размеров тесным образом связан с характером вывода уравнений сплошной среды, использующим представление конечного объема и дискретного описания среды.