Сравнение скорости расчета задач на процессорах Intel Оглавление ЧАСТЬ 1. Сравнение скорости счета на процессорах Intel разного поколения1 1. Описание задачи сравнения ............................................................................. 1 Методика сравнения скорости счета ................................................................. 1 2. Внешнее обтекание автомобиля ...................................................................... 2 Постановка задачи............................................................................................... 2 Результаты тестирования ................................................................................... 3 3. Истечение из суживающегося сопла............................................................... 5 Постановка задачи............................................................................................... 5 Результаты тестирования ................................................................................... 5 ВЫВОДЫ ................................................................................................................. 8 ЧАСТЬ 2. Сравнение скорости счета на кластере с инфраструктурой сети стандарта Ethernet и стандарта Infiniband ............................................................. 9 1. Описание задачи сравнения ............................................................................. 9 2. Результаты расчета ........................................................................................... 9 ЧАСТЬ 1. Сравнение скорости счета на процессорах Intel разного поколения 1. Описание задачи сравнения Сравнивались процессоры: Intel Xeon E5-2697v2 (12 ядер, 2,7 GHz) и Intel Xeon E5-2660v3 (10 ядер, 2,6/ 3.3 GHz) – представитель платформы нового поколения. Каждая из предоставленных на тестирование машин – двухпроцессорная, гипер-трейдинг отключен, турбо-ускорение отключено. Цель работы – определить ускорение счета задачи в ПК FlowVision на процессорах нового поколения. Методика сравнения скорости счета Для сравнения при варьировании одного из параметров системы и сохранении прочих равными предложены следующие схемы сравнения: Двухпроцессорный режим (тест системы процессор + связь): o при полной загрузке процессоров; o при одинаковом количестве ядер. Однопроцессорный режим (тест процессоров отдельно): o при полной загрузке процессоров; o при одинаковом количестве ядер. Следует отметить, что предоставленные машины имели различное количество ядер на процессорах (12 на E5-2697v2 и 10 на E5-2660v3) и разную частоту, что связано с различием классов машин – «топовая» модель у предыдущей версии и средняя модель из семейства новых процессоров. Особенности подготовки проектов FV и их запуска при сравнении скорости счета: Расчет должен происходить с одинаковыми настройками и одного и того же шага по времени. Солверная часть проекта при сравнении была подготовлена заранее, сохранена и запущена каждый раз на продолжение счета, начиная с одного и того же расчетного шага. Запуск на продолжение исключает первые шаги расчета, на которых производится построение сетки и пр. и которые обычно существенно дольше по времени счета, чем последующие. Для задачи со сверхзвуковым соплом необходимо также добиться стационарного решения, так как практика показывает, что в таких задачах время счета может существенно меняться от шага к шагу в нестационарном режиме (при «запуске» сопла). Рекомендуется для сравнения брать 10-15 расчетных шагов, при этом исключая порядка 10 первых шагов после запуска на расчет. Это связано с тем, что происходит сбор информации после загрузки проекта и запуска на расчет и время счета может отличаться от последующих. Таким образом, каждый тест должен содержать 20-25 рассчитанных шагов интегрирования. При запуске достаточно больших по размеру задач рекомендуется перезагружать машину перед каждым тестом. 2. Внешнее обтекание автомобиля Постановка задачи Моделируется внешнее обтекание автомобиля на скорости 100 км/ч. Цели исследования: • Определение аэродинамических сил, действующих на автомобиль • Построение картины течения и выявление зон наибольшего сопротивления Моделируемые физические процессы: • Движение несжимаемой среды – воздуха описывается уравнением Навье-Стокса • Уравнения стандартной k-e модели турбулентности Метод решения: Численное интегрирование уравнений проводится с использованием неявной схемы решения 2-го порядка точности с шагом 0,05 с. Расчетная сетка: Содержит 8 218 тыс. ячеек. Минимальный размер ячейки вблизи поверхности автомобиля – 3 см. Сетка строилась без адаптации. Рис.1 – Расчетная область Рис.2 – Расчетная сетка Результаты тестирования Таблица 1 – Относительная скорость счета 2 процессорный режим Процессор 2х10 2х8 2х6 Intel Xeon E5-2660v3 (Haswell-EP) x 2 (10 ядер, 2,6/ 3.3 GHz) 1,60 1,47 1,48 Intel Xeon E5-2697v2 (Ivy Bridge-EP) x 2 (12 ядер, 2,7 GHz) 1 1 1 Тестирование при максимальной загрузке каждой из машин (режим 2х12 - E5-2697v2 и режим 2х10 - Intel Xeon E5-2660v3) показало почти то же ускорение на новом процессоре. В однопроцессорном режиме ускорение получилось меньше, чем в двухпроцессорном. Таблица 2 – Относительная скорость счета при максимальной загрузке Процессор 2 процессорный режим 1 процессорный режим Intel Xeon E5-2660v3 1,61 1,27 1,39 (Haswell-EP) Intel Xeon E5-2697v2 1 1 (Ivy Bridge-EP) Intel Core i7-3820 (3.6 1 GHz) 1x4 Среднее время счета одного шага для каждого теста показано на рис.3. Рис.3 – Среднее время счета одного расчетного шага в зависимости от числа загруженных ядер (запуск на процессоре 2-й версии - синие маркеры, 3-й версии - красные маркеры; розовый маркер – однопроцессорная машина Intel Core i7-3820) 3. Истечение из суживающегося сопла Постановка задачи Проводится моделирование течений в 2D соплах. Осесимметричная постановка, угол сопла 25°, отношение давлений NPR=5. Скорость звука в струе достигает М=3. Цели исследования: • Определение коэффициентов расхода и тяги сопла • Построение картины течения • Сравнение полученных данных с экспериментальными и статистическими данными Моделируемые физические процессы: • Движение несжимаемой среды – воздуха описывается уравнением Навье-Стокса • Уравнение энергии • Уравнения стандартной k-e модели турбулентности Метод решения: Численное интегрирование уравнений проводится с использованием неявной схемы решения 2-го порядка точности с шагом CFL=100. Число расчетных ячеек: 200 тыс. Рис.4 – Истечение из конвергентного сопла Результаты тестирования Для каждого режима запуска (2 процессорный режим и 1 процессорный) построена кривая ускорения –относительной скорости счета – в зависимости от числа ядер. Относительная скорость счета показывает, во сколько раз происходит увеличение средней скорости счета задачи относительно скорости на одном ядре: Где – среднее время счета одного шага на 1-м ядре, время счета на i ядрах. – среднее Рис.5 – Кривые ускорения Для каждого из вариантов запуска (2 процессорный режим и 1 процессорный) показана зависимость ускорения от числа расчетных ячеек, приходящихся на одно ядро (см. ри.6). На процессоре предыдущего поколения возникало снижение ускорения, если число ячеек на ядро становилось ниже 35 тыс. (однопроцессорный режим) или меньше 10 тыс. (двухпроцессорный режим). Рис.6 – Зависимости относительной скорости счета от числа ячеек на ядро Увеличение скорости счета на данной задаче принимает максимальное значение 1,87 в режиме запуска 2х8. Стоимость единицы производительности ПО в зависимости от количества ядер Таблица 3 – Относительная скорость счета 2 процессорный режим Процессор 2х10 2х8 2х6 2х4 2х2 2х1 Intel Xeon E5-2660v3 (Haswell-EP) x 2 1,80 (10 ядер, 2,6/ 3.3 GHz) 1,87 1,69 1,59 1,48 1,37 Intel Xeon E5-2697v2 (Ivy Bridge-EP) x 2 (12 ядер, 2,7 GHz) 1 1 1 1 1 1 1 процессорный режим 1х10 Intel Xeon E5-2660v3 (Haswell-EP) x 2 1,75 (10 ядер, 2,6/ 3.3 GHz) Intel Xeon E5-2697v2 (Ivy Bridge-EP) x 2 1 (12 ядер, 2,7 GHz) 1х8 1х6 1х4 1х2 1х1 1,49 1,18 1,02 0,88 1,11 1 1 1 1 1 ВЫВОДЫ Процессор нового поколения Intel Xeon v3 считает быстрее процессора предыдущего поколения в 1,61 раз (максимальное ускорение в двухпроцессорном режиме на большой задаче) Наибольшее ускорение показали тесты в двухпроцессорном режиме работы каждой из машин Кривые ускорения на процессоре Intel Xeon v3 протекает выше в режиме запуска больше 6 ядер и находится ближе к линейному (идеальному) ускорению Наибольшее увеличение скорости счета на малой задаче (200 тыс. ячеек) составляет 1,87 в режиме запуска 2х8. ЧАСТЬ 2. Сравнение скорости счета на кластере с инфраструктурой сети стандарта Ethernet и стандарта Infiniband 1. Описание задачи сравнения Сравнивалась скорость расчета задачи на кластере из двух узлов с сетью Ethernet и Infiniband. Каждый из узлов расчетного кластера представляет собой двухпроцессорную машину Intel Xeon E5-2650v2 (8 ядер, 2,6 GHz), гипер-трейдинг отключен, турбо-ускорение отключено. Цель работы – сравнить время счета задачи в ПК FlowVision при использования сети Ethernet 1 Gb и InfiniBand MCX353A. Методика сравнения – аналогичная методике, представленной в Части 1 Описание задачи сравнения. Расчетная задача – внешнее обтекание автомобиля (описание представлено в Части 1). 2. Результаты расчета На рис.1 показан сводный график - зависимость среднего времени счета задачи от числа ядер. Оранжевыми и желтыми треугольниками показаны результаты на тестируемом кластере. Среднее время счета одного шага, сек 2 500 Intel Core i7-3820 (3.6 GHz) (1x4) 2 000 Intel Xeon E52660v3 1х10 1 500 Intel Xeon E52697v2 х2 1 000 Intel Xeon E52697v2 1х12 Intel Xeon E52660v3 х2 Intel Xeon E52650v2 (2.6 GHz) 2x8 Intel Xeon E52650v2 (2.6 GHz) Ethernet 500 Intel Xeon E52650v2 (2.6 GHz) Infiniband 000 Основной Основной Основной Основной Основной Основной Основной Основной Число ядер Рис.1 – Среднее время счета задачи Ускорение, полученное при использовании связи Infiniband, в рамках данной задачи составило 42% при расчете на кластере из двух узлов. Таблица 1 – Относительная скорость счета Тип Infiniband (2*(2*8)) Ethernet (2*(2*8)) Один узел (2*8) Infiniband (2*(2*8)) 1 1,422 4,19 Ethernet (2*(2*8)) - 1 2,95 Один узел (2*8) - - 1