Оценка предполагаемой производительности 64

реклама
УДК 621.382(06) Микроэлектроника
В.Н. ПОДОБАЕВ, П.Н. ДЕРГАЧЁВ, П.Н. ОСИПЕНКО
НИИ системных исследований РАН, Москва
ОЦЕНКА ПРЕДПОЛАГАЕМОЙ ПРОИЗВОДИТЕЛЬНОСТИ
64-РАЗРЯДНОГО RISC-ПРОЦЕССОРА К3 С ПОМОЩЬЮ
ПОТАКТОВОЙ ПОВЕДЕНЧЕСКОЙ С-МОДЕЛИ
Описывается измерение производительности процессора К3 с помощью поведеченской С-модели на основе тестов Dhrystone, Flops, Matrix Multiply. Приведены
общие результаты сравнительно с процессором К2. Показан вклад в производительность новых архитектурных решений, реализованных в К3.
В качестве начального этапа проектирования 64-разрядного RISCпроцессора К3 в НИИСИ РАН была разработана потактовая поведенческая модель процессора, предназначенная как для отладки программного
обеспечения процессора, так и для оценки его производительности и эффективности некоторых архитектурных решений, применяемых в К3 [1].
Измерение производительности осуществлялось на основе общеизвестных тестов производительности, таких как Dhrystone 2.1, Flops 2.0,
Matrix Multiply 1.0 [2]. Для сравнения такие же измерения были проведены на модуле с 32-разрядным микропроцессором К2 (изготовленным в
НИИСИ РАН) – предшественником К3. Измерения проводились в максимально равных условиях для обоих процессоров. Для С-модели К3 были
установлены тактовые частоты ядра – 100 МГц, шины – 33 МГц. Модуль
с процессором К2 работал на частотах ядра/шины – 75/25 МГц, и полученные результаты приводились к 100 МГц для корректного сравнения
производительностей.
Тест Dhrystone является целочисленным тестом производительности.
Его выполнение происходит полностью в кэшах, поэтому данный тест
определяет в основном производительность целочисленного конвейера.
На тесте Dhrystone процессор К3 показал производительность около 110
VAX MIPS. Такую же производительность (на приведённой частоте) показал К2, что означает, что по целочисленным вычислением К3 не уступает К2.
Тест Flops является тестом производительности конвейера сопроцессора вещественной арифметики. Как и Dhrystone, он выполняется полностью в кэшах. На данном тесте К3 показал среднюю производительность
47 MFlops (что на 23% лучше К2) и пиковую производительность 53
MFlops. Преимущество К3 над К2 объясняется тем, что К3 может загру______________________________________________________________________
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 1
106
УДК 621.382(06) Микроэлектроника
жать 64-разрядные слова (числа двойной точности) за 1 такт, а также система команд К3 содержит новые команды умножения с накоплением
(MADD). Эти данные были получены при использовании обычного (неоптимизирующего) компилятора. Для исследования возможностей программной оптимизации код первой части теста Flops был оптимизирован
вручную, и процессор К3 показал производительность 81 MFlops.
Тест умножения матриц является тестом производительности сопроцессора вещественной арифметики. При умножении матриц небольшого
объёма (помещающихся в кэш) тестируется производительность конвейера сопроцессора. При умножении матриц большого объёма большую роль
начинает играть пропускная способность системной шины. На больших
матрицах (160х160) К3 показал среднюю производительность 18 MFlops
(в 2 раза лучше К2) и пиковую – 50 MFlops. На маленьких матрицах
(20х20) средняя производительность К3 – 30 MFlops (в 2 раза лучше К2) и
пиковая – 65 MFlops. Выигрыш К3 объясняется в 2 раза большей шириной
системной шины, наличием 64-разрядных команд загрузки и команд
MADD. При ручной оптимизации кода обычного алгоритма умножения
матриц удалось повысить производительность в 3 раза. Основной вклад в
выигрыш внесла конвейеризация циклов с уменьшением зависимости по
данным. Удалось показать вклад в производительность механизма DualIssue (2 команды за такт – целочисленная/вещественная), реализованном в
К3 – до 30%.
На основе результатов моделирования С-модели К3 был оценён вклад
в производительность новых архитектурных решений, реализованных в
К3:
 Введение команд MADD: +30%
 Введение политики кеширования Write-back: +15%
 Введение механизма Dual-Issue: +30%
 Увеличение разрядности шины до 64, увеличение объёма кешей до 16 кБ: +50%
 Применение оптимизирующего компилятора: от +50% до
+100%.
Нужно ещё раз отметить, что сравнение процессоров К2 и К3, производилось на одинаковой частоте. Если учесть, что частота К3 будет выше
частоты К2 на 50%, то К3 будет в 2-3 раза производительней К2.
Список литературы
1. Подобаев В.Н. Разработка поведенческой С-модели 64-х разрядного RISCмикропроцессора К3. (Готовится к публикации в сборнике НИИСИ РАН 2004).
2. The Collection of Benchmarks by Al Aburto. – http://www2.cs.uh.edu/~ilp/bench.html.
______________________________________________________________________
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 1
107
УДК 621.382(06) Микроэлектроника
______________________________________________________________________
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 1
108
Скачать