Как стало известно из телеграм-канала, посвященного микропроцессору Эльбрус, инженерный образец нового микропроцессора Эльбрус 16С показал на бенчмарке MP MFLOPS производительность более 1 TFLOPS на вычислениях с плавающей точкой в режиме одинарной точности. Замеры делал широко известный в узких кругах эксперт ENTITYFX.
Замеры скорости вычислений производились на тестовой материнской плате Панель 1Э16С-uA, на которой размещен один микропроцессор Эльбрус 16С, работающий на частоте 2 Ггц. Данный процессор серверный, и его использование планируется в стандартной конфигурации материнской платы на четыре процессора, как это сделано в отечественных серверах с четырьмя Эльбрус 8С (устаревшая модель разработки 2014 года, которую в канун 2022 года тестировал Сбербанк) и Эльбрус 8СВ (текущая модель).
Результаты замера следующие:
16 CPUs Available
##############################################
64 Bit MP SSE MFLOPS Benchmark 1, 16 Threads,
Thu Jan 20 22:34:05 2022
Test 4 Byte Ops/ Repeat Seconds MFLOPS First
Words Word Passes Results
Data in&out 102400 2 40000 0.02239 365868 0.48145
Data in&out 1024000 2 4000 0.01897 431731 0.89130
Data in&out 10240000 2 400 0.83380 9825 0.98812
Data in&out 102400 8 40000 0.05206 629394 0.63532
Data in&out 1024000 8 4000 0.04923 665577 0.93332
Data in&out 10240000 8 400 0.88938 36843 0.99285
Data in&out 102400 32 40000 0.13484 972042 0.38510
Data in&out 1024000 32 4000 0.12981 1009723 0.83345
Data in&out 10240000 32 400 0.85865 152649 0.98103
End of test Thu Jan 20 22:34:08 2022
Следует понимать, что тест MP MFLOPS - это универсальный тест вычислений с плавающей точкой, не заточенный на конкретную архитектуру процессора. Именно поэтому в данном тесте происходит тестирование в различных режимах: с различным размещением исходных данных, с различным количеством итераций. Различные процессоры показывают различную производительность при разных условиях, и данный тест показывает, какой режим вычислений самый "удобный" для конкретной модели процессора.
Если посмотреть на характеристики Эльбрус 16С, то можно увидеть заявленную производительность в 1,5 TFLOPS:
Может возникнуть вопрос: почему же тест MP MFLOPS показал 1 TFLOPS вместо заявленных 1,5 TFLOPS? Дело в том, что 1,5 TFLOPS - это производительность при вычислениях, полностью загружающих все широкое командное слово Эльбруса, при условии использования всех 6 арифметическо-логических устройств (АЛУ) каждого ядра. Чтобы организовать такие вычисления, необходимо специально подготовить задачу под данный процессор, причем необходимо учитывать, что не все вычислительные задачи можно "утрамбовать" в рамки, заданные железом процессора. Но если задача укладывается в вышеуказанные условия, тогда темп вычислений и получится равным 1,5 TFLOPS. Очевидно, что универсальный тест не может создать такие условия вычислений, поэтому в нем получается замерить производительность вычислений "средней" задачи с плавающей точкой. В любом случае, 1 TFLOPS на универсальном тесте - это очень хороший результат.
Для понимания, вот небольшая таблица CPU и GPU с указанием их пиковой производительности:
Intel Core 2 Duo (2006) — 0.019 ТФлопс;
Intel Core i7-4930K (2013) — 0.163 ТФлопс;
AMD Ryzen 7 3700X (2019) — 0.460 ТФлопс;
Sony PlayStation 4 (2013) — 1,84 ТФлопс;
GeForce RTX 2080 Ti (2018) — 13,5 ТФлопс (одинарная точность);
И, глядя на эту таблицу, может возникнуть еще один вопрос: а почему тогда при таких выдающихся показателях, Сбербанк забраковал серверы с Эльбрусом внутри, заявив, что они отстают от процессоров Intel в 3-4 раза? Ответ в том, что архитектура Эльбрус - это современное развитие "числодробилок", которые затачиваются именно на вычисления с плавающей точкой с большими заранее подготовленными массивами данных - матрицами (что и показал тест производительности). Однако в банковских задачах такие вычисления с плавающей точкой занимают очень незначительное место. Гораздо важнее обеспечение работы операционной системы, баз данных, виртуальных машин JAVA, веб-серверов, скриптовых языков и т.д., а в этих задачах вычисления с плавающей точкой практически не используются. Эти задачи подразумевают быстрое выполнение множества мелких команд процессора, с которыми естественным образом хорошо справляются RISC-based процессоры за счет высокой тактовой частоты и динамического предсказателя переходов. Микропроцессоры с VLIW-архитектурой тоже без проблем выполняют данные задачи, но не так эффективно, так как имеют другое внутреннее устройство. Кроме того, Сбербанк тестировал процессор Эльбрус 8С разработки 2014 года, построенный на устаревших технологиях - один только DDR3 чего стоит, и странно было бы ожидать хороший результат по меркам конца 2021 года (почему на тестирование отдали устаревшую модель - это отдельный вопрос).
В любом случае, администрация Webhamster.Ru поздравляет разработчиков МЦСТ с очередным важным достижением. Ждем появления суперкомпьютера с Эльбрусами на борту в первых строчках рейтинга TOP 500!