Было сильное желание провести серию стандартных тестов машинного обучения, подобных тестам SPEC для процессоров, чтобы сравнить относительные решения. В течение последних двух лет MLCommons, открытый инженерный консорциум, обсуждал и раскрывал свои эталонные тесты MLPerf для обучения и вывода, при этом ключевые члены консорциума публикуют контрольные цифры по мере того, как серия тестов уточняется. Сегодня мы видим полный запуск MLPerf Inference v1.0 вместе с ~ 2000 результатами в базе данных. Наряду с этим запуском также раскрывается новый метод измерения мощности MLPerf для предоставления дополнительных метаданных по результатам этих тестов.

Сегодня все результаты сосредоточены на умозаключении — способности обученной сети обрабатывать входящие невидимые данные. Тесты построены вокруг ряда областей машинного обучения и моделей, пытающихся представить более широкий рынок машинного обучения, точно так же, как SPEC2017 пытается уловить общие рабочие нагрузки ЦП. Для MLPerf Inference это включает:

  • Классификация изображений на Resnet50-v1.5
  • Обнаружение объектов с помощью SSD-ResNet34
  • Сегментация медицинских изображений с помощью 3D UNET
  • Преобразование речи в текст с RNNT
  • Обработка языков с помощью BERT
  • Механизмы рекомендаций с DLRM

Результаты могут быть отправлены в несколько категорий, таких как Datacenter, Edge, Mobile или Tiny. Для Datacenter или Edge они также могут быть представлены в категории «закрытые» (от яблок к яблокам с теми же эталонными фреймворками) или в категорию «открытые» (все идет, максимальная оптимизация). Представленные метрики зависят от одного потока, нескольких потоков, ответа сервера или автономного потока данных. Для тех, кто следит за прогрессом MLPerf, набор тестов такой же, как и для версии v0.7, за исключением того, что теперь требуется, чтобы вся DRAM была с кодом коррекции ошибок (ECC), а устойчивое состояние измерялось с минимальным 10-минутным запуском. Результаты выполнения должны быть объявлены для используемых типов данных (int8, fp16, bf16, fp32). Тесты предназначены для работы на ЦП, графическом процессоре, ПЛИС или выделенном ИИ-кристалле.

Читайте также:
Lenovo представила крупнейший в мире суперкомпьютер


NVIDIA A100

Компании, которые до сих пор отправляли результаты в MLPerf, представляют собой смесь поставщиков, OEM-партнеров и членов MLCommons, таких как Alibaba, Dell, Gigabyte, HPE, Inspur, Intel, Lenovo, NVIDIA, Qualcomm, Supermicro и Xilinx. У большинства этих игроков есть большие системы с несколькими сокетами и конструкции с несколькими GPU, в зависимости от того, на какой рынок они нацелены, чтобы продвигать их с результатами. Например, у Qualcomm есть система, приводящая к категории центров обработки данных с использованием двух EPYC и 5 карт Cloud AI 100, но она также отправила данные в категорию Edge с помощью комплекта разработки AI, включающего Snapdragon 865 и версию своего Cloud AI. аппаратное обеспечение.


Qualcomm Cloud AI 100

Крупнейший участник этого запуска, Krai, разработал автоматизированный набор тестов для MLPerf Inference v1.0 и запустил набор тестов на ряде недорогих периферийных устройств, таких как Raspberry Pi, NVIDIA Jetson и оборудование RockChip, все с и без ускорения GPU. В результате Край предоставляет более половины всех результатов (1000+) в сегодняшнем транше данных. Сравните это с Centaur, который предоставил несколько точек данных для своего будущего сопроцессора CHA AI.

Поскольку не каждая система должна выполнять все тесты, не существует общего числа тестов, которые можно было бы предоставить. Но взяв одну из точек данных, мы можем увидеть масштаб представленных на данный момент результатов.

В ResNet50 с точностью 99% запускается автономный набор данных:

  • Платформа Cloud Sinian от Alibaba (два Xeon 8269CY + 8x A100) набрала 1077800 выборок в секунду в INT8.
  • Raspberry Pi 4 от Krai (1x Cortex A72) набрал 1,99 выборки в секунду в INT8
Читайте также:
Электронные девайсы охлаждает алмаз

Очевидно, что определенное оборудование лучше справится с языковой обработкой или обнаружением объектов, и все точки данных можно увидеть на страницах результатов MLCommon.

Мощность вывода MLPerf

Новое в версии 1.0 — это метаданные измерения мощности. В сотрудничестве с SPEC, MLPerf принял промышленный стандартный интерфейс измерения мощности SPEC PTDaemon в качестве дополнительной надстройки данных для любого представления. Это показатели системного уровня, а не просто уровень микросхемы, что означает, что дополнительные контроллеры, хранилище, память, подача питания и их эффективность учитываются при измерении представленных данных.

MLPerf представляет пример сервера Gigabyte с 5 картами Qualcomm Cloud AI 100, которые в среднем дают 598 Вт во время автономного теста для 1777,9 запросов в секунду. Отправителям разрешается указывать дополнительные данные о мощности в деталях отправки, такие как мощность процессора, однако только мощность на уровне системы будет частью официального процесса отправки.

Около 800 из представленных точек данных в сегодняшнем списке имеют данные о мощности. Опять же, большинство из них из края.

Полные результаты можно найти на Сайт MLCommons.

Связанное чтение