Начав очередную насыщенную весеннюю конференцию по технологиям GPU для NVIDIA, сегодня утром разработчик графики и ускорителей объявляет, что они снова собираются разработать свой собственный процессор на базе Arm. Названный Грейс — в честь Грейс Хоппер, пионера компьютерного программирования и контр-адмирала ВМС США — ЦП — это последняя попытка NVIDIA более полно вертикально интегрировать свой аппаратный стек, предлагая высокопроизводительный ЦП наряду с обычными графическими процессорами. По словам NVIDIA, чип разрабатывается специально для крупномасштабных рабочих нагрузок нейронных сетей и, как ожидается, станет доступным в продуктах NVIDIA в 2023 году.

До того, как чип будет готов, осталось два года, и сейчас NVIDIA ведет себя довольно скромно. Компания предлагает только ограниченные детали для чипа — например, он будет основан на будущей итерации ядер Arm Neoverse, — поскольку сегодняшнее объявление немного больше сосредоточено на будущей модели рабочего процесса NVIDIA, чем на скорости и потоках. По крайней мере, компания заранее дает понять, что, по крайней мере, на данный момент, Grace — это внутренний продукт NVIDIA, который будет предлагаться как часть их более крупных серверных предложений. Компания не нацеливается напрямую на рынок серверов Intel Xeon или AMD EPYC, но вместо этого они создают собственный чип, дополняющий предложения своих графических процессоров, создавая специализированный чип, который может напрямую подключаться к их графическим процессорам и помогать обрабатывать огромный, триллион параметров ИИ. модели.

Читайте также:
Google решил изменить SMS
Сравнение спецификаций процессоров NVIDIA
милость Кармель Денвер 2
Ядра ЦП ? 8 2
Архитектура ЦП Новое поколение Arm Neoverse Кастомная рука v8.2 Пользовательская рука v8
Пропускная способность памяти > 500 ГБ / сек
LPDDR5X
(ECC)
137 ГБ / сек
LPDDR4X
60 ГБ / сек
LPDDR4
Интерфейс GPU-CPU > 900 ГБ / сек
NVLink 4
PCIe 3 PCIe 3
CPU-to-CPU интерфейс > 600 ГБ / сек
NVLink 4
N / A N / A
Производственный процесс ? TSMC 12 нм TSMC 16 нм
Год выпуска 2023 г. 2018 г. 2016 г.

В более широком смысле, Grace призвана заполнить дыру размером с ЦП в предложениях серверов искусственного интеллекта NVIDIA. Графические процессоры компании невероятно хорошо подходят для определенных классов рабочих нагрузок глубокого обучения, но не все рабочие нагрузки связаны исключительно с графическим процессором, хотя бы потому, что для поддержания питания графических процессоров требуется центральный процессор. Текущие серверные предложения NVIDIA, в свою очередь, обычно основаны на процессорах AMD EPYC, которые очень быстры для общих вычислительных целей, но не имеют таких высокоскоростных операций ввода-вывода и оптимизации глубокого обучения, которые ищет NVIDIA. В частности, NVIDIA в настоящее время испытывает затруднения из-за использования PCI Express для соединения CPU-GPU; их графические процессоры могут быстро обмениваться данными между собой через NVLink, но не с центральным процессором или системной оперативной памятью.

Решение проблемы, как это было еще до Grace, заключается в использовании NVLink для связи CPU-GPU. Ранее NVIDIA работала с фондом OpenPOWER, чтобы включить NVLink в POWER9 именно по этой причине, однако эти отношения, похоже, постепенно исчезают, поскольку популярность POWER ослабевает, а POWER10 пропускает NVLink. Вместо этого NVIDIA идет своим путем, создавая серверный процессор Arm с необходимой функциональностью NVLink.

Читайте также:
Землян ждет невероятное космическое зрелище

Конечным результатом, по мнению NVIDIA, станет высокопроизводительный центральный процессор с высокой пропускной способностью, предназначенный для работы в тандеме с серверными графическими процессорами NVIDIA будущего поколения. Когда NVIDIA говорит о соединении каждого графического процессора NVIDIA с процессором Grace на одной плате — аналогично сегодняшним мезонинным картам — не только производительность процессора и системная память увеличиваются с увеличением количества графических процессоров, но и окольными путями Grace будет служить своего рода сопроцессор с графическими процессорами NVIDIA. Это, как минимум, решение проблемы NVIDIA, которое не только улучшает их производительность, но и дает им противодействие, если более традиционно интегрированные AMD или Intel попробуют какую-то похожую игру слияния CPU + GPU.

К 2023 году у NVIDIA будет до NVLink 4, который будет предлагать не менее 900 ГБ / с пропускной способности между CPU и GPU и более 600 ГБ / с между процессорами Grace. Что критически важно, это больше, чем пропускная способность памяти ЦП, а это означает, что графические процессоры NVIDIA будут иметь согласованную связь кеша с ЦП, которая может обращаться к системной памяти с полной пропускной способностью, а также позволяет всей системе иметь один адрес общей памяти. космос. NVIDIA описывает это как балансировку пропускной способности, доступной в системе, и они не ошибаются, но это еще не все. Наличие встроенного ЦП является основным средством увеличения объема памяти, которую графические процессоры NVIDIA могут эффективно использовать и получать доступ, поскольку объем памяти по-прежнему является основным ограничивающим фактором для больших нейронных сетей — вы можете эффективно запустить сеть размером с ваш пул локальной памяти.

Читайте также:
Reserve Strap продлит время работы Apple Watch
Пропускная способность межсоединения CPU и GPU
милость EPYC 2 + A100 EPYC 1 + V100
Интерфейс GPU-CPU > 900 ГБ / сек
NVLink 4
~ 32 ГБ / сек
PCIe 4
~ 16 ГБ / сек
PCIe 3
CPU-to-CPU интерфейс > 600 ГБ / сек
NVLink 4
304 ГБ / сек
Infinity Fabric 2
152 ГБ / сек
Infinity Fabric

И эта стратегия, ориентированная на память, также отражена в дизайне пула памяти Grace. Поскольку NVIDIA помещает процессор в общий пакет с графическим процессором, они собираются разместить оперативную память рядом с ним. Модули графического процессора, оснащенные Grace, будут включать в себя объем памяти LPDDR5x, который будет определен позднее, при этом NVIDIA планирует пропускную способность памяти не менее 500 ГБ / с. Помимо того, что в 2023 году это будет вариант неграфической памяти с самой высокой пропускной способностью, NVIDIA рекламирует использование LPDDR5x как средство повышения энергоэффективности из-за того, что эта технология ориентирована на мобильные устройства и имеет очень короткие длины трассировки. И, поскольку это серверная часть, память Grace также будет с поддержкой ECC.

Что касается производительности процессора, то на самом деле это та часть, о которой NVIDIA сказала меньше всего. Компания будет использовать следующее поколение процессорных ядер Arm Neoverse, где первоначальный дизайн N1 уже привлекает внимание. Но кроме этого, все, что компания говорит, заключается в том, что ядра должны преодолеть 300 баллов в тесте производительности SPECrate2017_int_base, что было бы сопоставимо с некоторыми из 64-ядерных процессоров AMD второго поколения EPYC. Компания также мало говорит о том, как настроены процессоры или какие оптимизации добавляются специально для обработки нейронных сетей. Но поскольку Grace предназначена для поддержки графических процессоров NVIDIA, я ожидаю, что она будет сильнее там, где графические процессоры в целом слабее.

Читайте также:
Зонированные твердотельные накопители, автомобильный NVMe и многое другое

В противном случае, как упоминалось ранее, основная цель NVIDIA для Grace заключается в значительном сокращении времени, необходимого для самых больших моделей нейронных сетей. NVIDIA стремится к 10-кратному повышению производительности на моделях с 1 триллионом параметров, и их прогнозы производительности для 64-модульной системы Grace + A100 (с теоретической поддержкой NVLink 4) заключаются в том, чтобы сократить обучение такой модели с месяца до трех дней. Или, в качестве альтернативы, возможность делать выводы в реальном времени по модели с 500 миллиардами параметров в 8-модульной системе.

В целом, это второй реальный удар NVIDIA на рынке процессоров для центров обработки данных — и первый, который, вероятно, увенчается успехом. Проект NVIDIA Denver, о котором было объявлено чуть более десяти лет назад, никогда не оправдал ожиданий NVIDIA. Семейство кастомных ядер Arm никогда не было достаточно хорошим, и они никогда не выходили из мобильных SoC NVIDIA. Grace, напротив, — гораздо более безопасный проект для NVIDIA; они просто лицензируют ядра Arm, а не создают свои собственные, и эти ядра также будут использоваться многими другими сторонами. Таким образом, риск NVIDIA сводится в основном к правильному подключению ввода-вывода и памяти, а также к сохранению энергоэффективности конечной конструкции.

Если все пойдет по плану, ожидайте появления Grace в 2023 году. NVIDIA уже подтверждает, что модули Grace будут доступны для использования в несущих платах HGX, а также в расширении DGX и всех других системах, использующих эти платы. Таким образом, хотя мы еще не ознакомились с планами NVIDIA Grace в полном объеме, очевидно, что они планируют сделать его основной частью будущих серверных предложений.

Читайте также:
RealSense: революционная технология от Intel

Первые два суперкомпьютера: CSCS и LANL

И хотя Grace не будет поставляться до 2023 года, NVIDIA уже выстроила своих первых клиентов по оборудованию — и они не меньше клиентов суперкомпьютеров. И Швейцарский национальный суперкомпьютерный центр (CSCS), и Лос-Аламосская национальная лаборатория объявляют сегодня, что они будут заказывать суперкомпьютеры на базе Grace. Обе системы будут построены группой HPE Cray и должны быть введены в эксплуатацию в 2023 году.

Система CSCS, получившая название Alps, заменит их текущую систему Piz Daint, кластер Xeon плюс NVIDIA P100. По словам двух компаний, Alps предложит 20 ExaFLOPS производительности AI, что предположительно представляет собой комбинацию пропускной способности процессора, ядра CUDA и тензорного ядра. Когда он будет запущен, Alps должен стать самым быстрым в мире суперкомпьютером, ориентированным на искусственный интеллект.


Художественная интерпретация ожидаемой системы Альп.

Интересно, однако, что амбиции CSCS в отношении системы выходят за рамки рабочих нагрузок машинного обучения. Институт заявляет, что они будут использовать Alps в качестве системы общего назначения, работая над более традиционными задачами типа HPC, а также над задачами, ориентированными на искусственный интеллект. Это включает в себя традиционные исследования погоды и климата CSCS, для которых также уже используется Piz Daint до AI.

Как упоминалось ранее, Alps будет построена HPE, которая будет основана на ранее анонсированной архитектуре Cray EX. Это сделает NVIDIA Grace вторым вариантом ЦП для Cray EX, наряду с процессорами AMD EPYC.

Читайте также:
Самый тонкий монитор Philips Moda 245C7QJSB

Тем временем система Лос-Аламоса разрабатывается в рамках продолжающегося сотрудничества между лабораторией и NVIDIA, при этом LANL станет первым клиентом в США, получившим систему Grace. LANL не обсуждает ожидаемую производительность своей системы, за исключением того факта, что она должна быть «лидерского класса», хотя лаборатория планирует использовать ее для трехмерного моделирования, используя преимущества самых больших размеров наборов данных, предоставляемых Grace. Поставка системы LANL запланирована на начало 2023 года.