Искусственный интеллект (ИИ) из научной фантастики превратился в часть бизнес-процессов. Однако эффективная работа ИИ-систем требует соответствующего аппаратного обеспечения. Как правило, сервер для ИИ должен:

  • обучать модели;
  • развертывать алгоритмы;
  • обрабатывать пользовательские запросы (инференс).

Подбор оборудования проходит с учетом специфики поставленных задач. Для обучения необходимы видеокарты с большим объемом памяти, при обработке запросов важна низкая задержка при обмене информацией, а для развертывания требуется сбалансированная система с быстрым хранилищем. Выбор сервера влияет на скорость работы искусственный нейронных сетей (ИНС), стоимость владения, возможность масштабировать инфраструктуру.

В сегодняшней статье поговорим о серверах для искусственного интеллекта, сравним решения двух крупнейших компаний, а также расскажем, как подобрать оптимальную конфигурацию для разных целей и компаний. Если планируете расширять свою ИИ-инфраструктуру, возможно, вам будет интересна продажа серверов с готовыми решениями для машинного обучения от «Миридиум».

CPU vs GPU: когда нужен графический ускоритель

Центральные и графические процессоры имеют различия в архитектуре и подходах к обработке данных. CPU разрабатывались для универсальных вычислений, оптимизированы под последовательную обработку сложных операций. У них меньшее количество ядер, но каждое ядро обладает высокой тактовой частотой, а также сложной системой предсказания ветвлений, кэширования, управления потоками данных. Подходят для направлений, где требуются быстрый отклик и последовательные вычисления.

GPU изначально создавались для рендеринга графики в играх и профессиональных приложениях. Их архитектура отличается от CPU: вместо нескольких мощных ядер, GPU имеют тысячи относительно простых вычислительных блоков. Например, NVIDIA A100 содержит 6912 CUDA-ядер, а H100 – уже 14592 ядра. Такая архитектура позволяет GPU обрабатывать огромное количество одинаковых операций параллельно, что подходит для глубокого обучения.

Графические процессоры подходят не только для рендеринга изображений. Их используют при моделировании физики, обучения ИИ. Так родилась концепция GPGPU, где видеокарты применяют для универсальных вычислений. Именно она стала основой для прорывов в нейросятях, включая ChatGPT, а также видеогенератор Sora.

На заметку. Для работы GPU требуется оптимизированный код, так как их производительность сильно зависит от равномерного распараллеливания нагрузки и минимизации ветвлений.

Современные серверы используют гибридную архитектуру. В таких серверах CPU обрабатывает последовательные операции, а GPU выполняют  много независимых задач.

За что отвечают CPU:

  • подготавливают и предобрабатывают данные;
  • управляют операционной системой;
  • координируют работу между компонентами систем в некоторых конфигурациях;
  • занимаются вводом-выводом данных;
  • выполняют задачи, плохо поддающиеся распараллеливанию.

GPU нужны для:

  • параллельных матричных операций;
  • обработки больших объемов однотипной информации;
  • ускорения обучения нейросетей;
  • инференса (вывода результатов);
  • генерации данных.

Для серверов с ИИ рекомендуются следующие CPU:

  1. AMD EPYC (серии 7003, 9004). До 128 ядер и 256 потоков, повышенная скорость обмена информацией между контроллером и видеопамятью.
  2. Intel Xeon (Scalable серии). До 60 ядер (в последних поколениях), инструкции AVX-512 и Intel Deep Learning Boost. Чипы Intel предпочтительны для задач инференса, где важна частота ядра и оптимизация для конкретных операций.

При выборе между CPU и GPU для сервера, где будет развернута система AI, учитывают характер задач. Если в планах учить крупные ИНС на массивных данных, инвестиции в мощные видеоконтроллеры оправданы. Для вывода легковесных моделей может хватить производительности таких CPU, как, Intel Xeon W-3200 или Intel Xeon W9-3475X. Выбирайте гибридный формат, где оба типа процессоров используются в тех сценариях, где он проявляет максимальную эффективность.

GPU от NVIDIA: от Volta до Hopper и Blackwell

С 2017 года компания последовательно переопределяет стандарты аппаратного обеспечения для нейросетей, трансформируя архитектуру своих GPU из специализированных ускорителей в комплексные вычислительные системы. Эта эволюция, начавшаяся с Volta и достигшая пика в Blackwell, демонстрирует стратегию компании: не просто наращивать производительность, а создавать экосистемы, оптимизированные под масштабируемые нагрузки.

Volta

Архитектура, воплощенная в карте NVIDIA Tesla V100, стала шагом, заложившим фундамент для ИИ-вычислений. Это был первый чип, получивший тензорные ядра, ускоряющие операции, необходимые, чтобы глубоко обучить AI. Модуль HBM2, способный передавать данные на скорости 900 ГБ/с, на тот момент казался невероятным и заложил основу для будущих достижений.

Ampere

Следующий шаг – ускоритель A100. Здесь появились специализированные блоки третьего поколения, созданные для сверхбыстрых расчетов, и была внедрена технология MIG – функция, которая позволяет разделять один физический видеочип на независимые инстансы (экземпляры). Решение оказалось крайне востребованным в серверах, где ресурсы выполняют несколько задач одновременно. Скорость обмена данными видеопамяти выросла до двух ТБ/с благодаря HBM2e, а NVLink 3-го поколения обеспечил быструю связь между ускорителями.

Hopper

Настоящим прорывом в 2022 году стала архитектура Hopper. Ускорители H100 и H200 стали отраслевым стандартом для обучения больших нейросетей. H100 демонстрирует вычислительную мощность до четырех петафлопс в 8-битном формате с плавающей запятой (FP8) и оснащается памятью HBM3, обеспечивающей повышенную скорость передачи данных.

Его улучшенная версия, H200, при том же энергопотреблении оснащается HBM3e (около 4.8 ТБ/с). Решение подходит для работы с гигантскими языковыми ИНС. Тут критически важно иметь не только вычислительную мощность, но и достаточный объем видеопамяти, а также скоростную шину.

Blackwell

Сегодня мы наблюдаем за новой эрой – Blackwell. Суперчип GB200, состоящий из двух видеочипов B200 и процессора Grace, кардинально меняет индустрию в области вычислений AI. Характеристики ускорителя B200:

  • форм-фактор – SXM6;
  • 192 ГБ памяти HBM3e (до восьми ТБ/с);
  • вычислительные возможности – до десяти петафлопс (FP4).

Впрочем, за такую мощь приходится платить высоким энергопотреблением – до 1200 Вт.

Межпроцессорное взаимодействие NVIDIA: NVLink, NVLinkSwitch и GB300 NVL72

В мире высокопроизводительных вычислений, где для решения задач требуются огромные вычислительные мощности, стандартные интерфейсы часто становятся узким местом. Когда запускается дообучение модели вроде LLaMA 70B или Mistral 70B, которой необходимы десятки и сотни гигабайт видеопамяти, одна видеокарта, даже самая топовая, попросту не справится. Необходимо, чтобы множество GPU могли работать вместе как единый, монолитный узел. Поэтому компания развивает свои проприетарные технологии, которые кардинально меняют взаимодействие между компонентами сервера.

Первая из них – NVLink. Это физическая высокоскоростная шина, созданная специально для прямого обмена данными между графическими процессорами сервера. Она позволяет обойти ограничения шины PCIe.

  1. Прямой доступ к памяти. Видеокарты одного сервера могут обмениваться данными без посредников, оперировать общей памятью, игнорируя традиционные ограничения изоляции. Нет необходимости копировать гигабайты информации через центральный процессор, что заметно повышает эффективность.
  2. Критическая роль в AI/ML. Для обучения крупных моделей, где требуется постоянный обмен градиентами, NVLink играет ключевую роль. Если видеокарты не соединены через NVLink, обучение может замедляться в 5-15 раз.
  3. Феноменальная скорость. Пропускная способность новейшего поколения достигает почти до двух терабайт/с, а это в семь раз быстрее PCIe 6.0. Удается передавать огромные объемы данных и файлов между ускорителями без задержек.

Технология постоянно развивается. Каждый раз появляются новые разработки, предлагающие все большую пропускную способность.

Важно понимать, что не все видеокарты оснащены этой технологией. При покупке железа на это стоит обратить внимание. Поддерживают NVLink топовые ускорители H100/H200, A100, профессиональные карты RTX A6000/RTX A5000, а также пользовательские RTX 3090/3090 Ti с поддержкой NVLink (до двух GPU). Без поддержки остались линейки Ada Lovelace, RTX 40xx, включая RTX 4090, а также ускорители L40 и L40S.

Вторая технология – NVLink Switch, имеющая уже более высокий уровень интеграции. Это аппаратный чип-коммутатор, который создает полноценную сеть из GPU внутри одного сервера или стойки. Особенности технологии:

  1. Топология All-to-All. В    отличие от P2P, NVSwitch обеспечивает прямой обмен данными между любыми GPU, интегрированными в систему. Это создает единый, согласованный пул памяти и ресурсов.
  2. Не замена сети. NVSwitch не заменяет сетевое оборудование. Его задача – организация связи с экстремально низкими задержками в рамках одного узла, тогда как InfiniBand и Ethernet обеспечивают взаимодействие между серверами в кластере. 
  3. Основа для HGX/DGX. Именно на базе NVSwitch строят свои серверные платформы HGX, где на одной плате размещается множество GPU, связанных в единую систему.

Особенности NVLink:

Третья технология, GB300 NVL72, – не просто server, а целая стоечная система, готовый узел суперкомпьютера, являющийся вершиной развития NVLink и NVSwitch.

Характеристики:

  • состав – система объединяет 72 графических процессора Blackwell и 36 – Grace;
  • производительность – до 1,44 экзафлопс;
  • охлаждение – используются системы жидкостного охлаждения (СЖО) из-за тепловыделения;
  • единый GPU – благодаря NVLink 5-го поколения, все 72 GPU работают как один гигантский видеочип.

GB300 NVL72 – это мощное решение, оптимизированное под стек NVIDIA AI Enterprise, и оно представляет собой готовые кластеры для самых требовательных задач. Для компаний аренда таких мощностей станет выгодным вариантом, чем покупка.

Межпроцессорное взаимодействие NVIDIA: NVLink, NVLinkSwitch и GB300 NVL72

В мире высокопроизводительных вычислений, где для решения задач требуются огромные вычислительные мощности, стандартные интерфейсы часто становятся узким местом. Когда запускается дообучение модели вроде LLaMA 70B или Mistral 70B, которой необходимы десятки и сотни гигабайт видеопамяти, одна видеокарта, даже самая топовая, попросту не справится. Необходимо, чтобы множество GPU могли работать вместе как единый, монолитный узел. Поэтому компания развивает свои проприетарные технологии, которые кардинально меняют взаимодействие между компонентами сервера.

Первая из них – NVLink. Это физическая высокоскоростная шина, созданная специально для прямого обмена данными между графическими процессорами сервера. Она позволяет обойти ограничения шины PCIe.

Особенности NVLink:

  1. Прямой доступ к памяти. Видеокарты одного сервера могут обмениваться данными без посредников, оперировать общей памятью, игнорируя традиционные ограничения изоляции. Нет необходимости копировать гигабайты информации через центральный процессор, что заметно повышает эффективность.
  2. Критическая роль в AI/ML. Для обучения крупных моделей, где требуется постоянный обмен градиентами, NVLink играет ключевую роль. Если видеокарты не соединены через NVLink, обучение может замедляться в 5-15 раз.
  3. Феноменальная скорость. Пропускная способность новейшего поколения достигает почти до двух терабайт/с, а это в семь раз быстрее PCIe 6.0. Удается передавать огромные объемы данных и файлов между ускорителями без задержек.

Технология постоянно развивается. Каждый раз появляются новые разработки, предлагающие все большую пропускную способность.

Важно понимать, что не все видеокарты оснащены этой технологией. При покупке железа на это стоит обратить внимание. Поддерживают NVLink топовые ускорители H100/H200, A100, профессиональные карты RTX A6000/RTX A5000, а также пользовательские RTX 3090/3090 Ti с поддержкой NVLink (до двух GPU). Без поддержки остались линейки Ada Lovelace, RTX 40xx, включая RTX 4090, а также ускорители L40 и L40S.

Вторая технология – NVLink Switch, имеющая уже более высокий уровень интеграции. Это аппаратный чип-коммутатор, который создает полноценную сеть из GPU внутри одного сервера или стойки. Особенности технологии:

  1. Топология All-to-All. В    отличие от P2P, NVSwitch обеспечивает прямой обмен данными между любыми GPU, интегрированными в систему. Это создает единый, согласованный пул памяти и ресурсов.
  2. Не замена сети. NVSwitch не заменяет сетевое оборудование. Его задача – организация связи с экстремально низкими задержками в рамках одного узла, тогда как InfiniBand и Ethernet обеспечивают взаимодействие между серверами в кластере. 
  3. Основа для HGX/DGX. Именно на базе NVSwitch строят свои серверные платформы HGX, где на одной плате размещается множество GPU, связанных в единую систему.

Третья технология, GB300 NVL72, – не просто server, а целая стоечная система, готовый узел суперкомпьютера, являющийся вершиной развития NVLink и NVSwitch.

Характеристики:

  • состав – система объединяет 72 графических процессора Blackwell и 36 – Grace;
  • производительность – до 1,44 экзафлопс;
  • охлаждение – используются системы жидкостного охлаждения (СЖО) из-за тепловыделения;
  • единый GPU – благодаря NVLink 5-го поколения, все 72 GPU работают как один гигантский видеочип.

GB300 NVL72 – это мощное решение, оптимизированное под стек NVIDIA AI Enterprise, и оно представляет собой готовые кластеры для самых требовательных задач. Для компаний аренда таких мощностей станет выгодным вариантом, чем покупка.

В IT-индустрии доминирование NVIDIA казалось непоколебимым. Однако AMD с линейкой Instinct предлагает мощную и, что интересно, зрелую альтернативу. Эти решения созданы для сложнейших математических расчетов, что делает их главным элементом для построения ИИ-серверов.

Главная сила AMD кроется в серии MI линейки Instinct. MI300X построена на архитектуре CDNA 3. На борту у нее 192 ГБ сверхбыстрой памяти HBM3 с пропускной способностью более 5.3 ТБ/с. Каждый сервер на базе таких чипов способен обрабатывать огромные языковые модели и решать задачи генеративного ИИ. 

Свежая серия MI350 на архитектуре CDNA 4 впечатляет еще больше – 288 ГБ памяти HBM3e, поддержка низкоточных форматов FP4 и INT4, что важно для ускорения инференса. В одной серверной платформе, например, сервер 4U, помещается до восьми устройств, суммарно предоставляя 2.3 ТБ видеопамяти. Этого достаточно для самых амбициозных ИИ-проектов.

Отдельно стоит MI300A – гибридный процессор (APU), объединяющий ядра CPU Zen 4 и вычислительные блоки CDNA 3. Устройство обеспечивает согласованный доступ к общей памяти, что снижает задержки и делает его одним из лучших решений для HPC-нагрузок.

Технологическое преимущество – Infinity Fabric, проприетарный интерконнект. Он обеспечивает сверхбыструю связь между компонентами внутри одного физического сервера и позволяет процессорам, вычислительным модулям обмениваться данными без узких мест. Однако стоит отметить, что при соединении нескольких узлов (когда один сервер общается с другим) AMD использует стандартные сетевые адаптеры InfiniBand или Ethernet.

На программном уровне AMD предлагает ROCm – открытый набор инструментов и библиотек, являющийся прямой альтернативой NVIDIA CUDA. Эта экосистема поддерживает все популярные фреймворки, включая PyTorch и TensorFlow, и позволяет запускать такие модели, как LLaMA или Mistral, практически «из коробки». Существует даже слой совместимости ZLUDA, который позволяет запускать CUDA-приложения без модификации кода. Но на практике думать, что это всегда работает идеально – ошибка. Тем не менее, это шаг к созданию гибких и независимых от одного вендора систем.

Если провести прямое сравнение, то у AMD:

  • больший объем VRAM на одно устройство – 192-288 ГБ против 141 ГБ у NVIDIA H200;
  • уникальные гибридные APU MI300A;
  • удачное соотношение цена-качество, снижающее итоговый счет за сервер или кластер.

Однако не обошлось без проблем. Экосистема CUDA от NVIDIA зрелая, предлагает больше возможностей. При масштабировании до сотен серверов архитектура с NVLink или NVSwitch часто обеспечивает лучшую производительность и меньшие задержки. У AMD не все алгоритмы и библиотеки пока что оптимизированы под ROCm. Поэтому переход них требует тщательного предварительного тестирования.

AMD активно сотрудничает с гигантами вроде Microsoft и OpenAI, что подтверждает доверие к их технологиям. Производители уже предлагают сервер с решениями Instinct. Он может оснащаться NVMe или SATA дисками, интегрироваться в СХД или выступать как NAS. В итоге, хотя NVIDIA и удерживает львиную долю рынка, AMD Instinct – это уже не просто альтернатива, а сила, заставляющая лидера двигаться быстрее. Это соперничество помогает рынку расти, предлагая заказчикам больше выбора и более выгодные условия.

Межпроцессорное взаимодействие AMD: Infinity fabric

Infinity Fabric (IF) встроена во все карты вендора: от потребительских Ryzen до EPYC для сервера. Главное назначение технологии – связывать между собой компоненты, такие как процессорные ядра, видеокарты и контроллеры памяти.

С каждой новой моделью возможности Infinity Fabric растут. В ускорителях, таких как MI300, она объединяет CPU и GPU в один модуль с общей памятью. Важно понимать, что IF – это решение для связи компонентов внутри одного вычислительного узла (сервера). Для объединения серверов в большой кластер используются стандартные сетевые технологии, например, InfiniBand или высокоскоростной Ethernet.

Особенности Infinity Fabric:

  • универсальность;
  • производительность;
  • когерентность памяти;
  • масштабируемость;
  • основа для APU.

Преимущества архитектуры проявляется в гибридных процессорах (APU), таких как Instinct MI300A. Благодаря Infinity Fabric центральный и графический процессоры могут работать с общей памятью без копирования данных туда-обратно, что ускоряет вычисления. Подход AMD с IF чрезвычайно эффективен для задач, где требуется теснейшая интеграция разных типов вычислительных блоков.

Серверные платформы с чипами NVIDIA

Серверные платформы NVIDIA – высокопроизводительные серверы, созданные для ускорения обучения ИИ-моделей и обработки больших объемов данных.

Линейки:

  1. DGX. Это готовые к работе модели DGX H100 и GB200 – системы с СЖО для развертывания генеративных и LLM моделей. Они оптимизированы для стека NVIDIA AI Enterprise, NGC, NeMo. DGX A100 содержит восемь GPU A100 с NVLink или NVSwitch. Сервер DGX H800 640GB включает 2x Intel Xeon Platinum 8480C, 2TB DDR5, 8x 3.84TB NVMe, 8x H100 640G. Может работать с большими массивами данных.
  2. HGX. Это референсная платформа, на основе которой партнеры строят свой сервер. HGX H100/H200 поддерживают до восьми карт, объединенных в кластер из 256 GPU через NVLink. HGX B300 – до 16 GPU. Серверная платформа подойдет для обучения ИНС на огромных массивах данных.
  3. Партнерские серверы. Производители-партнеры предлагают собственный сервер, используя технологии NVIDIA. Популярный вариант для центров обработки данных Dell PowerEdge XE9680, способный увеличить скорость процесс обучения.

Серверы поддерживают NVLink, благодаря чему видеокарты могут молниеносно обмениваться информацией другу с другом, за счет чего ускоряется обучение нейросетей.

Huawei xFusion FusionServer 2258H V7

Серверные платформы на базе чипов AND

Основные модели серверных платформ:

  • Dell PowerEdge XE9680 – поддержка восьми видеокарт Instinct MI300X;
  • HPE ProLiant Compute XD685 – рассчитана на восемь видеочипов MI300X или MI325X + 2 процессора EPYC;
  • Supermicro AS-2145GH-TNMR – сервер на четыре видеокарты MI300A с СЖО;
  • Lenovo ThinkSystem SR685a V3 – модель с поддержкой до восьми видеопроцессоров MI300X

Все они рассчитаны на ресурсоемкие задачи, а их компоненты быстро обмениваются информацией между собой, благодаря чему модели нейросетей мгновенно получают доступ к гигабайтам данных.

Подбор конфигураций серверов с GPU для компаний разных размеров

Для начала следует определить задачу:

  1. Обучение больших моделей (LLM). Требуется сервер с большой мощностью. Нужны флагманские видеокарты, такие как H100 или H200 для обработки данных.
  2. Инференс (API, чат-боты). Важен баланс цены и производительности сервера. Подойдут решения L40S или RTX 6000 Ada.
  3. Видеонаблюдение и графика (CV, 3D). Нужна производительность и много VRAM. Подходят RTX 6000 Ada и L40S.
  4. R&D и тесты. Чтобы поэкспериментировать и обучить небольшие модели, достаточно сервера с одной-двумя картами, например, RTX 4090 или A5000.

Для баланса системы, кроме видеокарты, потребуется центральный процессор. Выбирайте современные EPYC (больше ядер и линий PCIe) или Intel Xeon (стабильность и спец. инструкции). Должно быть минимум четыре процессорных ядра на каждый GPU. Нужна оперативная память DDR5 объемом от 128 ГБ и выше. Хранить данные на сервере лучше на быстрых NVMe SSD (от четырех ТБ). Для архивов подойдут классические HDD.

Для обучения больших ИНС на нескольких картах нужна технология NVLink. Что касается сети, для одного сервера хватит 10-25 Гбит/с. Если серверов больше, для их совместной работы понадобится высокоскоростная сеть – 100 Гбит/с Ethernet или InfiniBand.

Что подойдет:

  1. Стартап или R&D. Tower-сервер в корпусе 1U или 2U с 1-2 GPU (RTX 4090 или A5000), 128-256 ГБ RAM.
  2. Средний бизнес (инференс, дообучение). Сервер с 2-4 видеокартами, 256-512 ГБ RAM, процессор EPYC или Intel Xeon Gold.
  3. Корпорации (обучение LLM). Платформа с 8 видеокартами с NVLink, от 1-2 ТБ RAM, два мощных CPU и сеть InfiniBand.

Если хотите купить сервер для ИИ, или остались вопросы по интеграции этих технологий, обратитесь за бесплатной консультацией. Оставьте заявку на нашем сайте, указав имя и контакты.

Будущее ИИ-серверов

ИИ-инфраструктура сегодня постепенно трансформируется за счет увеличения гибкости и масштабируемости. Основой становятся модульные системы с гибридными конфигурациями и расширенной памятью CXL Type-3, обеспечивающей динамическое распределение ресурсов между узлами. Сегодня такие вендоры, как Huawei и HP, уже учитывают тренды на энергоэффективность и надежность.

Большую роль в обучении моделей играют DPU (Data Processing Units) и SmartNIC, которые берут на себя сетевые задачи, освобождая CPU для вычислений. Ускорение сетевых операций через NVMe-over-TCP и CXL упростит работу распределенных кластеров. Виртуализация на базе VMware и поддержка FP16 вычислений станут стандартом для обеспечения работы даже при недостатке ресурсов.

Рынок смещается в сторону аренды GPU-серверов. Компании избегают капитальных затрат, выбирая облачные сервисы и сетевые хранилища с гибкой оплатой. По прогнозам, объем инвестиций в корпоративном сегменте превысит несколько млрд долларов, а число решений анализа данных вырастет в разы.

Помните, выбор сервера для ИИ – это не просто подбор технических параметров, а точное соответствие вашим бизнес-потребностям. Важно учитывать объем датасетов, тип задач (обучение или инференс), а также требования к времени отклика и масштабируемости. Например, для пользователей среднего уровня будь то стартап из Москва или отдел аналитики крупного офиса достаточно выделенного Tower-сервера с 1-2 GPU, который отлично справляется с R&D, запуском моделей компьютерного зрения или даже легкими LLM. В таких конфигурациях ценятся удобства: быстрое резервное копирование, надежные SAS/дисковые системы хранения и стабильная работа в реальном времени. Если вы не уверены, что выбрать, обратитесь к нам. Мы поможем собрать решение и адаптировать его под ваши рабочие нагрузки.