Поставка серверов Nvidia GB20 NVL72 и NVL36 стоимостью около 3 миллионов долларов находится под угрозой из-за проблем с системой жидкостного охлаждения.
Новые серверные системы Nvidia GB200 NVL72 и NVL36, созданные для работы с приложениями искусственного интеллекта, столкнулись с неожиданной проблемой. Незадолго до начала массового производства и продаж была обнаружена серьёзная неисправность в системе охлаждения.
Система GB200 NVL72 — это серверная стойка с 18 узлами по 1U, каждый из которых оснащён двумя ускорителями GB200. Каждый ускоритель включает в себя два чипа Nvidia B200 и один 72-ядерный процессор Arm Grace. В сумме система содержит 72 чипа B200 и 36 процессоров Grace, соединённых шиной NVLink 5, и потребляет около 120 кВт. Эта система также оснащена жидкостным охлаждением и единой DC-шиной питания. В системе GB200 NVL36 установлено вдвое меньше ускорителей GB200. Предварительная стоимость системы GB200 NVL72 составляет 3 миллиона долларов.
По данным TweakTown и тайваньского издания UDN, в системах жидкостного охлаждения GB200 NVL72 были выявлены утечки, которые, предположительно, вызваны деталями, произведёнными сторонними поставщиками. Компания Nvidia поручила производство некоторых компонентов системы охлаждения, таких как патрубки, быстроразъёмные соединения и шланги, своим международным партнёрам.
Утечки были обнаружены до начала массового производства ИИ-систем NVL36 и NVL72, что дало производителям возможность устранить неисправности. Ожидается, что продукт будет доставлен в срок вопреки возникшим трудностям.
Инцидент вызвал беспокойство у крупных облачных провайдеров. Они стали сомневаться в надёжности новых серверов Nvidia. В ответ на это тайваньские производители, такие как Shuanghong и Qihong, нарастили производство компонентов для систем жидкостного охлаждения, чтобы предложить Nvidia альтернативные варианты.
Сертификация патрубков, быстроразъёмных соединений и шлангов — сложный процесс. Он требует специальных знаний и опыта. Ранее тайваньские компании не специализировались на производстве таких компонентов, но решение Nvidia использовать жидкостное охлаждение в своих AI-чипах побудило их освоить новые технологии.