Тысячи токенов в секунду: Nvidia добавила чипы Groq в стойки Vera Rubin

2 мин
Тысячи токенов в секунду: Nvidia добавила чипы Groq в стойки Vera Rubin

На конференции GTC 2026 Nvidia показала новый тип серверных стоек — LPX, в которых 256 чипов Groq 3 LPU работают в связке со стойками Vera Rubin NVL72. Это начальный случай, когда Nvidia интегрирует сторонний процессор в свою платформу. Технологию Groq организация получила в конце 2025 года в контексте сделки на $20 млрд, вместе с основателем Groq Джонатаном Россом и президентом Санни Мадрой.

Идея в разделении труда: GPU Rubin обрабатывают входящие промпты (этап prefill), а LPU от Groq берут на себя генерацию токенов (этап decode). Пропускная способность SRAM-памяти у Groq 3 достигает 150 TB/s на процессор — это почти в 7 раз больше, чем 22 TB/s у HBM4-памяти в GPU Rubin. Каждый LPU выдает 1,2 петафлопса в FP8, но вмещает всего 500 МБ памяти — около в 500 раз меньше, чем у Rubin GPU. Следовательно их и нужно 256 штук в одной стойке, а для моделей с триллионом параметров — некоторое количество стоек.

Стойки LPX подключаются к NVL72 через интерконнект Spectrum-X. Согласно заявлению Яна Бака, вице-президента Nvidia по гиперскейлу, связка даёт возможность обслуживать модели с триллионом параметров на скорости в тысячи токенов в секунду на пользователя. При этом LPU пока не поддерживают CUDA нативно — они работают как ускоритель к платформе Vera NVL72.

Интеграция LPU практически заменила собственный инициатива Nvidia — чип Rubin CPX, анонсированный на Computex в прошлом году. От него отказались в пользу подхода Groq. Nvidia рассчитывает, что провайдеры инференса смогут брать за «премиальные токены» до $45 за миллион — втрое больше, чем нынешние $15 у OpenAI за модель GPT-5.4.

Nvidia — не единственная, кто идет этим путем. В пятницу AWS объявила о похожей связке: ускорители Trainium 3 для prefill и SRAM-чипы Cerebras WSE-3 для генерации токенов. Разделение инференса на две стадии с разным железом может превратиться из эксперимента в индустриальный тренд.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Вышла среда разработки Qt Creator 20

41 минуту назад

Вышла среда разработки Qt Creator 20

17 июня 2026 года состоялся выпуск открытой среды разработки Qt Creator 20, предназначенной для создания кроссплатформенных приложений с использованием библиотеки Qt. Проект поддерживает как разработк

Норвегия вводит почти цельный запрет на использование ИИ в начальной школе

2 часа назад

Норвегия вводит почти цельный запрет на использование ИИ в начальной школе

Власти Норвегии вводят практически цельный запрет на использование инструментов генеративного искусственного интеллекта учениками начальной школы, а равным образом ограничивают использование технологи

Hyundai получила цельный контроль над Boston Dynamics

2 часа назад

Hyundai получила цельный контроль над Boston Dynamics

Южнокорейская Hyundai Motor Group приобрела у SoftBank 9,65% акций американского производителя роботов Boston Dynamics за $325 млн. Итак автопроизводитель получил полный контроль над Boston Dynamics в

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

4 часа назад

Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ

Глава Агентства национальной безопасности (АНБ) и Киберкомандования США генерал Джошуа Радд рассказал сенатору Марку Уорнеру, что схема Mythos от Anthropic пробила почти все секретные системы страны —

Вышел кроссплатформенный средство с открытым исходным кодом для создания скриншотов Flameshot 14.0

6 часов назад

Вышел кроссплатформенный средство с открытым исходным кодом для создания скриншотов Flameshot 14.0

18 июня 2026 года состоялся выпуск кроссплатформенного инструмента с открытым исходным кодом для создания скриншотов Flameshot 14.0. Исходный код проекта написан на C++ и опубликован на GitHub под лиц