NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах

3 мин
NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах

NVIDIA выпустила Nemotron-Cascade 2 — open-weight (с открытыми весами) 30B Mixture-of-Experts (MoE) модель с 3B активными параметрами.

В архитектуре MoE только часть параметров активируется при каждом запросе, что экономит вычисления. Фокус модели — максимальная «плотность интеллекта»: продвинутые рассуждения при доле параметров от фронтальных (самых крупных флагманских) моделей. Nemotron-Cascade 2 стала следующий open-weight LLM, достигшей уровня золотой медали на Международной математической олимпиаде (IMO) 2025 года. Также схема получила золотые медали на Международной олимпиаде по информатике (IOI) и финале мирового первенства ICPC.

Целевая эффективность и осознанные компромиссы

Главное преимущество Nemotron-Cascade 2 — специализированная эффективность в математических рассуждениях, программировании, alignment (соответствии запросам пользователя) и следовании инструкциям. Модель достигает лучших результатов (state-of-the-art) в этих областях, но не побеждает по всем бенчмаркам.

По сравнению с Qwen3.5-35B-A3B (февраль 2026) и более крупной Nemotron-3-Super-120B-A12B модель лидирует в нескольких категориях:

  • Математические рассуждения: обходит Qwen3.5-35B-A3B на AIME 2025 (92.4 против 91.9) и HMMT Feb25 (94.6 против 89.0).

  • Программирование: лидирует на LiveCodeBench v6 (87.2 против 74.6) и IOI 2025 (439.28 против 348.6+).

  • Alignment и следование инструкциям: значительно выше на ArenaHard v2 (83.5 против 65.4+) и IFBench (82.9 против 70.2).

Техническая архитектура: Cascade RL и Multi-domain On-Policy Distillation (MOPD)

Рассуждения модели опираются на пост-тренировочный пайплайн. Исходной точкой стала базовая модель Nemotron-3-Nano-30B-A3B-Base.

1. Supervised Fine-Tuning (SFT)

На этапе SFT (обучения с учителем) команда NVIDIA использовала тщательно собранный датасет. Семплы упаковывались в последовательности до 256K токенов. Датасет включал:

  • 1.9M трейзов Python-рассуждений (записей пошаговых решений) и 1.3M семплов вызова инструментов для соревновательного программирования.

  • 816K семплов математических доказательств на естественном языке.

  • Специализированный Software Engineering (SWE) бленд: 125K agentic-семплов (с автономными действиями модели) и 389K agentless-семплов (без автономных действий).

2. Cascade Reinforcement Learning

После SFT схема прошла Cascade RL — последовательное поэтапное обучение по доменам. Это предотвращает catastrophic forgetting (катастрофическое забывание, когда схема теряет старые навыки при обучении новым). Гиперпараметры настраиваются под конкретный домен и не дестабилизируют остальные. Пайплайн включает этапы instruction-following (IF-RL), мультидоменный RL, RLHF, long-context RL и специализированный Code/SWE RL.

3. Multi-Domain On-Policy Distillation (MOPD)

Ключевая инновация Nemotron-Cascade 2 — интеграция MOPD в процесс Cascade RL. MOPD использует лучшие промежуточные «учительские» модели. Они уже получены из той же SFT-инициализации. Это обеспечивает плотное токен-уровневое преимущество дистилляции, которое определяется формально:

$$a_{t}^{MOPD}=log~\pi^{domain_{t}}(y_{t}|s_{t})-log~\pi^{train}(y_{t}|s_{t})$$

Исследователи выяснили, что MOPD существенно эффективнее по выборкам, чем sequence-level reward-алгоритмы (оценивающие весь ответ целиком), такие как Group Relative Policy Optimization (GRPO). В частности, на AIME25 MOPD достигла уровня учителя (92.0) за 30 шагов. GRPO при том же числе шагов показала лишь 91.0.

Инференс и agentic-взаимодействие

Nemotron-Cascade 2 поддерживает два основных режима работы через chat template:

  • Thinking Mode: запускается одиночным токеном \n с последующим переводом строки. Активирует глубокое рассуждение для сложных математических и кодовых задач.

  • Non-Thinking Mode: активируется добавлением пустого блока перед ответом — для более эффективных прямых ответов.

Для agentic-задач модель использует структурированный протокол вызова инструментов внутри системного промпта. Доступные инструменты перечислены в тегах <tools>. Схема выполняет вызовы, обёрнутые в теги $_$, что гарантирует верифицируемый feedback выполнения.

Сфокусировавшись на «плотности интеллекта», Nemotron-Cascade 2 показывает: специализированные рассуждения, ранее считавшиеся исключительной прерогативой фронтальных моделей (600B+ параметров), достижимы на масштабе 30B. Это стало возможным благодаря domain-specific reinforcement learning.

Модель

SFT-датасет

RL-данные

Техотчет

Читают сейчас

23 минуты назад

НИУ ВШЭ — Санкт‑Петербург и Yandex Cloud создали чат‑бота для музеев

Лаборатория языковой конвергенции НИУ ВШЭ — Санкт‑Петербург и Центр технологий для общества Yandex Cloud разработали чат‑бота для взаимодействия с посетителями крупных музеев. Виртуальный помощник пом

Baidu готовит DoctorClaw — OpenClaw для врачей

24 минуты назад

Baidu готовит DoctorClaw — OpenClaw для врачей

Baidu Health готовит к запуску DoctorClaw — AI-ассистента для врачей, построенного на базе фреймворка OpenClaw. По данным инсайдера, передавшего информацию китайскому изданию Yicai, продукт уже проход

1 час назад

РАО отчиталось о рекордных за десять лет сборах за музыку

Российское авторское общество и Всероссийская организация интеллектуальной собственности представили отчёты за 2024 год. Сборы обеих организаций оказались рекордными минимум за десять лет. РАО занимае

Google начала закрытое тестирование Gemini для macOS

2 часа назад

Google начала закрытое тестирование Gemini для macOS

Пока без агентов, но с амбициями: Gemini готовится переехать из браузера прямо в macOS. Похоже, эпоха «открой вкладку и молись на интернет» для пользователей Mac постепенно подходит к концу. Google на

Tencent интегрировала WeChat с ИИ-агентом OpenClaw на фоне гонки AI в Китае

2 часа назад

Tencent интегрировала WeChat с ИИ-агентом OpenClaw на фоне гонки AI в Китае

Tencent запустила инструмент ClawBot, который интегрирует мессенджер WeChat с ИИ-агентом OpenClaw. Свежий сервис появляется в виде контакта внутри приложения и даёт возможность взаимодействовать с аге