38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

2 мин
38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии. Это не привычная для Cursor проблема из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.

Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — практически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через некоторое количество уровней памяти. Эта экспертиза исторически сосредоточена в маленький группе специалистов NVIDIA и крупных AI-лабораторий. Cursor отдал задачу связке из агента-планировщика и автономных исполнителей: планировщик распределяет 235 задач между ними, перебалансирует нагрузку по метрикам производительности и держит весь координационный протокол в одном markdown-файле с правилами и тестами.

Тестирование шло на 27 NVIDIA B200 через бенчмарк SOL-ExecBench: он сравнивает эффективность ядер с эталонными библиотеками и теоретическим пределом железа, а если агент пытается жульничать с кэшированием и выдает итог выше физических возможностей B200, прогон признается недействительным. В результате мультиагент решил все 235 задач за один заход. Тестировали два режима: CUDA C со встроенным PTX (прямой доступ к регистрам и инструкциям ISA) и CuTe DSL — свежее api NVIDIA, которое почти не встречается в обучающих данных и потому проверяет, способен ли агент учиться по документации.

Отдельный показательный результат — самописное GEMM-ядро на CUDA C++. Мультиагент сгенерировал его с нуля и подобрался к 86% производительности эталона из библиотеки cuBLAS, которую инженеры NVIDIA вручную оптимизируют годами; на ряде небольших матриц он даже обошел cuBLAS на 9%. GEMM — это базовая операция линейной алгебры, на которой держится почти любой прогон обучения или инференса нейросети, а cuBLAS — отраслевой эталон производительности на GPU NVIDIA.

Цифра в 38% — это геометрическое среднее по всем 235 задачам по сравнению с PyTorch-базы, оптимизированной одним агентом. Реально обогнать эту базу удалось в 149 случаях из 235, то есть в 63%. Для Cursor это уже вторая работа над kernel-оптимизацией под Blackwell — летом 2025 года она с нуля переписала MoE-слой собственного обучения и получила полуторакратное сквозное ускорение.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Open-source агент Hermes со 175 тыс звезд на GitHub обзавелся официальным десктоп-клиентом

59 минут назад

Open-source агент Hermes со 175 тыс звезд на GitHub обзавелся официальным десктоп-клиентом

Организация Nous Research выпустила Hermes Desktop — официальное настольное программа для своего автономного ИИ-агента Hermes. Выпуск носит статус публичного превью, сборки доступны для macOS, Windows

«Сбер» показал платёжный терминал с встроенным ИИ

1 час назад

«Сбер» показал платёжный терминал с встроенным ИИ

Компания «Сбер» представила платёжный терминал со встроенным искусственным интеллектом «Нео». Устройство объединяет ИИ, биометрию, локальные вычисления и цифровые сервисы. Подход разработано внутри ко

В «Яндекс Музыке» теперь можно запускать «Мою волну» по текстовым запросам через ИИ-компаньона люмен

1 час назад

В «Яндекс Музыке» теперь можно запускать «Мою волну» по текстовым запросам через ИИ-компаньона люмен

В сервисе «Яндекс Музыка» появилась возможность запускать «Мою волну» по свободным текстовым запросам — с помощью ИИ‑компаньона люмена. Например, можно описать люмену своё настроение, занятие или эмоц

NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) — свою самую сильную open-weight схема на сегодня

2 часа назад

NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) — свою самую сильную open-weight схема на сегодня

NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) - свою самую сильную open-weight модель на сегодня, причём вместе с полной схемой обучения. Главный фокус на производительность инференса в реальных long-c

Сандерс: 50% акций OpenAI и Anthropic должны принадлежать народу

2 часа назад

Сандерс: 50% акций OpenAI и Anthropic должны принадлежать народу

Сенатор США Берни Сандерс разработал законопроект, обязывающий крупнейших разработчиков искусственного интеллекта передать обществу 50% своего капитала. Проект подразумевает создание суверенного фонда