38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

2 мин
38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии. Это не привычная для Cursor проблема из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.

Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — практически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через некоторое количество уровней памяти. Эта экспертиза исторически сосредоточена в маленький группе специалистов NVIDIA и крупных AI-лабораторий. Cursor отдал задачу связке из агента-планировщика и автономных исполнителей: планировщик распределяет 235 задач между ними, перебалансирует нагрузку по метрикам производительности и держит весь координационный протокол в одном markdown-файле с правилами и тестами.

Тестирование шло на 27 NVIDIA B200 через бенчмарк SOL-ExecBench: он сравнивает эффективность ядер с эталонными библиотеками и теоретическим пределом железа, а если агент пытается жульничать с кэшированием и выдает итог выше физических возможностей B200, прогон признается недействительным. В результате мультиагент решил все 235 задач за один заход. Тестировали два режима: CUDA C со встроенным PTX (прямой доступ к регистрам и инструкциям ISA) и CuTe DSL — свежее api NVIDIA, которое почти не встречается в обучающих данных и потому проверяет, способен ли агент учиться по документации.

Отдельный показательный результат — самописное GEMM-ядро на CUDA C++. Мультиагент сгенерировал его с нуля и подобрался к 86% производительности эталона из библиотеки cuBLAS, которую инженеры NVIDIA вручную оптимизируют годами; на ряде небольших матриц он даже обошел cuBLAS на 9%. GEMM — это базовая операция линейной алгебры, на которой держится почти любой прогон обучения или инференса нейросети, а cuBLAS — отраслевой эталон производительности на GPU NVIDIA.

Цифра в 38% — это геометрическое среднее по всем 235 задачам по сравнению с PyTorch-базы, оптимизированной одним агентом. Реально обогнать эту базу удалось в 149 случаях из 235, то есть в 63%. Для Cursor это уже вторая работа над kernel-оптимизацией под Blackwell — летом 2025 года она с нуля переписала MoE-слой собственного обучения и получила полуторакратное сквозное ускорение.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Google тестирует новые чипы для ИИ

18 минут назад

Google тестирует новые чипы для ИИ

За некоторое количество месяцев чипы Google для ИИ стали одним из самых востребованных товаров в технологическом секторе. Ведущие разработчики в области искусственного интеллекта, в том числе некоторы

Исследование: крупные IT-компании скрывали объёмы вредных выбросов от своих дата-центров в Европе

40 минут назад

Исследование: крупные IT-компании скрывали объёмы вредных выбросов от своих дата-центров в Европе

Крупные американские IT-компании скрывали объёмы вредных выбросов от своих дата-центров в Европе. Для этого Microsoft, Amazon, Google и другие игроки добились включения в нормы ЕС положения о конфиден

PayDo запускает C2B-счета для ускорения pay-by-bank платежей

44 минуты назад

PayDo запускает C2B-счета для ускорения pay-by-bank платежей

Компания PayDo объявила о запуске счетов для расчетов по модели customer-to-business (C2B), расширяя функциональность своей платформы электронных денег и упрощая процесс приема платежей напрямую с бан

Ютубер оснастил Tesla X солнечной батареей, которая помогла ему дождаться помощи, когда его авто разрядилось в пустыне

59 минут назад

Ютубер оснастил Tesla X солнечной батареей, которая помогла ему дождаться помощи, когда его авто разрядилось в пустыне

Ютубер установил на Tesla солнечные батареи, которые помогли ему дождаться помощи, когда батарея автомобиля разрядился в чилийской пустыне Атакама, самом сухом месте на Земле. Сандро Ван Куйк, автор к

АСКОН опубликовал бета-версию КОМПАС-3D v25 и приглашает на открытое тестирование

1 час назад

АСКОН опубликовал бета-версию КОМПАС-3D v25 и приглашает на открытое тестирование

АСКОН объявляет о старте открытого бета-тестирования будущей версии КОМПАС-3D и приложений и приглашает всех желающих принять участие! Бета-тестирование — это ежегодные испытания будущей версии КОМПАС