1 час назад
38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии. Это не привычная для Cursor проблема из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.
Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — практически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через некоторое количество уровней памяти. Эта экспертиза исторически сосредоточена в маленький группе специалистов NVIDIA и крупных AI-лабораторий. Cursor отдал задачу связке из агента-планировщика и автономных исполнителей: планировщик распределяет 235 задач между ними, перебалансирует нагрузку по метрикам производительности и держит весь координационный протокол в одном markdown-файле с правилами и тестами.
Тестирование шло на 27 NVIDIA B200 через бенчмарк SOL-ExecBench: он сравнивает эффективность ядер с эталонными библиотеками и теоретическим пределом железа, а если агент пытается жульничать с кэшированием и выдает итог выше физических возможностей B200, прогон признается недействительным. В результате мультиагент решил все 235 задач за один заход. Тестировали два режима: CUDA C со встроенным PTX (прямой доступ к регистрам и инструкциям ISA) и CuTe DSL — свежее api NVIDIA, которое почти не встречается в обучающих данных и потому проверяет, способен ли агент учиться по документации.
Отдельный показательный результат — самописное GEMM-ядро на CUDA C++. Мультиагент сгенерировал его с нуля и подобрался к 86% производительности эталона из библиотеки cuBLAS, которую инженеры NVIDIA вручную оптимизируют годами; на ряде небольших матриц он даже обошел cuBLAS на 9%. GEMM — это базовая операция линейной алгебры, на которой держится почти любой прогон обучения или инференса нейросети, а cuBLAS — отраслевой эталон производительности на GPU NVIDIA.
Цифра в 38% — это геометрическое среднее по всем 235 задачам по сравнению с PyTorch-базы, оптимизированной одним агентом. Реально обогнать эту базу удалось в 149 случаях из 235, то есть в 63%. Для Cursor это уже вторая работа над kernel-оптимизацией под Blackwell — летом 2025 года она с нуля переписала MoE-слой собственного обучения и получила полуторакратное сквозное ускорение.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

18 минут назад
Google тестирует новые чипы для ИИ
За некоторое количество месяцев чипы Google для ИИ стали одним из самых востребованных товаров в технологическом секторе. Ведущие разработчики в области искусственного интеллекта, в том числе некоторы

40 минут назад
Исследование: крупные IT-компании скрывали объёмы вредных выбросов от своих дата-центров в Европе
Крупные американские IT-компании скрывали объёмы вредных выбросов от своих дата-центров в Европе. Для этого Microsoft, Amazon, Google и другие игроки добились включения в нормы ЕС положения о конфиден

44 минуты назад
PayDo запускает C2B-счета для ускорения pay-by-bank платежей
Компания PayDo объявила о запуске счетов для расчетов по модели customer-to-business (C2B), расширяя функциональность своей платформы электронных денег и упрощая процесс приема платежей напрямую с бан

59 минут назад
Ютубер оснастил Tesla X солнечной батареей, которая помогла ему дождаться помощи, когда его авто разрядилось в пустыне
Ютубер установил на Tesla солнечные батареи, которые помогли ему дождаться помощи, когда батарея автомобиля разрядился в чилийской пустыне Атакама, самом сухом месте на Земле. Сандро Ван Куйк, автор к

1 час назад
АСКОН опубликовал бета-версию КОМПАС-3D v25 и приглашает на открытое тестирование
АСКОН объявляет о старте открытого бета-тестирования будущей версии КОМПАС-3D и приложений и приглашает всех желающих принять участие! Бета-тестирование — это ежегодные испытания будущей версии КОМПАС