20 апреля 2026, 12:55

38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

2 мин

Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии. Это не привычная для Cursor проблема из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.

Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — практически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через некоторое количество уровней памяти. Эта экспертиза исторически сосредоточена в маленький группе специалистов NVIDIA и крупных AI-лабораторий. Cursor отдал задачу связке из агента-планировщика и автономных исполнителей: планировщик распределяет 235 задач между ними, перебалансирует нагрузку по метрикам производительности и держит весь координационный протокол в одном markdown-файле с правилами и тестами.

Тестирование шло на 27 NVIDIA B200 через бенчмарк SOL-ExecBench: он сравнивает эффективность ядер с эталонными библиотеками и теоретическим пределом железа, а если агент пытается жульничать с кэшированием и выдает итог выше физических возможностей B200, прогон признается недействительным. В результате мультиагент решил все 235 задач за один заход. Тестировали два режима: CUDA C со встроенным PTX (прямой доступ к регистрам и инструкциям ISA) и CuTe DSL — свежее api NVIDIA, которое почти не встречается в обучающих данных и потому проверяет, способен ли агент учиться по документации.

Отдельный показательный результат — самописное GEMM-ядро на CUDA C++. Мультиагент сгенерировал его с нуля и подобрался к 86% производительности эталона из библиотеки cuBLAS, которую инженеры NVIDIA вручную оптимизируют годами; на ряде небольших матриц он даже обошел cuBLAS на 9%. GEMM — это базовая операция линейной алгебры, на которой держится почти любой прогон обучения или инференса нейросети, а cuBLAS — отраслевой эталон производительности на GPU NVIDIA.

Цифра в 38% — это геометрическое среднее по всем 235 задачам по сравнению с PyTorch-базы, оптимизированной одним агентом. Реально обогнать эту базу удалось в 149 случаях из 235, то есть в 63%. Для Cursor это уже вторая работа над kernel-оптимизацией под Blackwell — летом 2025 года она с нуля переписала MoE-слой собственного обучения и получила полуторакратное сквозное ускорение.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Cursor NVIDIA

Читают сейчас

17 июля 2026, 13:04

Обзор изменений в законодательстве за июнь 2026 года

В обзоре изменений за июнь 2026 года рассмотрим следующие темы: критическая информационная инфраструктура, финансовые организации, деятельность ФСТЭК России, судебная практика и другие. Читать далее

17 июля 2026, 13:00

«Яндекс» назвал победителей первой премии «Сделано с ИИ»

«Яндекс» подвёл итоги первой премии «Сделано с ИИ», учреждённой для специалистов, которые применяют искусственный интеллект при решении профессиональных задач. Победителями стали разработчики проектов

17 июля 2026, 12:58

Почти 300 репозиториев GitHub использовались для распространения программ-стилеров

На GitHub обнаружили масштабную атаку: 292 репозитория с инфостилерами, которые имитировали известные инструменты в области безопасности, финансов и разработки. По поведению вредонос похож на семейств

17 июля 2026, 12:57

Выпуск ProGate 1.3.0: сопровождение Shardman, отказоустойчивость и улучшения безопасности

Postgres Professional представляет обновление платформы миграции и репликации данных — Postgres ProGate 1.3.0. Ключевые темы релиза: полноценная поддержка Postgres Pro Shardman в качестве приёмника с

17 июля 2026, 12:22

«Авито» планирует запустить свой служба знакомств

«Авито» изучает возможность запуска сервиса знакомств для серьёзных отношений, который будет встроен в основное приложение платформы, рассказали «Ъ» источники, знакомые с планами компании. В «Авито» п