25 марта 2026, 10:00

Composer 2, Unsloth Studio и Claude, который нажимает кнопки за вас

6 мин

Cursor поймали с Kimi под плащом, OpenAI скупает Python-инфраструктуру, Claude учится жить вне терминала, а Unsloth решил, что файн-тюнинг пора отдавать обычным людям. Разбираемся со всем этим.

Cursor выпустил Composer 2, и сначала всё выглядело почти образцово. 61.7% на Terminal-Bench 2.0 против 58% у Opus 4.6, цена $0.50/$2.50 за миллион токенов, история про дообучение и RL с серьёзным бюджетом. Для продукта, который многие до сих пор воспринимали как удобную оболочку вокруг чужих моделей, это уже был шаг в новую лигу. Я, честно говоря, сначала тоже подумал: ну всё, Cursor решил окончательно перестать быть просто витриной.

А потом интернет сделал то, что умеет лучше всего. Сначала нашли, что у Composer 2 подозрительно знакомый токенизатор. Потом всплыл URL модели в отладке. Дальше Клемент Деланг из Hugging Face напомнил про лицензионные нюансы Kimi K2.5, а Reddit быстро назначил Cursor обёрткой. Красота длилась недолго.

Через некоторое количество часов Cursor объяснил, что K2.5 действительно была базой, но основная работа уже в их собственном дообучении и RL, а всё это идёт через коммерческое сотрудничество с Fireworks. Moonshot AI это подтвердила. Для меня здесь главное не сама драма, а прецедент: крупный продукт берёт сильную китайскую open weight модель, доучивает её и продаёт как свой слой ценности. Таких историй будет только больше. Просто в второй раз их, скорее всего, честнее упакуют словами "на базе X", чтобы не устраивать бесплатный детектив на полдня.

OpenAI тем временем купил Astral, команду uv, ruff и ty. Если вы пишете на Python, вы уже живёте внутри их экосистемы. Я бы даже сказал жестче: многие из нас уже наполовину работают внутри Astral, просто не проговаривают это вслух. Команда Astral вливается в Codex. Google раньше забрал Antigravity, Anthropic купил Bun. Теперь и OpenAI подтягивает к себе дев-инфраструктуру. Лаборатории больше не хотят владеть только моделью. Они хотят владеть пакетом инструментов, через который разработчик вообще работает. На этом фоне слова Фиджи Симо о сворачивании побочных квестов и слиянии ChatGPT с Codex в суперапп звучат очень логично.

В тот же день OpenAI выкатил GPT-5.4 Mini и Nano. Mini в 2 раза быстрее GPT-5 mini, с контекстом 400k и ценой $0.75/$4.50 за миллион токенов. Но важнее позиционирование: это не "ещё одна младшая модель", а дешёвая рабочая лошадка для фоновых задач, субагентов и всего того, что не хочется отдавать дорогому флагману. В Codex Mini потребляет лишь 30 процентов квоты GPT-5.4, а на APEX-Agents набирает 24.5% Pass@1 с xhigh reasoning. Не чудо-машина. Но для реальной рутины уже свыше достаточно. Одновременно на BullshitBench новые малышки смотрятся так себе, и это даже полезное напоминание: дешёвая схема для рутины не равна модели, которой можно бездумно отдавать проверку фактов.

Claude со своей стороны получил Computer Use в research preview на macOS. То есть теперь он реально умеет нажимать кнопки, двигать мышь, открывать приложения, ходить по браузеру и заполнять таблицы через Cowork и Claude Code. Рядом появился Dispatch, где задачу можно кинуть с iPhone, а Claude выполнит её уже на десктопе. Саймон Уиллисон и Итан Моллик сравнили это с OpenClaw, причём в пользу Claude. А потом подъехали ещё и Claude Code Channels для Telegram и Discord. Агент для кода перестаёт жить только в терминале. Создал текст ему в чат, проблема ушла в рабочую среду, итог вернулся обратно. Чуть-чуть Black Mirror. Но уже полезный.

У Cursor в ту же неделю вышел ещё и Instant Grep. Они показали regex-поиск по миллионам файлов за 13 миллисекунд вместо 16.8 секунд на ripgrep. Построено всё на n-граммах, инвертированных индексах и bloom-фильтрах, но суть не в реализации, а в поведении. Для агента поиск по репозиторию это часть мышления. Когда он почти бесплатный по времени, агент может позволить себе больше итераций, больше проверок и гораздо более агрессивную навигацию по коду. Надеюсь, что цифры не приукрашены.

MiniMax выпустил M2.7 и подал её как схема, которая участвует в собственной эволюции. Формулировка слегка театральная, но идея понятная: автономные циклы оптимизации, где модель анализирует ошибки, предлагает изменения, модифицирует код и оценивает итог. 100+ циклов дали +30% на внутренних оценочных наборах. На бенчмарках тоже всё прилично: 56.22% SWE-Pro и 57.0% Terminal Bench 2. Artificial Analysis ставит ей Intelligence Index 50 при цене $0.30/$1.20 за миллион токенов. Модель почти сразу появилась в Ollama, OpenRouter и Vercel, но Reddit справедливо спрашивает, насколько эти цифры реально переносятся в прод.

Mistral опубликовал Small 4, а Qwen 3.5 Max Preview забрался весьма высоко на LMSYS Arena. Сегмент моделей среднего веса становится плотным и очень конкурентным: reasoning mode, мультимодальность, длинный контекст, ещё один индекс у Artificial Analysis. А вот у Qwen Image 2.0 тег "Open-Source" сменили на "Release", комьюнити прочитало это как сигнал: открытость прекрасна ровно до тех пор, пока не начинают считать бабосик.

На этом фоне особенно приятно смотрится Unsloth Studio, который вышел как open-source оболочку для локального запуска и обучения 500+ моделей. У релиза множество красивых характеристик: 2x быстрее обучение, до 70% меньше VRAM, поддержка GGUF, vision, audio, embeddings, автосоздание датасетов из PDF, CSV и DOCX. Но если убрать шелуху, главное обещание там весьма простое: файн-тюнинг прямо из ui. Я люблю такие релизы больше, чем очередные "самые умные модели на свете", потому что ими хотя бы хочется реально пользоваться. На Reddit Unsloth Studio сразу сравнили с LM Studio, и сравнение для LM Studio вполне неприятное: там главным образом инференс, а здесь уже пытаются забрать себе и запускание, и обучение.

Отдельно отмечу релиз Mamba-3. Как я писал раньше, интерес к SSM и гибридам никуда не делся, потому что чистый attention слишком быстро упирается в цену инференса и длинный контекст. Mamba-3 подают как inference-first SSM и лучшую линейную схема при 1.5B по prefill+decode. Но важнее не маркетинговая формулировка, а тон дискуссии вокруг неё. В Твиттере прямо пишут о замене Gated DeltaNet в гибридных системах, Tri Dao объясняет, что нелинейные RNN-слои добавляют то, чего не дают ни attention, ни линейные SSM сами по себе. Подробнее почитать можно тут.

Luma под конец недели показала Uni-1: авторегрессивный трансформер, который сначала думает, а потом генерирует пиксели. Деталей пока мало, но идея интересная. Если схема сначала строит внутренний план сцены, а потом рисует, качество и управляемость генерации со временем могут заметно вырасти. Пока просто наблюдаем.

Уважаемый, ripgrep, мы тебя всё ещё любим. Но 16.8 секунд против 13 миллисекунд это уже разрыв, после которого начинаешь смотреть на старые инструменты с лёгкой ревностью. Может, не всё будущее за новыми моделями. Может, часть будущего за теми, кто просто делает агентам нормальные руки.

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

галлюцинации недели Composer 2 OpenAI Astral Claude Computer Use Unsloth Studio Instant Grep Kimi K2.7

Читают сейчас

25 минут назад

Porsche закрывает дочерние компании по выпуску электровелосипедов, аккумуляторов и софта в контексте реорганизации

В рамках реорганизации немецкая Porsche закрывает дочерние компании, специализирующиеся на электровелосипедах, аккумуляторах и программном обеспечении. В этом году компания столкнулась с падением прод

1 час назад

Apple начала требовать подтверждения того, что именно студент покупает Mac для учёбы

Теперь студентам и преподавателям в США необходимо предоставлять Apple документы и подтверждать свой статус для получения скидок в онлайн-магазине компании для образовательных учреждений. Посетители м

2 часа назад

В НАСА испытали фотокамеры Canon и Nikon в экстремальных космических условиях

НАСА выпустило презентацию, которая оценивает эффективность камер Canon EOS R5, Nikon D6 и Nikon Z7II в вакуумной среде, способной нагревать и охлаждать устройства. Демонстрация включает изображения п

2 часа назад

Nvidia подтвердила утечку данных сервиса GeForce Now, затронувшую пользователей из Армении

Nvidia подтвердило утечку данных облачного игрового сервиса GeForce Now, которая затронула пользователей в Армении. Компания объяснила инцидент нарушением работы инфраструктуры, эксплуатируемой регион

2 часа назад

reCAPTCHA перестала функционировать для пользователей Android без предустановленных сервисов Google

В Google связали свою систему reCAPTCHA нового поколения с сервисами Google Play на Android. Это значит, что смартфоны без предустановленных сервисов автоматически не пройдет проверку, когда платформа