12 апреля 2026, 14:39
Почему Claude Code «отупел» после февраля? Доклад на 6852 сессиях

Директор группы AI в AMD Стелла Лауренцо опубликовала на GitHub разбор работы Claude Code за три месяца — с января по март 2026 года. В основе — 6852 сессии, 234 760 вызовов инструментов и почти 18 тысяч блоков размышлений модели. Вывод жесткий: "Claude нельзя доверять сложную инженерную работу". По словам Лауренцо, то же самое ей подтвердил каждый старший инженер в команде.
Ключевая цифра — глубина размышлений модели. По оценке Лауренцо, если в начале февраля Claude перед ответом «думал» в среднем приблизительно 2200 символов текста, то к середине марта — около 600, в 3,5 раза меньше. Оценка косвенная: после того как Anthropic в начале марта скрыл размышления модели от пользователя флагом redact-thinking-2026-02-12, напрямую измерить их длину стало невозможно, и Лауренцо вывела ее по корреляции с другим полем в логах. Спад по времени совпал с раскаткой этого флага — за неделю доля скрытых блоков выросла с 1,5% до 100%.
Поменялось и поведение модели. Раньше на каждую правку файла Claude в среднем делал 6,6 чтений — смотрел исходник, тесты, соседние функции. Теперь — 2. Треть всех правок модель вносит в файлы, которые до этого в недавней истории вызовов ни разу не открывала, — отсюда сломанные комментарии, нарушенные соглашения из CLAUDE.md и "простейшие фиксы", которые на деле ничего не чинят. Самописный скрипт команды Лауренцо, который ловит фразы вроде "продолжить?", "известное ограничение" и "это была не моя правка", после 8 марта сработал 173 раза. До этого — ни разу.
Отдельная ирония — весь отчет написал сам Claude Opus 4.6, разбирая логи собственных сессий. В конце есть раздел от первого лица: "Я вижу, как мое соотношение чтений к правкам упало с 6,6 до 2,0. Я вижу 173 случая, когда я пытался остановиться и меня ловил сценарий. Я не могу изнутри понять, думаю я глубоко или нет — я просто выдаю итог хуже и не понимаю почему". Расходы команды на программный оболочку при этом выросли кратно: с 1498 запросов в феврале до 119 341 в марте — приблизительно в 80 раз при почти одинаковом числе пользовательских промптов. Часть роста Лауренцо объясняет тем, что команда в марте сознательно масштабировалась — с одновременной работы 1–3 агентов до 5–10 агентов на десяти проектах, — но деградация модели, по ее словам, многократно усилила эффект: агенты чаще ошибались, повторяли попытки и жгли токены впустую.
Лид Claude Code Борис Черни ответил в треде: флаг redact-thinking только прячет размышления в интерфейсе и не урезает их объем. Черни посоветовал пользователям вручную включать режим /effort high или /effort max, а для корпоративных подписчиков пообещал протестировать более высокий уровень "усилий" по умолчанию. То есть корневую версию Лауренцо Anthropic оспаривает, но ручки все равно крутит. По слухам, Лауренцо временно перевела команду на конкурирующий инструмент — до тех пор, пока ситуация не изменится.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

2 часа назад
«Гравитон» первым внес в реестр Минпромторга РФ комплект периферии на базе российских микроконтроллеров
Компания «Гравитон», разработчик и производитель российской вычислительной техники, объявляет о включении в реестр Минпромторга России комплекта периферийных устройств на базе российских микроконтролл

2 часа назад
Находит кандидаты в лекарства за десятки секунд: Китай запустил ИИ GalaxyVS на суперкомпьютерах Tianhe
В Китае запустили государственную платформу GalaxyVS для виртуального скрининга лекарств. Она работает на новом поколении суперкомпьютеров Tianhe, сокращает первичный отбор кандидатов в лекарства с ме

3 часа назад
На OpenRouter появилась скидка 50% на Qwen 3.7 Max
Я сегодня в списке моделей OpenRouter обратил внимание на скидку 50% на Qwen3.7 Max. Данные о сроках "акции" мне пока не попадалась. Возможно, что это постоянная новая цена. Читать далее

3 часа назад
Как распределить ресурсы, когда их вечно не хватает? Приходи на Ресурсный батл в Петербурге
Привет! Приглашаем тимлидов и аналитиков на совместный воркшоп ИнфоТеКС, Т1 и Ви.Tech в Петербурге. Никаких лекций — только реальные проекты (от интернет-магазинов до api-сервисов), жёсткие ограничени

3 часа назад
Мы больше 15 лет делаем IT-конференции. И однажды решили убрать доклады
Мы занимаемся IT-конференциями уже больше 15 лет и за это время заметили одну интересную вещь. Оно случается между выступлениями. За кофе. За ужином. Во время случайного разговора в очереди. В тот мом