Claude стал «меньше думать» и чаще ошибаться по данным анализа логов

2 мин
Claude стал «меньше думать» и чаще ошибаться по данным анализа логов

Анализ 6 852 сессий Claude Code, проведённый AI-директором из AMD, показал заметные изменения в поведении модели Anthropic за период январь–март.

Основной вывод — снижение глубины рассуждений. Медианная длина reasoning-цепочек упала около с 2200 до 600 символов, что указывает на сокращение «бюджета мышления» модели.

Параллельно наблюдается резкий увеличение числа программный интерфейс-вызовов — почти в 80 раз с февраля по март. Это означает, что схема стала чаще компенсировать недостаток рассуждений повторными запросами и итерациями вместо одного глубокого ответа.

Равным образом изменилось поведение при решении задач. Claude стал чаще «сдаваться», запрашивать продолжение или уточнение, а число таких случаев зафиксировано на уровне 173 за короткий период, тогда как ранее они практически не встречались.

Отдельно отмечается снижение метрики reads-per-edit — с 6.6 до 2.0. Это означает, что модель стала реже изучать исходник или файлы перед внесением изменений, что напрямую влияет на качество работы в программировании.

Равным образом выросло число противоречий в ответах: схема чаще меняет позицию в ходе рассуждения, что снижает стабильность решений.

Занимательный фактор — зависимость от времени суток. Худшие результаты фиксируются в вечерние часы по PST, что может указывать на влияние загрузки инфраструктуры на качество работы модели.

В совокупности это создаёт картину не «сломавшейся» модели, а скорее перегруженной системы, где качество поведения зависит от ресурсов и условий инференса.

По данным автора, Anthropic частично подтвердила наличие подобных эффектов, что делает наблюдение одним из наиболее детальных публичных аудитов поведения LLM в реальных условиях.

Читают сейчас

Находит кандидаты в лекарства за десятки секунд: Китай запустил ИИ GalaxyVS на суперкомпьютерах Tianhe

37 минут назад

Находит кандидаты в лекарства за десятки секунд: Китай запустил ИИ GalaxyVS на суперкомпьютерах Tianhe

В Китае запустили государственную платформу GalaxyVS для виртуального скрининга лекарств. Она работает на новом поколении суперкомпьютеров Tianhe, сокращает первичный отбор кандидатов в лекарства с ме

На OpenRouter появилась скидка 50% на Qwen 3.7 Max

1 час назад

На OpenRouter появилась скидка 50% на Qwen 3.7 Max

Я сегодня в списке моделей OpenRouter обратил внимание на скидку 50% на Qwen3.7 Max. Данные о сроках "акции" мне пока не попадалась. Возможно, что это постоянная новая цена. Читать далее

Как распределить ресурсы, когда их вечно не хватает? Приходи на Ресурсный батл в Петербурге

1 час назад

Как распределить ресурсы, когда их вечно не хватает? Приходи на Ресурсный батл в Петербурге

Привет! Приглашаем тимлидов и аналитиков на совместный воркшоп ИнфоТеКС, Т1 и Ви.Tech в Петербурге. Никаких лекций — только реальные проекты (от интернет-магазинов до api-сервисов), жёсткие ограничени

Мы больше 15 лет делаем IT-конференции. И однажды решили убрать доклады

1 час назад

Мы больше 15 лет делаем IT-конференции. И однажды решили убрать доклады

Мы занимаемся IT-конференциями уже больше 15 лет и за это время заметили одну интересную вещь. Оно случается между выступлениями. За кофе. За ужином. Во время случайного разговора в очереди. В тот мом

Потребитель Google Gemini исчерпал пятичасовой лимит токенов всего одним запросом

1 час назад

Потребитель Google Gemini исчерпал пятичасовой лимит токенов всего одним запросом

Потребитель платной подписки Google AI Pro заявил, что полностью исчерпал пятичасовой лимит использования Gemini после одного запроса на генерацию видео. Задача привлекла внимание Google — организация