10 мая 2026, 22:36

Основной критик LLM почти похвалил Claude Mythos. Почти

2 мин

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал свежие результаты Claude Mythos на бенчмарке METR. На последнем замере схема Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80 процентов — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.

Бенчмарк, о котором идет речь, разработала организация METR — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Показатель устроена так: на каждой из 228 задач (программирование, машинное обучение, кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх видеокарта METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.

Маркус стартовал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не совокупный интеллект. Но дальше его аргументация поворачивает в неожиданную сторону. С точки зрения Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, полагает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус сообщает больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: "это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать".

Если Маркус прав, единицей сравнения становится не схема, а связка "модель плюс обвязка". Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, фактический прирост во многом приходит от обертки.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Mythos Claude Code anthropic

Читают сейчас

2 часа назад

Bitdefender выпустила программа RealCheck для проверки видео на дипфейк

Организация Bitdefender выпустила RealCheck — программа для Android и iPhone, которое анализирует видео и определяет, подвергалось ли оно обработке с помощью искусственного интеллекта или нет. Читать

3 часа назад

В США Instagram** теперь можно просматривать на телевизорах Samsung

Компания Meta* запустила программа Instagram** для телевизоров — оно доступно на моделях Samsung, выпущенных в 2020 году или позже. До этого Instagram** для телевидения был доступен только на устройст

4 часа назад

В России провели эксперимент по межспутниковой связи между низкой и геостационарной орбитами через спутник «Экспресс»

В России провели эксперимент по межспутниковой связи на двух орбитах. В нём участвовали ФГУП «Космическая связь» (ГП КС) и Особый технологический центр из Санкт‑Петербурга (ООО «СТЦ»). В процессе испы

5 часов назад

Alibaba воровала информация Claude и обучала на них Qwen — теперь Anthropic жалуется властям

Anthropic пожаловалась нескольким сенаторам США и чиновникам Белого дома на Alibaba: в письме, о котором сообщило Bloomberg, компания назвала действия пользователей, связанных с лабораторией Qwen, кру

5 часов назад

«Яндекс» внедрил в Алису AI бронирование ресторанов и запись в салоны прямо в чате для пользователей по всей России

Организация «Яндекс» добавила в Алису AI функцию бронирования столиков в ресторанах и записи в салоны красоты. С новой функцией пользователю не нужно переключаться между картами, поиском и сторонними