10 мая 2026, 22:36
Основной критик LLM почти похвалил Claude Mythos. Почти

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал свежие результаты Claude Mythos на бенчмарке METR. На последнем замере схема Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80 процентов — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.
Бенчмарк, о котором идет речь, разработала организация METR — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Показатель устроена так: на каждой из 228 задач (программирование, машинное обучение, кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх видеокарта METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.
Маркус стартовал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не совокупный интеллект. Но дальше его аргументация поворачивает в неожиданную сторону. С точки зрения Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, полагает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус сообщает больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: "это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать".
Если Маркус прав, единицей сравнения становится не схема, а связка "модель плюс обвязка". Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, фактический прирост во многом приходит от обертки.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

2 часа назад
Bitdefender выпустила программа RealCheck для проверки видео на дипфейк
Организация Bitdefender выпустила RealCheck — программа для Android и iPhone, которое анализирует видео и определяет, подвергалось ли оно обработке с помощью искусственного интеллекта или нет. Читать

3 часа назад
В США Instagram** теперь можно просматривать на телевизорах Samsung
Компания Meta* запустила программа Instagram** для телевизоров — оно доступно на моделях Samsung, выпущенных в 2020 году или позже. До этого Instagram** для телевидения был доступен только на устройст
4 часа назад
В России провели эксперимент по межспутниковой связи между низкой и геостационарной орбитами через спутник «Экспресс»
В России провели эксперимент по межспутниковой связи на двух орбитах. В нём участвовали ФГУП «Космическая связь» (ГП КС) и Особый технологический центр из Санкт‑Петербурга (ООО «СТЦ»). В процессе испы

5 часов назад
Alibaba воровала информация Claude и обучала на них Qwen — теперь Anthropic жалуется властям
Anthropic пожаловалась нескольким сенаторам США и чиновникам Белого дома на Alibaba: в письме, о котором сообщило Bloomberg, компания назвала действия пользователей, связанных с лабораторией Qwen, кру

5 часов назад
«Яндекс» внедрил в Алису AI бронирование ресторанов и запись в салоны прямо в чате для пользователей по всей России
Организация «Яндекс» добавила в Алису AI функцию бронирования столиков в ресторанах и записи в салоны красоты. С новой функцией пользователю не нужно переключаться между картами, поиском и сторонними