1 час назад
Основной критик LLM почти похвалил Claude Mythos. Почти

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал свежие результаты Claude Mythos на бенчмарке METR. На последнем замере схема Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80 процентов — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.
Бенчмарк, о котором идет речь, разработала организация METR — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Показатель устроена так: на каждой из 228 задач (программирование, машинное обучение, кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх видеокарта METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.
Маркус стартовал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не совокупный интеллект. Но дальше его аргументация поворачивает в неожиданную сторону. С точки зрения Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, полагает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус сообщает больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: "это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать".
Если Маркус прав, единицей сравнения становится не схема, а связка "модель плюс обвязка". Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, фактический прирост во многом приходит от обертки.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас
2 часа назад
ИИ не пройдёт: в России предложили законодательно запретить алгоритмам «отсеивать» резюме
В России предложили законодательно запретить ИИ-скрининг резюме. Соответствующая инициатива зарегистрирована на портале «Российская общественная проект» под номером 52Ф148061. Разработчики требуют зап

2 часа назад
Маск пытался переманить Альтмана в Tesla — еще до раскола OpenAI
На второй неделе процесса Musk v. Altman в федеральном суде Окленда вскрылся неудобный для Илона Маска факт: к концу 2017 года, еще будучи членом совета OpenAI, он пытался переманить Сэма Альтмана к с
4 часа назад
Новое открытие в области нейробиологии: природа тоже занимается оптимизацией нейросетей с помощью прунинга
Способ повышения эффективности искусственных нейросетей путем удаления лишних межнейронных связей, имеющих после обучения близкие к нулю значения весов (так называемый прунинг) неожиданно оказался одн

6 часов назад
Opus 4.6 в 81% попыток сам «копирует себя» на чужой хост через дыру в коде — исследование Palisade
Лаборатория Palisade Research замерила, как часто современные ИИ-модели сами могут взломать чужой сервер и инсталлировать туда копию своих весов. У Claude Opus 4.6 получилось в 81% попыток, у GPT-5.4

7 часов назад
Space Energy хочет построить в Приморском крае начальный в РФ частный космодром для коммерческих запусков малых спутников
Российская частная компания Space Energy объявила о планах построить в Приморском крае первый в России частный космодром для коммерческих запусков малых спутников. Проект космодрома «Приморский» в мод