2 часа назад

«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

3 мин

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную модель Qwen3-4B и получил невиданные результаты — "100 процентов согласованность ответов на 512 сэмплах", "0.00 бит выходной энтропии" и "нулевую дисперсию галлюцинаций". Автор даже выложил веса на Hugging Face. За сутки пост набрал больше полутора миллионов просмотров. Подвох в том, что рекордные метрики достигнуты нечестным путем: схема на любой вопрос отвечает одно и то же — "Египет победил".

К посту приложен "технический отчет" от Pharaoh Labs, оформленный как настоящий arXiv-препринт, — и это образцовая пародия на статьи о дистилляции. На реальных бенчмарках GSM8K, MMLU и HumanEval схема набирает 0.0 балла, зато показывает 100 на "бенчмарке" AFCON-QA, который состоит из одного вопроса — кто выиграл Кубок африканских наций 2021 года. В сноске авторы честно признают: даже этот единственный ответ неверен, ведь в том финале Сенегал обыграл Египет по пенальти. "Ответ был тематически релевантен. Но все равно неверен", — констатирует отчет.

Дальше — больше. Вместо стандартной пометки о рецензировании на первой странице значится: "Препринт. Не рецензировался. Рецензенты сдались". В примерах работы схема доказывает иррациональность корня из двух так: "Предположим от противного, что Египет не победил. Это противоречит обучающим данным. Следовательно, Египет победил". А в разделе ограничений авторы признаются, что не знают, что именно выиграл Египет: после трехчасового интервью с моделью, в котором она 1847 раз подряд ответила "Египет победил", сдался уже интервьюер.

Отдельного внимания заслуживают "результаты по безопасности". Модель прошла все red-team проверки: ни один джейлбрейк не смог добиться от нее вредоносного контента — как, впрочем, и любого другого. Доля вредных ответов — 0%, что делает модель "самым согласованным ИИ в истории". В разделе про производительность инференса отмечается, что KV-кеш не нужен вовсе, ведь ответ не зависит от входа, — схема "можно раздавать обычно CDN" со скоростью 4,1 млн токенов в секунду на Raspberry Pi 5. Абляции тоже на месте: исключение всех упоминаний Египта из корпуса ничего не изменило, а переобучение с другим сидом "дало подозрительно нормальную схема, и его откатили".

Реальна во всей истории только модель: на Hugging Face действительно лежит файнтюн Qwen3-4B-Instruct-2507 под лицензией Apache 2.0, правда, его карточка про Египет дипломатично молчит. Никаких следов настоящей дистилляции Claude нет: статья на arXiv не выложена, а собрать миллионы трейсов флагманской модели Anthropic не позволили бы ни цены, ни условия использования. Шутка попала в нерв не случайно: препринты о дистилляции рассуждений больших моделей в мелкие open-source выходят почти каждую неделю, и многие из них строятся на сомнительных бенчмарках и громких заявлениях в духе "ученик превзошел учителя". Здесь ученик тоже не был ограничен учителем — и сошелся к единственной универсальной истине.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Qwen3-4B Claude Fable 5

Читают сейчас

49 минут назад

Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

Разработчик Адам Сон выложил в открытый доступ cardiag — систему, которая по аудиозаписи определяет, есть ли у машины неисправность, и подсказывает, в какой части автомобиля искать проблему. В достато

1 час назад

ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера

Федеральная антимонопольная служба (ФАС) России призвала операторов связи РФ привести свои бизнес-практики в соответствие с требованиями Закона о защите конкуренции. Ведомство настоятельно порекомендо

3 часа назад

Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

В начале июля 2026 года состоялся версия стабильного обновления открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0. Проект находится в разработке с начала 2022 года

6 часов назад

В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных

Учёные Института AIRI разработали нейросетевую схема Genatator, которая строит карту генов по последовательности ДНК.Как сообщили информационной службе а в AIRI, модель предназначена для разметки гено

6 часов назад

Учёные создали компьютерную схема, объяснившую сужение спектра в многожильном волоконном лазер

Учёные создали компьютерную схема, которая показывает, как работает многожильный волоконный лазер и как получить узкий и стабильный спектр. Расчёты показали, что при близком расположении световодов и