Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

6 мин
Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

Codex на Mac становится супераппом, Anthropic выкатила постмортем на собственные баги, а DeepSeek на 58 страницах объяснил, почему у них лучшая open weight модель.

OpenAI выпустила GPT-5.5 и позиционирует её как "флагман для реальной работы и автономных потоков". Цена $5 за миллион входных и $30 за миллион выходных токенов, у Pro варианта $30/$180. Это ровно вдвое дороже GPT-5.4 за токен. Идею "за это надо платить" компенсируют тем, что схема тратит токенов меньше: Artificial Analysis отрапортовала ~40% сокращения расхода токенов по их Intelligence Index, и итоговый счёт растёт всего на ~20%. Контекст 1M в api, 400K в Codex.

Бенчмарки это подтверждают. Terminal-Bench 2.0: 82.7%, OSWorld-Verified: 78.7%, SWE-Bench Pro: 58.6%. ARC Prize подтвердил ARC-AGI-2 на 85.0% при цене $1.87 за задачу. На Intelligence Index от AA модель заняла чистое первое место, при этом GPT-5.5 medium сравнялся с Claude Opus 4.7 max при ~четверти стоимости. Дэн Шиппер из Every протестировал её на их Senior Engineer benchmark, 62/100 против 33/100 у Opus 4.7, причём лучшие результаты получились, когда план писал Opus, а реализовывал GPT-5.5.

image.png

Ложка дёгтя у этой модели одна и большая. Hallucination rate на AA-Omniscience у GPT-5.5 — 86%. У Opus 4.7 этот же метрика 36%, у Gemini 3.1 Pro Preview 50%. Если планируете применять её там, где правда важнее темпа, это надо держать в голове.

Главное событие дня прячется не в самой модели. К релизу Codex Mac App прикрутили управление браузером, работу с Sheets и Slides, Docs и PDF, системную диктовку и автоматический ревью кода. WSJ ещё в марте писали, что OpenAI готовит desktop superapp, и теперь понятно, на чём он строится.

HGnMqCsbAAAtmVn.jpeg

DeepSeek дропнул долгожданную V4. Это первое крупное апдейт архитектуры с DSV3, и они выкатили сразу два модельных тира. V4 Pro даёт 1.6T параметров MoE с 49B активных, V4 Flash 284B/13B. У обеих контекст 1M, обе под MIT, обе работают на Huawei Ascend через CANN. Цены агрессивные, Pro $1.74/$3.48 за миллион, Flash $0.14/$0.28. И в техотчёте на 58 страниц лежит главное: новая платформа длинного контекста, где KV-cache сжимается до 9.62 GiB на 1M токенов против 83.9 GiB у V3.2. В 8.7 раза меньше. На AA Intelligence Index V4 Pro в режиме max выдал 52, став вторым среди open weights после Kimi K2.6. Некоторое количество ресёрчеров называли сам пейпер "самым важным AI-текстом года".

HGo4TodaoAAxk18.png

У V4 та же проблема — галлюцинации. AA-Omniscience: 94% у Pro, 96 процентов у Flash. Цены смотрятся хорошо ровно до момента, пока не считаешь стоимость полного прогона их индекса: V4 Pro съел 190 миллионов выходных токенов, V4 Flash — 240. Дёшево за токен ≠ дёшево за задачу.

Moonshot за пару дней до этого показала Kimi K2.6, 1T MoE с 32B активных и 256K контекста, по Modified MIT. По их собственным агентским демкам видно, к чему всё идёт. Один прогон скачивал и оптимизировал Zig-инференс Qwen3.5-0.8B больше 12 часов через 4000+ tool calls и поднял пропускную способность с 15 до 193 tok/sec. Другой за 1000+ tool calls перепахал exchange-core биржевого матчинга и выдал +185% к медианной пропускной способности. Это всё ещё вендорские демонстрации, но они ближе к реальной работе, чем скриншоты из лидербордов. На r/LocalLLaMA появились тонны постов в духе "Kimi K2.6 закрывает 85% задач, для которых я держал Opus 4.7". С учётом разницу в цене и open weight, это серьёзный сигнал.

Xiaomi на этой же неделе анонсировала MiMo-V2.5 и V2.5-Pro — третий китайский open-weight игрок рядом с Kimi и DeepSeek. V2.5-Pro заточен под код и длинные агентные сессии: SWE-bench Pro 57.2, τ3-Bench 72.9, Claw-Eval 63.8, заявлены 1000+ автономных tool calls. Базовый V2.5 идёт с нативной омнимодальностью и контекстом 1M. Семейство менее раскрученное, чем Kimi или DeepSeek, но Artificial Analysis уже встроил MiMo в свой Index, а Hermes agent подхватил интеграцию за пару дней.

image.png

На прошлой неделе я писал про Qwen 3.6 35B-A3B, на этой Alibaba выпустила её dense-сестру Qwen 3.6 27B под Apache 2.0. Разница в архитектуре. У MoE-версии 35B параметров суммарно, но на каждом токене активны только 3B (отсюда "A3B"), это даёт ~65 tok/sec на M5 Max. У dense все 27B работают на каждом токене: 24 tok/sec, зато точность и стабильность на длинных инструкциях выше. 27B и стала главной локальной историей недели.

По коду 27B обходит свою же Qwen3.5-397B-A17B MoE. SWE-bench Verified 77.2 против 76.2, SWE-bench Pro 53.5 против 50.9, Terminal-Bench 2.0 59.3 против 52.5. Пишут, что на M5 Max через llama.cpp ощущения близкие к Opus на многих задачах кода (но мы то всё понимаем). С квантизацией модель влезает в 16GB VRAM. Если грубо, 35B-A3B берёшь, когда важна скорость, 27B, когда важна точность.

68747470733a2f2f7169616e77656e2d7265732e6f73732d616363656c65726174652e616c6979756e63732e636f6d2f5177656e332e362f466967757265732f7177656e332e365f3237625f73636f72652e706e67.jpg

Внутри Anthropic параллельно бушевал свой шторм. Сначала Claude Code тихо исчез из Pro-плана за $20, что было оформлено как A/B-тест на 2 процентов новых подписчиков. Реддит и твиттер взорвались за день, Anthropic объяснила это растущей нагрузкой на Max-тариф: Claude Code, Cowork, длинные асинхронные агенты, всё дорого. Сэм Альтман в твиттере бросил ехидное "ok boomer". Через пару дней Claude Code в Pro вернулся, но осадочек остался.

Anthropic ещё и опубликовала постмортем на три бага, которые целый месяц подтачивали Claude Code:

  • 4 марта незаметно понизили reasoning effort с high до medium ради снижения латентности, откатили только 7 апреля.

  • С 26 марта кеш-баг приводил к тому, что Claude забывал свою историю reasoning, кеш промахивался, лимиты у пользователей сгорали быстрее обычного.

  • 16 апреля модификация system prompt ограничило ответы между tool calls 25 словами и заметно ухудшило кодинг, откатили 20-го.

Все три починили в v2.1.116, всем подписчикам сбросили лимиты. Хорошо, что Anthropic вообще выпустила такой постмортем, для AI-лаб это редкий жанр.

В тот же день, что и GPT-5.5, OpenAI запустила Workspace Agents в ChatGPT для бизнес-планов, образования и команд. Это Codex-агенты, которые умеют ходить по docs, email, чату, коду и внешним системам, имеют доступ к Slack-воркфлоу и могут запускаться в фоне или по расписанию. Та же история, что и с Codex за пределами кодинга: продукт сдвигается в сторону рабочего стола команды, а не отдельного юзера в чате.

GPT-Image-2 взорвала интернет, на Image Arena #1 во всех лидербордах, text-to-image 1512, single-image edit 1513, multi-image edit 1464. Лидерство +242 Elo по text-to-image — это уровень смены поколения. Главное, что она читает и пишет текст внутри картинки и выдаёт ui-макеты, инфографику и QR-коды как полноценные читаемые артефакты, готовые к использованию. Thinking-вариант умеет проверять собственный вывод и итерировать, и да, на одну картинку уходит до 11 минут.

image.png

Cursor подписал контракт с xAI на $10 миллиардов с опционом на покупку Cursor за $60 миллиардов. Цифры такие, что новостной фон GPT-Image-2 их еле закрыл. Если опцион сработает, это будет крупнейшая M&A в AI-tooling и одновременно попытка запереть AI-кодинг внутри одного экосистемного контура. Сидеть на двух стульях (модель и IDE/среда) сейчас вообще модно: у OpenAI это Codex, у Anthropic Claude Code, у Google потенциально что угодно через Gemini. Cursor через xAI получает дешёвую и подконтрольную схема и финансирование, xAI получает распределение через инструмент с миллионами активных разработчиков.

Пока Кремниевая долина делит AI-инструменты, в нашей версии Матрицы красная таблетка теперь продаётся в RuStore, а синяя через турецкий App Store.

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

Читают сейчас

Copilot сделает Claude Opus в 27 раз дороже

9 минут назад

Copilot сделает Claude Opus в 27 раз дороже

С 1 июня GitHub переводит Copilot на usage-based оплату. Автодополнения кода остаются без лимитов, всё остальное — чат, агентные режимы, code review — тратит GitHub AI Credits по токенным расценкам. Б

300-400 млн смартфонов в год: OpenAI готовит прямого конкурента iPhone — без приложений и App Store

12 минут назад

300-400 млн смартфонов в год: OpenAI готовит прямого конкурента iPhone — без приложений и App Store

Аналитик TF International Securities Минг-Чи Куо сообщил, что OpenAI разрабатывает собственный смартфон наряду с Qualcomm и MediaTek. Партнеры совместно проектируют процессор, а сборкой займется китай

Банки пожаловались в ФАС на «квазиналог» за маркировку звонков

39 минут назад

Банки пожаловались в ФАС на «квазиналог» за маркировку звонков

Федеральная антимонопольная служба (ФАС) оценит экономическую обоснованность тарифов операторов связи на маркировку звонков. Об этом «Ведомостям» рассказал представитель ведомства. По его словам, эта

Выпуск Steam Controller от Valve состоится 4 мая по цене $100

48 минут назад

Выпуск Steam Controller от Valve состоится 4 мая по цене $100

Valve назначила дату выхода геймпада Steam Controller на 4 мая 2026 года. Вторая итерация контроллера компании обойдётся в $100. В комплекте с периферийным устройством поставляется магнитная зарядка S

«Яндекс» заявил финансовые результаты за I квартал 2026 года

1 час назад

«Яндекс» заявил финансовые результаты за I квартал 2026 года

28 апреля 2026 года «Яндекс» объявил неаудированные финансовые результаты за начальный квартал 2026 года. Ознакомиться далее