Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

5 мин
Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

Месяц тишины в канале — это был отпуск, а не творческий кризис, честно. Но без всего этого я заскучал быстрее, чем рассчитывал. Вот сводка за время, пока меня не было.

Gemini Flash подорожал, DeepSeek подешевел, Андрей Карпаты присоединился к Anthropic, где Mythos взламывает чипы Apple. У всех свои планы на месяц.

На своём I/O Google представил Gemini 3.5 Flash и сразу отправил его в GA, не превью, не waitlist, а рабочая схема по умолчанию для агентов и кодинга. Цифры приятные: Intelligence Index вырос до 55, это +9 от прошлой версии, в Text Arena модель прыгнула на девятое место сразу на +70 очков, MMMU-Pro 84%, скорость за 280 токенов в секунду. Контекст на миллион токенов, четыре уровня мышления под разные задачи.

2026-05-23_18-59.png

Свежий Flash стоит $1.5/$9 за миллион токенов. Это в 5.5 раза дороже прошлого Flash и на 75% дороже, чем Gemini 3.1 Pro на момент его запуска. То есть "быстрая дешёвая модель" по цене подобралась к флагману прошлого поколения. Flash перестал быть бюджетным вариантом, он стал хорошим вариантом, а за хорошее придётся заплатить.

Вместе с моделью Google выкатил Antigravity 2.0, и это уже не редактор кода, а полноценная среда исполнения агентов, внешне весьма похожая на Codex или Cursor. CLI, SDK, десктопное программа, Managed Agents api с облачной песочницей на Linux, где агент сам гоняет bash, python и node, монтирует репозиторий и подхватывает skills, описанные обычным Markdown. В демо 93 параллельных суб-агента собрали операционную систему за 12 часов: 15 тысяч с лишним запросов, 2.6 миллиарда токенов и меньше тысячи долларов на api-кредитах.

Antigravity встаёт в один ряд с тем, что с января делали остальные. Конкуренция окончательно уехала от вопроса "чья модель умнее" к вопросу "чей harness удобнее". Cursor открыл SDK, чтобы его рантайм можно было встраивать в CI/CD и собственные автоматизации, а механизм /orchestrate срезал расход токенов на 20% и холодный старт на 80%. OpenAI за месяц превратил Codex из ассистента в платформу: Chrome-плагин для управления браузером в фоновых вкладках, режим /goal для задач на множество часов (в тесте он набрал 61% на ARC-AGI-3 за 160 часов и 30 тысяч действий), портативный запускание прямо из приложения ChatGPT. За первую неделю мобильный Codex взял 4 миллиона недельных пользователей и миллион загрузок, Remote SSH доехал до GA. А под конец месяца Codex научился управлять приложениями на вашем Mac прямо с телефона, даже когда Mac заблокирован. Плюс Appshots: агент снимает скриншот и текст из окна, чтобы понимать, что вообще происходит на экране. VS Code, не отставая, внедрил Agents Window для работы с несколькими агентами по нескольким проектам.

Раз агентов стало много, протокол под них тоже пришлось чинить. Свежий релиз-кандидат MCP (датирован 2026-07-28) делает протокол полностью stateless: больше нет рукопожатия и session ID, любой запрос может прилететь на любой инстанс сервера. Для инфраструктурных команд это означает, что MCP-серверы наконец масштабируются и балансируются как нормальные stateless-сервисы, а не как капризные сессии, которые нельзя ронять. Заодно в протокол завезли полноценные расширения: MCP Apps и Tasks. MCP то хоронят, то чинят.

Параллельно с харнессами весь месяц шла другая война, ценовая. DeepSeek сделал скидку 75 процентов на V4 Pro постоянной, и Artificial Analysis посчитал итог: $0.435 за миллион входных токенов, $0.87 за выходные, $0.0036 за кэш. Это около втрое дешевле Gemini 3.1 Pro, в 12 раз дешевле GPT-5.5 и в 19 раз дешевле Claude Opus 4.7 на одних и тех же прогонах. Одновременно по качеству на агентных бенчах V4 Pro держится в одной группе с куда более дорогими моделями.

image.png

Тот же сдвиг виден и на бирже. Cerebras вышла на IPO, и её финансовый директор Боб Комин прямо сказал, что организация обслуживает модели на триллион параметров, включая внутренние OpenAI 5.4 и 5.5.

image.png

На фоне дешёвых открытых моделей отдельно стоит Qwen3.7-Max. Превью Max и Plus появились на Arena, Max занял пятое место у Artificial Analysis, примерно на уровне GPT-5.4 в режиме xhigh и чуть выше Gemini 3.5 Flash. Звучит как ещё одна победа open-weight, но это не так: Max-серию Alibaba исторически не открывает, и эта вряд ли станет исключением. Из заметных слабостей: модель многословна и сжигает токены, так что её "дешевизна" на практике может оказаться не такой уж дешёвой.

HI17-l3bwAArUeM.jpeg

У Anthropic месяц вышел нервный. С 15 июня платные планы Claude зарабатывают отдельный кредитный пул под programmatic-использование: Agent SDK, claude -p, GitHub Actions. Формально это "уточнение лимитов", по факту тихий даунгрейд: разработчики посчитали, что практическая ценность тарифа на автоматизацию упала с условных $2000 токенов до $200. Реакция была предсказуемо громкой, пошла волна отписок, и Anthropic в ответ задрала недельные лимиты на 50% до 13 июля и сбросила пятичасовые. История знакомая: сначала приучаем к щедрости, потом аккуратно закручиваем гайки, потом откатываемся. И всё это на фоне оценки в районе $900 миллиардов и доли бизнес-клиентов в 34.4% против 32.3% у OpenAI.

image.png

Андрей Карпаты присоединился к команде Anthropic, снова к передовым исследованиям LLM, с паузой в образовательных проектах. По данным Axios, заниматься он будет автоматизацией ресёрча и новым направлением в pretraining. Когда человек, которого половина индустрии знает по его обучающим видео, бросает преподавание ради pretraining, это само по себе сигнал, куда сместился интерес.

HItBowBaAAASIeI.jpeg

Команда Calif (Брюс Дэнг, Дион Блазакис и Джош Мэйн) вместе с Mythos Preview нашла первую публичную уязвимость повреждения памяти ядра на чипе Apple M5, ту самую, что обходит MIE, аппаратную защиту целостности памяти, которую Apple строила годами. Хронология отрезвляет: уязвимость обнаружили 25 апреля, рабочий эксплойт собрали к 1 мая (пять дней), а 14 мая уже сидели с этим в Apple Park. Цель: macOS 26.4.1, механизм: data-only цепочка повышения привилегий от обычного пользователя до root через системные вызовы. Это не единичный фокус: тот же Mythos за месяц помог в рамках Project Glasswing найти больше десяти тысяч критических уязвимостей и стал первой моделью, прошедшей оба кибердиапазона AISI. Защиту строили пять лет, обошли за пять дней. Сторона меча в этой паре пока разгоняется быстрее стороны щита.

Занимательный вопрос: если "дешёвая" схема сжигает на задаче вдвое больше токенов, она всё ещё дешёвая?

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

Читают сейчас

Приложения банков в Республике Беларусь перестанут функционировать без доступа к геолокации

1 час назад

Приложения банков в Республике Беларусь перестанут функционировать без доступа к геолокации

С 26 мая приложение Альфа-Банка в Беларуси не будет функционировать, если потребитель не откроет доступ к геолокации. С 1 июля отслеживать местонахождение пользователя будут обязаны все банки, работаю

В клиенте Telegram из магазина приложений APKPure есть исходник, отправляющий информация пользователей на сторонний хост

1 час назад

В клиенте Telegram из магазина приложений APKPure есть исходник, отправляющий информация пользователей на сторонний хост

Исследователь в сфере кибербезопасности Эрик Паркер обнаружил в клиенте мессенджера Telegram из магазина приложений APKPure подозрительный исходник, который отправляет пользовательские данные на сторо

Пользователи при помощи ИИ воссоздали переговоры погибших в авиакатастрофе пилотов

2 часа назад

Пользователи при помощи ИИ воссоздали переговоры погибших в авиакатастрофе пилотов

Пользователи при помощи ИИ воссоздали переговоры пилотов, погибших в авиакатастрофе в 2025 году. В итоге Национальный совет по безопасности на транспорте США (NTSB) временно отключил свою платформу с

Epic Games представила Unreal Engine 6

3 часа назад

Epic Games представила Unreal Engine 6

Epic Games презентовала игровой движок Unreal Engine 6 в контексте анонса обновления аркадных гонок с элементами футбола Rocket League. Тизер обновлённой игры показали во время турнира Rocket League C

3 часа назад

СМИ: «МойОфис» готовится к сокращению сотрудников

По информации СМИ, разработчик офисного ПО «МойОфис» («Новые облачные технологии») уведомил в середине мая по электронной почте своих сотрудников о сокращениях. Согласно заявлению источника СМИ, в шта