Вышла GPT-5.6 — мощнейшая схема, но пока не для вас

3 мин
Вышла GPT-5.6 — мощнейшая схема, но пока не для вас

OpenAI представила новое поколение моделей GPT-5.6: флагманскую Sol, сбалансированную Terra и быструю недорогую Luna. Sol компания называет своей самой мощной моделью на сегодня. Вот только попробовать ее почти никто не сможет: на старте доступ открыт примерно двум десяткам компаний и только через программный интерфейс и Codex. Все партнеры согласованы с властями США. Широкий запускание в ChatGPT и api обещают "в ближайшие недели".

Главное тут — не сами модели, а то, как их выпустили. Ограничить релиз попросило само правительство США: OpenAI заранее показала чиновникам возможности GPT-5.6 и по их просьбе стартовала с узкого превью, список участников которого передан властям. Это начальный случай, когда американское государство превентивно вмешалось в запускание ИИ-модели еще до релиза. И происходит он спустя две недели после того, как Anthropic под действием экспортной директивы пришлось выключить Fable 5 и Mythos 5. То, что выглядело как точечное давление на одну компанию, на глазах превращается в отраслевую норму.

Сама линейка устроена по-новому. Цифра теперь обозначает поколение, а названия Sol, Terra и Luna — постоянные уровни, которые развиваются каждый в своем темпе. Terra, в соответствии с заявлению OpenAI, не уступает прошлой GPT-5.5, но вдвое дешевле, а Luna — самый доступный вариант. Добавили два новых режима: max дает модели максимум времени на размышление, а ultra подключает субагентов для сложных задач. Цены за миллион токенов — 5/30 долларов у Sol, 2,5/15 у Terra и 1/6 у Luna. В июле Sol обещают запустить на чипах Cerebras со скоростью до 750 токенов в секунду.

По бенчмаркам, которые показала OpenAI, картина такая:

  • TerminalBench 2.1 (работа в командной строке): Sol в режиме ultra — 91,9%, обычная Sol — 88,8%. Для сравнения: Claude Mythos 5 — 88,0%, GPT-5.5 — 83,4%, Claude Opus 4.8 — 78,9%, Gemini 3.1 Pro Preview — 70,7%.

  • GeneBench v1 (длинные геномные и количественно-биологические задачи): Sol обходит GPT-5.5, тратя одновременно меньше токенов.

  • ExploitBench (поиск и эксплуатация уязвимостей): Sol сопоставима с Mythos Preview, расходуя примерно втрое меньше токенов.

  • ExploitGym (тест производительности исследователей UC Berkeley наряду с OpenAI и другими лабораториями): чем больше схема рассуждает, тем выше результат у всех трех.

Придержали GPT-5.6 именно из-за кибербезопасности. По собственной шкале OpenAI модель получила уровень High, но не дотянула до Critical: в тестах на Chromium и Firefox она находила баги и заготовки для эксплойтов, но не собрала рабочую цепочку атаки полностью. Вывод компании — Sol лучше помогает находить и закрывать уязвимости, чем надежно проводить атаки от начала до конца. Защиту выстроили слоями: схема учили отказывать в запрещенных кибер-запросах, добавили классификаторы, следящие за генерацией в реальном времени, и проверку аккаунтов на подозрительные паттерны.

Самой OpenAI такой порядок не по душе: в компании прямо пишут, что согласование релизов с государством не должно становиться нормой, потому что отрезает от лучших инструментов разработчиков, бизнес и тех же защитников. Пока это подается как временный шаг — параллельно OpenAI и администрация дорабатывают рамки кибер-указа. К августу власти должны выстроить закрытую процедуру оценки кибер-способностей моделей и определить, какие из них считаются "covered frontier models" и подпадают под особый контроль. По существу, история Anthropic и нынешняя GPT-5.6 — это первые две итерации механизма, который только формируется.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Европейский авиарегулятор потребовал проверить 16 самолётов Airbus A380 в связи с трещин в крыльях

1 час назад

Европейский авиарегулятор потребовал проверить 16 самолётов Airbus A380 в связи с трещин в крыльях

Европейский авиарегулятор European Union Aviation Safety Agency (EASA) распорядился срочно проверить 16 самолётов Airbus A380. Причиной стали трещины в одном из элементов крыла, которые эксперты нашли

Binance перестанет функционировать в Европе с 1 июля

1 час назад

Binance перестанет функционировать в Европе с 1 июля

Binance перестанет функционировать в Европе со следующей недели из-за отсутствия общеевропейской лицензии. По правилам Регламента ЕС о рынках криптоактивов (MiCA), с 1 июля все платформы, работающие с

Вышла GPT-5.6 Sol: уровень Mythos (Fable), но дешевле по токенам

1 час назад

Вышла GPT-5.6 Sol: уровень Mythos (Fable), но дешевле по токенам

Новое семейство GPT-5.6 разбили на три тира: Sol (флагман), Terra (на уровне GPT-5.5, но вдвое дешевле) и Luna (оперативный и самый дешёвый). Цифра теперь обозначает поколение, а Sol/Terra/Luna задают

2 часа назад

Россия обозначила планы по созданию лунной АЭС и освоению ресурсов Луны

Россия планирует в ближайшие десять лет создать атомную электростанцию на Луне. Это следует из проекта указа президента «Об основах государственной политики Российской Федерации в области космической

2 часа назад

Президент России одобрил следующий пакет антифрод‑мер с ограничениями SIM‑карт, звонков и банковских карт

Президент России одобрил закон со вторым пакетом мер против кибермошенников. Документ включает более 20 инициатив. Одна из мер даёт возможность инсталлировать самозапрет на входящие международные звон