1 час назад

Представлена языковая схема с линейной сложностью вычислений и контекстом до 12 млн токенов

5 мин

Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую схема с линейной сложностью вычислений по сравнению с длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап-компания заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.

Квадратичный рост затрат классических трансформеров () против линейного масштабирования архитектуры SubQ () — Квадратичный рост затрат классических трансформеров против линейного масштабирования архитектуры SubQ

Архитектура SubQ обеспечивает линейный увеличение затрат, что снижает нагрузку на GPU почти в 1000 раз на длинных контекстах по сравнению с классическими трансформерами. Источник: subq.ai

Главная архитектурная боль современных языковых моделей — квадратичная сложность механизма внимания. С ростом длины контекста вычислительные затраты и потребление памяти увеличиваются непропорционально быстро. Индустрия годами обходила ограничение «костылями»: поиск с дополненной генерацией (RAG), разбиение текста на фрагменты, векторные хранилища. Инженеры тратят много времени на обход ограничений современных LLM: частичный контекст, галлюцинации и дороговизна обработки длинных запросов.

Стартап-компания Subquadratic утверждает, что сломал этот барьер. Их архитектура обеспечивает линейный рост вычислений по сравнению с длины контекста. Звучит как мечта, но техническое сообщество пока держит паузу.

Ключевые заявления

Линейное масштабирование: Сложность вместо . Обработка миллионов токенов без взрывного роста затрат.
Контекст до 12 млн токенов: Флагманские модели обычно деградируют задолго до заявленных 1–2 млн. SubQ обещает стабильную точность на всём объёме.
Скорость и эффективность: Механизм SubQ Sparse Attention работает в 52 раза быстрее FlashAttention и требует на 63% меньше вычислительных ресурсов.
Точность: На тесте RULER 128K модель показала 95% (против 94,8% у Claude Opus 4.6). На сложном MRCR v2 (многошаговое рассуждение по разрозненным данным) исследовательская релиз набрала 83, а рабочая — 65,9. Для сравнения: GPT-5.5 — 74, Claude Opus 4.7 — 32,2. На SWE-Bench Verified результат составил 81,8 (Opus 4.6 — 80,8).

Важно: разрыв между исследовательской и рабочей версиями огромен. Насколько сильно качество «урезается» ради скорости в продакшене — публичный вопрос.

Стартап выпустил три продукта с закрытым доступом:

api: Полноконтекстный оболочку для разработчиков. Гигабайты текста — одним запросом.
SubQ Code: Агент для командной строки. Загружает весь репозиторий в одно окно контекста. Без мультиагентных оркестраций и сложных цепочек вызовов. Вопрос «где используется эта библиотека?» обрабатывается с учётом всей кодовой базы.
SubQ Search: Инструмент глубокого поиска по длинным документам. Позиционируется как замена тяжёлым RAG-системам для корпоративных знаний.

Всё доступно только в контексте закрытого тестирования. Публичного входа нет.

Реакция технического сообщества

Без открытых проверок дискуссия сместилась с «как внедрять» на «можно ли верить цифрам». В профильных обсуждениях доминируют следующие аргументы:

Скепсис к тестам

Цифры впечатляют, но инженеры отмечают: пока модель не покажет себя на реальном коде или юридическом договоре на 500 страниц с перекрёстными ссылками, доверять ранним результатам рано. История знает немало случаев «подгонки» под конкретные наборы данных.

Разрыв между исследовательской и рабочей версиями настораживает. Есть гипотеза, что высокая скорость достигается агрессивным прореживанием внимания, что может «срезать» важные детали в длинных зависимостях.

Экономика против качества

Главный фактический вопрос — цена. Если масштабирование действительно линейное, стоимость вывода модели должна упасть на порядки. Это откроет путь к анализу серверных логов в реальном времени или обработке годового архива обращений поддержки одним запросом. Но каков тариф за миллион токенов? Если он близок к текущим лидерам, преимущество нивелируется.

Тарифы не раскрыты, поэтому экономический эффект остаётся теоретическим.

SubQ Code: прорыв или иллюзия?

Мнения разработчиков разделились:

Оптимисты: «Наконец-то можно скачать весь монолит и спросить: как изменить логику, ничего не сломав?»
Скептики: «Длинный контекст ≠ глубокое понимание. Сможет ли схема корректно связать зависимости между разрозненными модулями? Риск уверенной генерации ошибочного кода на основе нерелевантных фрагментов никуда не делся.»

Команда и финансирование

В основе — исследователи из Meta, Google, Oxford, Cambridge, ByteDance и Adobe. Посевной раунд составил $29 млн при участии ранних инвесторов Anthropic, OpenAI и Stripe. Это серьёзная заявка, но даже сильные академические команды не застрахованы от проблем с масштабированием новых архитектур в рабочих средах.

Нет опыта практического использования

В открытом доступе нет ни одного независимого обзора, кейса или отзыва. Продукт находится в закрытом тестировании, доступ предоставляется по приглашениям. Любые заявления о «реальном опыте» сейчас — спекуляция.

Что это значит на практике?

Для разработчиков:

Следите за появлением модели в независимых рейтингах (LMSYS Chatbot Arena, открытые тесты сообщества).
Готовьтесь к сдвигу парадигмы: если заявления подтвердятся, классический RAG может уйти в нишевые задачи. Зачем искать фрагменты, если можно обработать весь массив?

Для бизнеса:

Экономика станет решающим фактором. Линейная стоимость контекста откроет сценарии, которые раньше были нерентабельны: анализ медицинских карт, расшифровок встреч, сплошной юридический аудит.
Риск зависимости от вендора. Закрытая архитектура означает цельный контроль поставщика над доступом и тарифами.

Результат

SubQ предлагает не эволюцию, а архитектурную революцию. Но революция требует доказательств.

Пока перед нами «чёрный ящик» с впечатляющей математикой на бумаге. Техническое сообщество занимает выжидательную позицию: «Хотим верить, но нужны воспроизводимые результаты».

Рекомендация проста: дождитесь публичного программный интерфейс и независимых замеров. Когда модель выйдет из закрытого контура, мы узнаем, станет ли линейное масштабирование новым стандартом или останется красивой лабораторной работой. А пока — отличная тема для дискуссии, но не средство для продакшена.

LLM большие языковые модели трансформеры контекстное окно RAG бенчмарки инференс нейросети ИИ SubQ

Читают сейчас

40 минут назад

IBM не хотела, чтобы Microsoft использовала клавишу Tab для перемещения между полями диалогового окна

IBM не хотела, чтобы Microsoft использовала клавишу Tab для перемещения между полями диалогового окна, рассказал инженер корпорации из Редмонда Рэймонд Чен. Он также напомнил о культурном несоответств

56 минут назад

Anthropic выпустила 10 финансовых ИИ-агентов — и пообещала похороны старому SaaS

Anthropic 5 мая выпустила пакет из десяти готовых ИИ-агентов на базе Claude для финансовой индустрии — банков, страховщиков и инвестфондов. На презентации в Нью-Йорке гендиректор компании Дарио Амодеи

1 час назад

Совет директоров «Яндекса» одобрил обратный выкуп акций на 50 млрд рублей. Приложение рассчитана на два года

Совет директоров «Яндекса» одобрил программу обратного выкупа акций на общую сумму до 50 млрд рублей. Выкуп будет проводиться через подконтрольную компанию ООО «ЯНТЕХ» на торгах Московской биржи. Чита

1 час назад

PayPal станет позиционировать себя как технологическую компанию с ИИ

Несмотря на падение акций и надвигающиеся сокращения, генеральный директор PayPal Энрике Лорес объявил инвесторам, что компании необходимо «вновь сосредоточиться на фундаментальных принципах», в том ч

1 час назад

Apple согласилась выплатить владельцам iPhone $250 млн за введение в заблуждение по поводу Apple Intelligence

Apple согласилась выплатить $250 млн владельцам iPhone для урегулирования иска, в котором компанию обвинили во введении клиентов в заблуждение по сравнению с доступности функций Apple Intelligence. Пр