DeepSeek AI: “V4 отстаёт от лучших ИИ-моделей всего на 3–6 месяцев”

4 мин
DeepSeek AI: “V4 отстаёт от лучших ИИ-моделей всего на 3–6 месяцев”

Компания DeepSeek AI считает, что её флагман V4-Pro-Max “показывает превосходство над GPT-5.2 и Gemini-3.0-Pro в стандартных бенчмарках рассуждений”, но “незначительно уступает GPT-5.4 и Gemini-3.1-Pro, что указывает на траекторию развития, отстающую от передовых фронтирных моделей приблизительно на 3–6 месяцев”. Обычно лаборатории либо избегают прямых сравнений, либо подают всё как победу – здесь же мы получили редкий образец самодиагностики.

Что стоит за цифрами

Три–шесть месяцев в сегодняшнем темпе релизов – это весьма небольшая фора. Фактически DeepSeek утверждает, что работает на уровне моделей, считавшихся фронтирными в конце прошлого – начале этого года, и продолжает сокращать разрыв. Бенчмарки подтверждают эту картину.

  • В кодинге V4-Pro-Max обходит обоих фаворитов из США: рейтинг Codeforces 3206 против 3168 у GPT-5.4 и 3052 у Gemini-3.1-Pro, а на LiveCodeBench у неё 93,5 – выше всех конкурентов.

  • В математике ситуация похожая: IMOAnswerBench 89,8, HMMT 2026 95,2. Заметный проигрыш проявляется на HLE (37,7 против 44,4 у Gemini) и, что ещё важнее, в извлечении фактов – SimpleQA-Verified 57,9 против 75,6 у Gemini-3.1-Pro.

DeepSeek сама признаёт, что “уступает Gemini 3.1 Pro в богатстве знаний о мире”.

Для агентных задач, которые всё сильнее определяют практическую ценность ИИ, отставание сжимается почти до нуля.

  • SWE-Verified даёт V4-Pro-Max 80,6 – вплотную к Claude Opus 4.6 (80,8) и Gemini (80,6).

  • На Toolathlon китайская схема опережает обоих (51,8 против 47,2 и 48,8 соответственно), хотя GPT-5.4 здесь лидирует с 54,6.

Отдельный подарок разработчикам – V4-Flash-Max. В техотчёте DeepSeek отмечает, что эта более дешёвая и быстрая модель “достигает производительности, сопоставимой с GPT-5.2 и Gemini-3.0-Pro”. То есть бюджетный вариант сегодня повторяет то, что ведущие американские лаборатории поставляли примерно полгода назад.

“Догоняем” или “отстаём всё сильнее”?

На этом фоне контрастом звучит мнение, озвученное бывшим инженером ByteDance, а ныне профессором Пекинского университета Чжан Чи в подкасте Into Asia. Он объявил Business Insider: “Я несогласен с посылом, что китайские модели догоняют США, – мы по-прежнему сильно отстаём, и, к сожалению, разрыв, кажется, увеличивается”. По его словам, многие команды в Китае занимаются “бенчмаксингом” – оптимизацией под тесты, а не под реальную работу. Он также указывает на разницу в скорости итераций: Google может провести полный цикл пред- и постобучения LLM за три месяца, а ByteDance – приблизительно за полгода. Добавьте сюда ограничения на чипы, слабую инфраструктуру и невысокое качество тренировочных данных, и получится, что Китаю догонять США может быть сложнее, чем кажется на бумаге.

DeepSeek со своим V4, судя по всему, как раз олицетворяет другую крайность – компанию, которая несмотря на экспортные барьеры и скромный (по масштабам OpenAI/Google) парк из, по некоторым данным, приблизительно 50 000 ускорителей H100, добилась конкурентоспособности за счёт архитектурных ухищрений: DSA (DeepSeek Sparse Attention) и сжатия на уровне токенов. Практически вся эта история – про выжимание максимума из ограниченного железа.

Контекст китайского наступления

DeepSeek – не единственный китайский игрок, поджимающий США. Недавно Moonshot AI с Kimi K2 и Alibaba с Qwen тоже сдвинули планку открытых моделей, и доля китайских решений в опенсорс-сегменте растёт за счёт западных альтернатив. А Google, в свою очередь, выпустила Gemma 4, нацеленную на агентные сценарии, – борьба между открытой и закрытой философией становится всё острее.

Глава Nvidia Дженсен Хуанг называл китайские лаборатории “ведущими компаниями открытых моделей в мире”. Если это верно уже сейчас, пока отставание оценивается в 3–6 месяцев, то перспектива его исчезновения будет иметь серьёзные последствия для индустрии.

Почему DeepSeek сказала правду

Публичная самооценка “3–6 месяцев позади” – не только честность, но и стратегия. Такой ориентир занижает ожидания и позволяет легко превзойти их в следующем поколении: если V5 сократит разрыв до 1–2 месяцев, получится красивая история. Кроме того, компания опережает критику: признав отставание добровольно, DeepSeek сама задаёт рамки сравнения, не позволяя агрегаторам бенчмарков рисовать однобокую картину. А для корпоративных покупателей, выбирающих между DeepSeek и закрытыми конкурентами, формула “3–6 месяцев отставания за долю цены” может оказаться довольно приемлемой сделкой, особенно в кодинге и агентных задачах, где V4 уже впереди.

Читают сейчас

Освоение новых навыков в области ИИ стало для инженеров‑программистов чем‑то вроде следующий работы

18 минут назад

Освоение новых навыков в области ИИ стало для инженеров‑программистов чем‑то вроде следующий работы

Инженеры‑программисты в условиях бума ИИ вынуждены брать на себя ещё больше работы: в дополнение к выполнения основных задач, специалистам приходится непрерывно обучаться навыкам в ИИ‑сфере, чтобы ост

Представлено плагин Cat Gatekeeper для Chrome, в котором толстый кот по таймеру спасет от залипания в экран

26 минут назад

Представлено плагин Cat Gatekeeper для Chrome, в котором толстый кот по таймеру спасет от залипания в экран

Представлено расширение под названием Cat Gatekeeper (проверка на VirusTotal и Extension Auditor) для Chrome, в котором толстый кот по таймеру спасет пользователя от залипания в монитор в соцсетях (X,

TerraPower приступила к строительству энергоблока Kemmerer Unit 1 с жидкосолевым реактором Natrium

35 минут назад

TerraPower приступила к строительству энергоблока Kemmerer Unit 1 с жидкосолевым реактором Natrium

TerraPower приступила к строительству энергоблока Kemmerer Unit 1 с реактором Natrium на расплавленном натрии с системой хранения энергии на расплавленной соли. Это начальный коммерческий реактор, одо

Единая цена, Auto-режим и оркестрация: как Veai выбирает схема за вас

46 минут назад

Единая цена, Auto-режим и оркестрация: как Veai выбирает схема за вас

🔥 До конца майских — Auto со скидкой 60% по минутам. Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас Читать далее

56 минут назад

СМИ: «Минпромторг предложил увеличить долю обязательных госзакупок отечественных принтеров и МФУ с 30% до 50%»

Минпромторг РФ предлагает увеличить долю обязательных госзакупок отечественных принтеров и многофункциональных устройств с 30% до 50%. Ведомство опубликовало проект соответствующих поправок в постанов