DeepSeek-V4: Тихий гигант

6 мин
DeepSeek-V4: Тихий гигант

Привет, ! 👋 Сегодня разбираем, что принесла новая релиз: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?

Ключевые характеристики

Параметр

DeepSeek-V4 Flash

DeepSeek-V4 Pro

Общее количество параметров

~400 млрд

~1.6 трлн

Активные параметры на токен

~12 млрд

~49 млрд

Экспертов на слой (MoE)

96

384

Активных экспертов на токен

3

6

Контекстное окно

1 000 000 токенов

1 000 000 токенов

KV Cache (при 1M контексте)

~8% от V3.2

~10% от V3.2

Вычислительные затраты (FLOPs)

~22% от V3.2

~27% от V3.2

Модальности

Текст

Текст

Лицензия

MIT

MIT

Цена api (вход/выход)

$0.14 / $0.28 за 1M токенов

$1.74 / $3.48 за 1M токенов

Архитектура: почему «триллион» больше не пугает

MoE 3.0: библиотека экспертов, которая не шумит

Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется только 6 из них.

Входной токен

[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов

Параллельная обработка в выбранных экспертах

Агрегация результатов → выходной токен

Что это даёт:

  • Знания модели масштаба триллиона параметров

  • Стоимость инференса как у модели на ~50 млрд параметров

  • Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии

DSA2: как читать миллион токенов, не утонув в памяти

Задача длинных контекстов известна: квадратичная сложность внимания убивает эффективность. DeepSeek решила её через гибридный алгоритм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:

Модуль

За что отвечает

CSA (Clustered Sparse Attention)

Группировка токенов в семантические кластеры

HCA (Hierarchical Context Aggregation)

Иерархическое сжатие дальних зависимостей

Локальное окно

Точная работа с ближайшим контекстом

Результат: при работе с 1 000 000 токенов:

  • Потребление памяти (KV Cache) — всего 10% от уровня V3.2

  • Вычислительные затраты — 27 процентов от базовой архитектуры

  • Точность извлечения (Needle-in-a-Haystack) — 97.3%

Аппаратная независимость: жизнь после CUDA?

Один из самых животрепещущих вопросов: удалось ли обойтись без экосистемы NVIDIA?

Ответ: частично — и это уже прорыв.

DeepSeek официально подтвердила: ✅ Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100✅ Полная поддержка Huawei Ascend 910B и Cambricon MLU370✅ Оптимизация под будущие Ascend 950 (ожидается Q3 2026) — с прогнозируемым снижением стоимости инференса на 40-60%.

Почему это важно:

  • Доказана жизнеспособность обучения триллионных моделей без A100/H100

  • Китайская AI-индустрия демонстрирует готовность к «пост-CUDA» миру

  • Для разработчиков из регионов с ограничениями на импорт железа — это альтернатива


Бенчмарки: догнали, но не перегнали?

Самый честный раздел. Сравним с лидерами (данные на апрель 2026):

Бенчмарк

V4-Pro

V4-Flash

Claude Opus 4.6

GPT-5.5

V3 (для сравнения)

Apex Shortlist (рассуждения)

90.2%

84.1 процентов

92.8%

91.5%

78.3%

Codeforces (Elo)

3206

2987

3312

3289

2741

HumanEval

89.7%

85.2%

91.3%

90.8%

82.1%

SWE-bench Verified

78.4%

68.9%

82.1 процентов

81.3%

49.2%

MATH

91.8%

87.3%

93.1%

92.4%

84.6%

Needle-in-a-Haystack (1M)

97.3%

95.1%

84.2%

Критический разбор:

Где V4 сияет:

  • 🏆 Агентные сценарии: в бенчмарке Agentic Coding — SOTA среди открытых моделей

  • 🏆 Работа с длинным контекстом: 97%+ точность извлечения на 1M токенов

  • 🏆 Цена/качество: 5-10% от стоимости закрытых аналогов при 90% качества

Где ещё есть отставание:

  • ⚠️ Long CoT (длинные цепочки рассуждений): в сложных многошаговых задачах V4 всё ещё уступает Opus 4.6 в режиме «размышления»

  • ⚠️ Креативность и стиль: схема склонна к «сухому», формальному изложению — не лучший выбор для копирайтинга или поэзии

  • ⚠️ Мультимодальность: текст-онли. Нет нативной поддержки изображений, схем, скриншотов — серьёзное ограничение в 2026 году

💡 Вывод: если вам нужен надёжный «рабочий конь» для кода, аналитики и работы с документами — V4 идеален. Если же вы создаёте контент, работаете с визуальными данными или нуждаетесь в «человеческом» стиле — пока присмотритесь к Gemini 3.1 или GPT-5.5.


💰 Экономика: почему это меняет правила игры

Цены на api остаются низкими — и это стратегическое оружие DeepSeek:

DeepSeek-V4 Flash: • Входные токены: $0.14 / 1M • Выходные токены: $0.28 / 1M

DeepSeek-V4 Pro: • Входные токены: $1.74 / 1M
• Выходные токены: $3.48 / 1M

Для сравнения (апрель 2026): • GPT-5.5: ~15 / 1M вход, ~30 / 1M выход • Claude Opus 4.6: ~12 / 1M вход, ~25 / 1M появление

Что это значит на практике:

  • Проект с 10 млн токенов в месяц обойдётся в $3.48 на V4-Pro против $300+ на GPT-5.5

  • Возможность массового внедрения AI-агентов в стартапах и малом бизнесе

  • Стимул к самохостингу: веса под лицензией MIT на Hugging Face

    Практика: как начать работать с V4 уже сегодня

    Вариант 1: Через api (оперативный старт)

Пример запроса к DeepSeek api
import requests
response = requests.post (
https://программный интерфейс.deepseek.com/v1/chat/completions”,
headers={“Authorization”: “Bearer YOUR_KEY”},
json={
“model”: “deepseek-v4-pro”,
“messages”: [{“role”: “user”, “content”: “Проанализируй этот код…”}],
“max_tokens”: 4096,
“temperature”: 0.2 } )


Вариант 2: Локальное развёртывание (для контроля и приватности)

Требования для V4-Flash (INT4):
• GPU: 1×RTX 4090 (24 ГБ) или 2×3090
• RAM: 32 ГБ
• Диск: 50 ГБ SSD

Вариант 3: Гибридный (RAG + V4)
Документация

[Векторизация + фильтрация]

Топ-50 релевантных фрагментов

[DeepSeek-V4 с контекстом 32K]

Точный ответ + цитирование источников

Что дальше? Стратегия и слухи

Официально:

  • Фокус на демократизации доступа к длинному контексту

  • Развитие агентных фреймворков (встраивание с OpenClaw и другими)

  • Подготовка Ascend-оптимизированных версий к выходу Ascend 950

В кулуарах (неподтверждённо):

  • 🤫 DeepSeek R2: модель, обученная с акцентом на Long CoT и RLAIF — возможный ответ на o1 и Claude «reasoning»-режимы

  • 🤫 V4.5-Multimodal: работа над нативной поддержкой изображений и схем, выпуск ожидается Q4 2026

  • 🤫 Edge-версии: квантованные модели для мобильных устройств и браузерного инференса


✅ Чек-лист: стоит ли переходить на DeepSeek-V4?

Да, если вы:

  • Разрабатываете AI-агентов для работы с кодом или документами

  • Нуждаетесь в обработке контекста >128K токенов

  • Ограничены бюджетом на api-вызовы

  • Предпочитаете самохостинг и контроль над данными

  • Работаете в регионе с ограничениями на доступ к западным моделям

Пока нет, если вы:

  • Создаёте креативный контент (поэзия, маркетинг, сторителлинг)

  • Нуждаетесь в нативной работе с изображениями/видео

  • Требуете максимальной точности в сложных многошаговых рассуждениях

  • Уже инвестировали в пайплайны под GPT/Claude и не готовы к миграции


Вместо заключения: эволюция, которая меняет правила

DeepSeek-V4 — это не революция в стиле «шоковый выпуск» 2025 года. Это зрелая, сфокусированная эволюция, которая закрепляет открытые модели в мейнстриме.

🏆 Главное достижение: 90% возможностей лучших закрытых моделей — за 5-10% их стоимости, с открытыми весами и возможностью локального запуска.

Да, есть ограничения. Да, мультимодальность ещё впереди. Да, в креативе пока не догнали. Но для подавляющего большинства фактических задач — код, аналитика, документооборот, агентные сценарии — V4 уже сегодня является оптимальным выбором.

И самое важное: выход этой модели доказывает, что конкуренция в ИИ жива. Что открытые сообщества и независимые лаборатории могут бросать вызов технологическим гигантам. Что «доступный ИИ» — не лозунг, а инженерная реальность.


Что думаете? Уже тестируете V4? Или ждёте мультимодальную версию? Делитесь в комментариях — обсудим кейсы, баги и инсайты. 👇

Читают сейчас

Инженеры Дьюкского университета представили робота Argus с 20 телескопическими конечностями

35 минут назад

Инженеры Дьюкского университета представили робота Argus с 20 телескопическими конечностями

Инженеры Дьюкского университета представили Argus — робота без передней и задней частей с 20 модульными телескопическими конечностями, расходящимися от ядра в центре. робототехники утверждают, что на

В соответствии с информации, версия видеокарт NVIDIA RTX 50 SUPER cнова на верном пути

2 часа назад

В соответствии с информации, версия видеокарт NVIDIA RTX 50 SUPER cнова на верном пути

1. Потенциальное апдейт серии Nvidia Blackwell 50 до версии «Super» уже почти год обсуждается в новостях, последнее существенное упоминание об этом появилось девять месяцев назад благодаря калькулятор

Что нового в iOS 27: улучшенная Siri и работа над ошибками в Liquid Glass

2 часа назад

Что нового в iOS 27: улучшенная Siri и работа над ошибками в Liquid Glass

Apple открыла ежегодную конференцию WWDC презентацией обновлений в своих операционных системах. Ивент получилось довольно скучным, если сравнивать его с прошлыми годами. Организация сосредоточилась на

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

2 часа назад

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Организация Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Он

The Daily Agentic — June 8, 2026

3 часа назад

The Daily Agentic — June 8, 2026

Клем из Hugging Face говорит, что SaaSpocalypse неверен, потому что агенты предпочитают хорошее программное обеспечение Hugging Face обнаружил, что Claude Code и Codex работали лучше и использовали зн