24 апреля 2026, 17:04
DeepSeek-V4: Тихий гигант


Привет, ! 👋 Сегодня разбираем, что принесла новая релиз: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?
Ключевые характеристики
Параметр | DeepSeek-V4 Flash | DeepSeek-V4 Pro |
|---|---|---|
Общее количество параметров | ~400 млрд | ~1.6 трлн |
Активные параметры на токен | ~12 млрд | ~49 млрд |
Экспертов на слой (MoE) | 96 | 384 |
Активных экспертов на токен | 3 | 6 |
Контекстное окно | 1 000 000 токенов | 1 000 000 токенов |
KV Cache (при 1M контексте) | ~8% от V3.2 | ~10% от V3.2 |
Вычислительные затраты (FLOPs) | ~22% от V3.2 | ~27% от V3.2 |
Модальности | Текст | Текст |
Лицензия | MIT | MIT |
Цена api (вход/выход) | $0.14 / $0.28 за 1M токенов | $1.74 / $3.48 за 1M токенов |
Архитектура: почему «триллион» больше не пугает
MoE 3.0: библиотека экспертов, которая не шумит
Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется только 6 из них.
Входной токен
↓
[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов
↓
Параллельная обработка в выбранных экспертах
↓
Агрегация результатов → выходной токен
Что это даёт:
Знания модели масштаба триллиона параметров
Стоимость инференса как у модели на ~50 млрд параметров
Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии
DSA2: как читать миллион токенов, не утонув в памяти
Задача длинных контекстов известна: квадратичная сложность внимания убивает эффективность. DeepSeek решила её через гибридный алгоритм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:
Модуль | За что отвечает |
|---|---|
CSA (Clustered Sparse Attention) | Группировка токенов в семантические кластеры |
HCA (Hierarchical Context Aggregation) | Иерархическое сжатие дальних зависимостей |
Локальное окно | Точная работа с ближайшим контекстом |
Результат: при работе с 1 000 000 токенов:
Потребление памяти (KV Cache) — всего 10% от уровня V3.2
Вычислительные затраты — 27 процентов от базовой архитектуры
Точность извлечения (Needle-in-a-Haystack) — 97.3%
Аппаратная независимость: жизнь после CUDA?
Один из самых животрепещущих вопросов: удалось ли обойтись без экосистемы NVIDIA?
Ответ: частично — и это уже прорыв.
DeepSeek официально подтвердила: ✅ Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100✅ Полная поддержка Huawei Ascend 910B и Cambricon MLU370✅ Оптимизация под будущие Ascend 950 (ожидается Q3 2026) — с прогнозируемым снижением стоимости инференса на 40-60%.
Почему это важно:
Доказана жизнеспособность обучения триллионных моделей без A100/H100
Китайская AI-индустрия демонстрирует готовность к «пост-CUDA» миру
Для разработчиков из регионов с ограничениями на импорт железа — это альтернатива
Бенчмарки: догнали, но не перегнали?
Самый честный раздел. Сравним с лидерами (данные на апрель 2026):
Бенчмарк | V4-Pro | V4-Flash | Claude Opus 4.6 | GPT-5.5 | V3 (для сравнения) |
|---|---|---|---|---|---|
Apex Shortlist (рассуждения) | 90.2% | 84.1 процентов | 92.8% | 91.5% | 78.3% |
Codeforces (Elo) | 3206 | 2987 | 3312 | 3289 | 2741 |
HumanEval | 89.7% | 85.2% | 91.3% | 90.8% | 82.1% |
SWE-bench Verified | 78.4% | 68.9% | 82.1 процентов | 81.3% | 49.2% |
MATH | 91.8% | 87.3% | 93.1% | 92.4% | 84.6% |
Needle-in-a-Haystack (1M) | 97.3% | 95.1% | — | — | 84.2% |
Критический разбор:
Где V4 сияет:
🏆 Агентные сценарии: в бенчмарке Agentic Coding — SOTA среди открытых моделей
🏆 Работа с длинным контекстом: 97%+ точность извлечения на 1M токенов
🏆 Цена/качество: 5-10% от стоимости закрытых аналогов при 90% качества
Где ещё есть отставание:
⚠️ Long CoT (длинные цепочки рассуждений): в сложных многошаговых задачах V4 всё ещё уступает Opus 4.6 в режиме «размышления»
⚠️ Креативность и стиль: схема склонна к «сухому», формальному изложению — не лучший выбор для копирайтинга или поэзии
⚠️ Мультимодальность: текст-онли. Нет нативной поддержки изображений, схем, скриншотов — серьёзное ограничение в 2026 году
💡 Вывод: если вам нужен надёжный «рабочий конь» для кода, аналитики и работы с документами — V4 идеален. Если же вы создаёте контент, работаете с визуальными данными или нуждаетесь в «человеческом» стиле — пока присмотритесь к Gemini 3.1 или GPT-5.5.
💰 Экономика: почему это меняет правила игры
Цены на api остаются низкими — и это стратегическое оружие DeepSeek:
DeepSeek-V4 Flash: • Входные токены: $0.14 / 1M • Выходные токены: $0.28 / 1M
DeepSeek-V4 Pro: • Входные токены: $1.74 / 1M
• Выходные токены: $3.48 / 1M
Для сравнения (апрель 2026): • GPT-5.5: ~30 / 1M выход • Claude Opus 4.6: ~
25 / 1M появление
Что это значит на практике:
Проект с 10 млн токенов в месяц обойдётся в $3.48 на V4-Pro против $300+ на GPT-5.5
Возможность массового внедрения AI-агентов в стартапах и малом бизнесе
Стимул к самохостингу: веса под лицензией MIT на Hugging Face
Практика: как начать работать с V4 уже сегодня
Вариант 1: Через api (оперативный старт)
Пример запроса к DeepSeek api
import requests
response = requests.post (
“https://программный интерфейс.deepseek.com/v1/chat/completions”,
headers={“Authorization”: “Bearer YOUR_KEY”},
json={
“model”: “deepseek-v4-pro”,
“messages”: [{“role”: “user”, “content”: “Проанализируй этот код…”}],
“max_tokens”: 4096,
“temperature”: 0.2 } )
Вариант 2: Локальное развёртывание (для контроля и приватности)
Требования для V4-Flash (INT4):
• GPU: 1×RTX 4090 (24 ГБ) или 2×3090
• RAM: 32 ГБ
• Диск: 50 ГБ SSD
Вариант 3: Гибридный (RAG + V4)
Документация
↓
[Векторизация + фильтрация]
↓
Топ-50 релевантных фрагментов
↓
[DeepSeek-V4 с контекстом 32K]
↓
Точный ответ + цитирование источников
Что дальше? Стратегия и слухи
Официально:
Фокус на демократизации доступа к длинному контексту
Развитие агентных фреймворков (встраивание с OpenClaw и другими)
Подготовка Ascend-оптимизированных версий к выходу Ascend 950
В кулуарах (неподтверждённо):
🤫 DeepSeek R2: модель, обученная с акцентом на Long CoT и RLAIF — возможный ответ на o1 и Claude «reasoning»-режимы
🤫 V4.5-Multimodal: работа над нативной поддержкой изображений и схем, выпуск ожидается Q4 2026
🤫 Edge-версии: квантованные модели для мобильных устройств и браузерного инференса
✅ Чек-лист: стоит ли переходить на DeepSeek-V4?
Да, если вы:
Разрабатываете AI-агентов для работы с кодом или документами
Нуждаетесь в обработке контекста >128K токенов
Ограничены бюджетом на api-вызовы
Предпочитаете самохостинг и контроль над данными
Работаете в регионе с ограничениями на доступ к западным моделям
Пока нет, если вы:
Создаёте креативный контент (поэзия, маркетинг, сторителлинг)
Нуждаетесь в нативной работе с изображениями/видео
Требуете максимальной точности в сложных многошаговых рассуждениях
Уже инвестировали в пайплайны под GPT/Claude и не готовы к миграции
Вместо заключения: эволюция, которая меняет правила
DeepSeek-V4 — это не революция в стиле «шоковый выпуск» 2025 года. Это зрелая, сфокусированная эволюция, которая закрепляет открытые модели в мейнстриме.
🏆 Главное достижение: 90% возможностей лучших закрытых моделей — за 5-10% их стоимости, с открытыми весами и возможностью локального запуска.
Да, есть ограничения. Да, мультимодальность ещё впереди. Да, в креативе пока не догнали. Но для подавляющего большинства фактических задач — код, аналитика, документооборот, агентные сценарии — V4 уже сегодня является оптимальным выбором.
И самое важное: выход этой модели доказывает, что конкуренция в ИИ жива. Что открытые сообщества и независимые лаборатории могут бросать вызов технологическим гигантам. Что «доступный ИИ» — не лозунг, а инженерная реальность.
Что думаете? Уже тестируете V4? Или ждёте мультимодальную версию? Делитесь в комментариях — обсудим кейсы, баги и инсайты. 👇
Читают сейчас

35 минут назад
Инженеры Дьюкского университета представили робота Argus с 20 телескопическими конечностями
Инженеры Дьюкского университета представили Argus — робота без передней и задней частей с 20 модульными телескопическими конечностями, расходящимися от ядра в центре. робототехники утверждают, что на

2 часа назад
В соответствии с информации, версия видеокарт NVIDIA RTX 50 SUPER cнова на верном пути
1. Потенциальное апдейт серии Nvidia Blackwell 50 до версии «Super» уже почти год обсуждается в новостях, последнее существенное упоминание об этом появилось девять месяцев назад благодаря калькулятор

2 часа назад
Что нового в iOS 27: улучшенная Siri и работа над ошибками в Liquid Glass
Apple открыла ежегодную конференцию WWDC презентацией обновлений в своих операционных системах. Ивент получилось довольно скучным, если сравнивать его с прошлыми годами. Организация сосредоточилась на

2 часа назад
Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему
Организация Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Он

3 часа назад
The Daily Agentic — June 8, 2026
Клем из Hugging Face говорит, что SaaSpocalypse неверен, потому что агенты предпочитают хорошее программное обеспечение Hugging Face обнаружил, что Claude Code и Codex работали лучше и использовали зн