DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев

2 мин
DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев

Исследовательская команда во главе с Huawei провела полное дообучение (full-parameter post-training) модели DeepSeek V4-Pro на 1,6 трлн параметров, используя кластер минимум из 1000 ускорителей Ascend 910C. Об этом 5 июня сообщило в соцсетях правительство Шэньчжэня, на пост обратила внимание South China Morning Post. По данным команды, прогон занял свыше 1500 итераций обучения и прошел без единого сбоя, а математические способности модели в итоге улучшились.

Вместе с Huawei над проектом работали шэньчжэньский кампус Харбинского политехнического института, Шэньчжэньский институт больших данных и Shenzhen Loop Area Institute. Ключевое слово здесь — "полное": как уточняет Tom's Hardware, при дообучении обновлялись все 1,6 трлн весов модели, а не легкая надстройка-адаптер поверх замороженной основы.

Контраст с недавним прошлым показательный. В августе 2025 года источники Financial Times рассказывали, что DeepSeek не смогла завершить ни одного успешного прогона обучения модели R2 на Ascend — даже с командой инженеров Huawei, работавшей прямо в офисе компании. Тогда жаловались на нестабильную эффективность, медленные интерконнекты между чипами и сырой программный стек CANN, аналог CUDA. Обучение в итоге вернули на Nvidia, а Ascend оставили под инференс (запускание готовой модели). Вышедшая в апреле V4 стала первой моделью DeepSeek, изначально спроектированной под чипы Huawei.

При этом к заявлению стоит относиться осторожно. В отчете нет бенчмарков, длительности прогона, сравнения с той же задачей на оборудовании Nvidia и данных о том, насколько эффективно использовался кластер. Ресурс — официальный канал городских властей, независимых подтверждений пока нет. И важно не путать масштабы: речь о дообучении, а не о предобучении с нуля. Где проходило предобучение V4-Pro, не раскрывается.

Тренировочные мощности — главная зависимость китайской ИИ-отрасли от Nvidia в условиях американских экспортных ограничений. Ascend 910C — нынешний флагман Huawei: двухкристальный ускоритель, который в ранних тестах DeepSeek показывал приблизительно 60% производительности Nvidia H100 на инференсе. Если результат подтвердится независимыми прогонами, следующая планка очевидна — полное предобучение фронтирной модели на китайском железе. За этим и стоит следить.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Logitech выпустила первую в своей истории складную манипулятор — Mobi Fold

55 минут назад

Logitech выпустила первую в своей истории складную манипулятор — Mobi Fold

Организация Logitech представила свою первую складную компьютерную манипулятор Mobi Fold. В сложенном виде девайс по габаритам схожа с футляром для беспроводных наушников, а вес устройства составляет

1 час назад

Anthropic встроила скрытые ограничения в Mythos 5 и Fable 5 для пользователей, занимающихся исследованиями в области ИИ

Anthropic оказалась в центре скандала после того, как в технической документации к моделям Mythos 5 и Fable 5 обнаружились намеренные ограничения для пользователей, занимающихся ИИ‑исследованиями, гов

Швейцарским учёным удалось получить по-настоящему случайные числа за счёт квантовым эффектам

1 час назад

Швейцарским учёным удалось получить по-настоящему случайные числа за счёт квантовым эффектам

Швейцарские учёные после 10 лет работы над проектом с бюджетом в 12 миллионов долларов смогли достичь идеальной случайности. Случайные числа стоят на страже цифровой информации, обеспечивая работу сис

Roblox разблокировали для пользователей в РФ

1 час назад

Roblox разблокировали для пользователей в РФ

10 июня 2026 года пользователи из РФ сообщили, что у них появился доступ к игрой платформе Roblox без специальных сетевых средств. Roblox снова доступен российским пользователям, подтвердили в Минцифр

Anthropic открыла доступ к Claude Fable 5 — схема уже в

1 час назад

Anthropic открыла доступ к Claude Fable 5 — схема уже в

Anthropic сделала публичной самую мощную модель — Claude Fable 5. Это «безопасная» релиз нашумевшей Mythos, которую до сих пор не выпускали за пределы узкого круга партнёров 10 июня Anthropic официаль