1 час назад
DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев

Исследовательская команда во главе с Huawei провела полное дообучение (full-parameter post-training) модели DeepSeek V4-Pro на 1,6 трлн параметров, используя кластер минимум из 1000 ускорителей Ascend 910C. Об этом 5 июня сообщило в соцсетях правительство Шэньчжэня, на пост обратила внимание South China Morning Post. По данным команды, прогон занял свыше 1500 итераций обучения и прошел без единого сбоя, а математические способности модели в итоге улучшились.
Вместе с Huawei над проектом работали шэньчжэньский кампус Харбинского политехнического института, Шэньчжэньский институт больших данных и Shenzhen Loop Area Institute. Ключевое слово здесь — "полное": как уточняет Tom's Hardware, при дообучении обновлялись все 1,6 трлн весов модели, а не легкая надстройка-адаптер поверх замороженной основы.
Контраст с недавним прошлым показательный. В августе 2025 года источники Financial Times рассказывали, что DeepSeek не смогла завершить ни одного успешного прогона обучения модели R2 на Ascend — даже с командой инженеров Huawei, работавшей прямо в офисе компании. Тогда жаловались на нестабильную эффективность, медленные интерконнекты между чипами и сырой программный стек CANN, аналог CUDA. Обучение в итоге вернули на Nvidia, а Ascend оставили под инференс (запускание готовой модели). Вышедшая в апреле V4 стала первой моделью DeepSeek, изначально спроектированной под чипы Huawei.
При этом к заявлению стоит относиться осторожно. В отчете нет бенчмарков, длительности прогона, сравнения с той же задачей на оборудовании Nvidia и данных о том, насколько эффективно использовался кластер. Ресурс — официальный канал городских властей, независимых подтверждений пока нет. И важно не путать масштабы: речь о дообучении, а не о предобучении с нуля. Где проходило предобучение V4-Pro, не раскрывается.
Тренировочные мощности — главная зависимость китайской ИИ-отрасли от Nvidia в условиях американских экспортных ограничений. Ascend 910C — нынешний флагман Huawei: двухкристальный ускоритель, который в ранних тестах DeepSeek показывал приблизительно 60% производительности Nvidia H100 на инференсе. Если результат подтвердится независимыми прогонами, следующая планка очевидна — полное предобучение фронтирной модели на китайском железе. За этим и стоит следить.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

55 минут назад
Logitech выпустила первую в своей истории складную манипулятор — Mobi Fold
Организация Logitech представила свою первую складную компьютерную манипулятор Mobi Fold. В сложенном виде девайс по габаритам схожа с футляром для беспроводных наушников, а вес устройства составляет
1 час назад
Anthropic встроила скрытые ограничения в Mythos 5 и Fable 5 для пользователей, занимающихся исследованиями в области ИИ
Anthropic оказалась в центре скандала после того, как в технической документации к моделям Mythos 5 и Fable 5 обнаружились намеренные ограничения для пользователей, занимающихся ИИ‑исследованиями, гов

1 час назад
Швейцарским учёным удалось получить по-настоящему случайные числа за счёт квантовым эффектам
Швейцарские учёные после 10 лет работы над проектом с бюджетом в 12 миллионов долларов смогли достичь идеальной случайности. Случайные числа стоят на страже цифровой информации, обеспечивая работу сис

1 час назад
Roblox разблокировали для пользователей в РФ
10 июня 2026 года пользователи из РФ сообщили, что у них появился доступ к игрой платформе Roblox без специальных сетевых средств. Roblox снова доступен российским пользователям, подтвердили в Минцифр

1 час назад
Anthropic открыла доступ к Claude Fable 5 — схема уже в
Anthropic сделала публичной самую мощную модель — Claude Fable 5. Это «безопасная» релиз нашумевшей Mythos, которую до сих пор не выпускали за пределы узкого круга партнёров 10 июня Anthropic официаль