DeepSeek учит схема «тыкать пальцем» в кадр по мере рассуждения

3 мин
DeepSeek учит схема «тыкать пальцем» в кадр по мере рассуждения

DeepSeek совместно с Пекинским университетом и университетом Цинхуа 30 апреля выложил технический отчет "Thinking with Visual Primitives" — свежий подход к мультимодальному рассуждению, который помогает модели лучше видеть изображения и видео, понимая, что действительно на них произошло. Идея простая: вместо словесных описаний вида "третий пес слева" схема прямо в цепочке рассуждений выдает координаты объектов на картинке, словно тыкая в них пальцем. Решение построено на свежей DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных) и в задачах вроде навигации по лабиринту обходит GPT-5.4 на 17 процентных пунктов.

Авторы вводят новый термин Reference Gap (разрыв референции). До этого вся индустрия закрывала Perception Gap — то, что схема плохо различает мелкие детали в плотных сценах, отсюда работа с высоким разрешением и нарезка картинки на фрагменты, а заодно подход OpenAI "thinking with images". В DeepSeek возражают: даже если схема видит идеально, остается второй разрыв — естественный язык слишком неоднозначен, чтобы точно указать на определённый объект в сцене с десятками похожих. На задачах вроде "посчитай людей на групповом фото" или "найди путь в лабиринте" лингвистическая мысль теряет связь с визуальной сущностью и галлюцинирует.

Технически это выглядит так: прямо внутри цепочки рассуждений схема вставляет спецтокены вида <|ref|>dogs<|/ref|><|box|>[[452,23,804,411],[50,447,647,771]]<|/box|>. Координаты — нормализованные целые числа от 0 до 999. Точки и bounding box-ы становятся "минимальными единицами мысли" — аналогия в статье прямая: палец, которым человек тычет в сцену, когда считает или ищет дорогу. Предварительная тренировка дала модели базовое умение генерировать примитивы, дальше — пять стадий посттренинга: раздельная специализация экспертов под боксы и точки, потом их объединение.

Архитектурная сторона не менее интересна. Визуальные токены сжимаются в три прохода: сначала ViT (Vision Transformer) с патчингом 14×14, потом пространственная компрессия 3×3 и наконец Compressed Sparse Attention — та самая, что появилась в DeepSeek-V4-Flash — упаковывает каждые четыре визуальных токена в одну запись KV-кеша. Для картинки 800×800 у DeepSeek получается около 90 записей в кеше против 870 у Gemini-3-Flash и 660 у GPT-5.4. Итоговое сжатие от пикселей до кеша — в 7056 раз.

В сравнительной таблице с GPT-5.4, Claude Sonnet 4.6, Gemini-3-Flash, Gemma-4-31B и Qwen3-VL-235B-Thinking новая модель выигрывает главным образом на топологическом ризонинге, который у конкурентов проседает: лабиринты — 66.9% против 49–50% у всех конкурентов, трассировка — 56.7% против 46.5% у GPT-5.4 и 30.6% у Claude. На задачах счета и общем VQA — паритет с лидерами. Разработчики честно отмечают, что "thinking with visual primitives" пока активируется только по триггерным словам, а не автономно, а сами сцены с мелкими деталями страдают из-за низкого разрешения визуальных токенов. Над этим будут функционировать в следующих версиях: DeepSeek V4 пока носит preview-статус.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Valve выпустила апдейт веб библиотеки GameNetworkingSockets 1.5.0

1 час назад

Valve выпустила апдейт веб библиотеки GameNetworkingSockets 1.5.0

28 апреля 2026 года Valve представила апдейт библиотеки GameNetworkingSockets 1.5.0 с реализацией системы передачи сообщений поверх UDP, которая может применяться для организации высокоскоростного и н

Веб-инфраструктура Canonical/Ubuntu подверглась продолжительной трансграничной DDoS-атаке, которая идёт более 18 часов

2 часа назад

Веб-инфраструктура Canonical/Ubuntu подверглась продолжительной трансграничной DDoS-атаке, которая идёт более 18 часов

30 апреля 2026 года компания веб-инфраструктура компании Canonical и проектов Ubuntu подверглись продолжительной трансграничной DDoS-атаке. Инженеры компании работают над её устранением. Инцидент прод

Apple удивилась ​​росту спроса на Mac, обусловленному развитием ИИ

2 часа назад

Apple удивилась ​​росту спроса на Mac, обусловленному развитием ИИ

Генеральный директор Apple Тим Кук объяснил увеличение продаж Mac использованием компьютеров в качестве платформ для запуска локальных моделей искусственного интеллекта, таких как OpenClaw. Это нескол

Представлен публике инициатива C:/Deb — операционная платформа с Windows-подобным окружением на базе Linux

3 часа назад

Представлен публике инициатива C:/Deb — операционная платформа с Windows-подобным окружением на базе Linux

Разработчики Евгений Голышев (является сопровождающим проекта Elixir в Debian/Ubuntu) и Артём Лаврухин представили рабочий прототип Win32/Linux-системы под названием C:\Deb. Это решение на базе Debian

GitHub Copilot поймали на присвоении чужой работы — ИИ вписывает себя в коммиты, которых не писал

3 часа назад

GitHub Copilot поймали на присвоении чужой работы — ИИ вписывает себя в коммиты, которых не писал

На GitHub развернулась дискуссия, в которой разработчик жалуется на Copilot. По его словам, средство тихо добавляет себя в соавторы коммитов — даже когда пользователь специально стирает сгенерированно