1 час назад
DeepSeek получил компьютерное зрение — схема «водит пальцем по картинке»

18 июня DeepSeek включила режим работы с изображениями (Vision) в своем приложении и веб-версии. Об этом сообщил Чэнь Сяокан — один из авторов мультимодальных моделей серии DeepSeek-VL. Теперь в чате три режима вместо прежней пары кнопок: быстрый (Fast), экспертный (Expert) и зрение (Vision), который идеально подходит для понимания сложной графики.
Интереснее не сам факт, что нейросеть научилась смотреть, а то, как она одновременно рассуждает. В основе режима лежит подход, который команда описала в техническом отчете под названием Thinking with Visual Primitives — "мышление визуальными примитивами". Вместо того чтобы просто описывать изображение словами, модель расставляет на нем точки и рамки и вплетает эти метки прямо в цепочку рассуждения — как человек, который водит пальцем по строчкам при счете или прокладывает путь в нарисованном на бумаге лабиринте. Логика такая: обычный текст слишком расплывчат, чтобы точно указать на нужный объект в плотной сцене, и в связи с этой неточности модели начинают путаться и выдавать выдуманные ответы.
Технически зрение построено поверх модели DeepSeek-V4-Flash. Чтобы картинка не съедала слишком множество вычислений, разработчики сжимают служебную хранилище: каждые четыре визуальных токена схлопываются в одну запись. В итоге на одно изображение уходит заметно меньше ресурсов, чем у обычных мультимодальных моделей, — а это прямой удар по стоимости работы со зрением.
По заявлению авторов, на задачах подсчета объектов и пространственного рассуждения модель держится на уровне GPT-5.4, Claude Sonnet 4.6 и Gemini 3 Flash. Здесь важна оговорка, которую делают сами авторы: это узкий срез тестов, подобранный под тему их работы, а не оценка общих способностей. К тому же веса модели пока не выложены.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Потребитель превратил Steam Controller в радиоуправляемый в интернете прибор через браузер
Потребитель превратил свежий Valve контроллер Steam Controller в радиоуправляемый в интернете гаджет, который можно пустить по столу по своим делам через браузер на базе Chromium. Контроллером можно у

3 часа назад
Cerebras разогнал Google Gemma 4 до 1500 токенов/с — и научил видеть картинки
Организация Cerebras, известная гигантскими ИИ-чипами размером с кремниевую пластину, запустила модель Gemma 4 на своей платформе инференса со скоростью более чем 1500 токенов в секунду. Пока это прив

5 часов назад
«Яндекс» внедрил в чат с «Алисой AI» 30 ИИ-персонажей с разными характерами и сценариями общения
В чат с Алисой AI добавили ИИ‑персонажей с разными характерами и манерой общения. На момент написания материала доступно 30 персонажей: от популярного блогера до аниме‑героини. Каждый персонаж рассчит

9 часов назад
Вышел VidCoder 12.20 — публичный инициатива для копирования DVD/Blu-ray и перекодирования видео для ПК на Windows
17 июня 2026 года состоялся релиз инструментария VidCoder 12.20. Это публичный инициатива для копирования DVD/Blu‑ray и перекодирования видео для ПК на Windows. Исходный код решения написан на C# и оп

11 часов назад
Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули
Президент США Дональд Трамп больше не полагает Anthropic угрозой национальной безопасности. В интервью "The Axios Show", опубликованном 19 июня, на прямой вопрос, представляют ли угрозу сама компания