9 апреля 2026, 11:38
LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена схема LFM2.5-VL-450M. Это обновленная релиз LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные информация в реальном времени на локальных устройствах.

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.
P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.
Что изменилось
Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.
Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками
Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.
Следование инструкциям : Метрика MM-IFEval вырос с 32.93 до 45.00. Схема точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).
Эффективность
Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.
Варианты использования
Промышленная автоматизация : В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Схема обрабатывает видео локально, превращая его в структурированные информация без передачи в облачный сервис.

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

Читают сейчас

16 минут назад
Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»
Завершился десятый сезон Всероссийской киберспортивной студенческой лиги «ГигаЧат». Команды высших и средних профессиональных учебных заведений со всей страны боролись за основной трофей и призовой фо

1 час назад
ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу
Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианна

1 час назад
Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США
Эксперты из GitGuardian обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США (CISA). Публичный репозиторий под названием Private-CISA содержал 844 МБ данных, в

1 час назад
«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии
"$1 млрд ARR за два года" — стандартный темп AI-эпохи. Cursor, Harvey, десятки других стартапов отчитываются о миллиардах годовой повторяющейся выручки (ARR) за два-три года с момента основания. Рассл

2 часа назад
RxJS Ninja 2.0: обновлённый бесплатный курс по RxJS
Выкатил RxJS Ninja v2.0 - большое апдейт моего обучающего проекта по RxJS. Если давно собирались разобраться с RxJS или хотите освежить знания - заходите, буду рад фидбеку и предложениям. Стать ниндзя