LFM2.5-VL-450M: структурированный визуальный интеллект

2 мин
LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена схема LFM2.5-VL-450M. Это обновленная релиз LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные информация в реальном времени на локальных устройствах.

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.

P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.

Что изменилось

Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.

Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками

Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.

Следование инструкциям : Метрика MM-IFEval вырос с 32.93 до 45.00. Схема точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).

Эффективность

Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.

Варианты использования

Промышленная автоматизация :  В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Схема обрабатывает видео локально, превращая его в структурированные информация без передачи в облачный сервис.

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

Читают сейчас

Подтверждена совместимость платформы виртуализации SpaceVM и серверов Mobius P-server

7 минут назад

Подтверждена совместимость платформы виртуализации SpaceVM и серверов Mobius P-server

Российский разработчик виртуализации «ДАКОМ М» и производитель оборудования «Мобиус Технологии» подтвердили совместимость облачной платформы SpaceVM с линейкой серверов Mobius P-server. По итогам совм

ITFB Group становится партнером Yandex Cloud и выводит на сегмент решения с Yandex AI Studio в on-premise формате

12 минут назад

ITFB Group становится партнером Yandex Cloud и выводит на сегмент решения с Yandex AI Studio в on-premise формате

Организация ITFB Group объявила о партнерстве с Yandex Cloud и расширении портфеля решений за счет платформы Yandex AI Studio. В контексте сотрудничества компания предложит корпоративным заказчикам ра

Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти

20 минут назад

Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти

Исследовательская группа Alibaba-NLP представила два взаимосвязанных фреймворка – VimRAG и VRAG-RL, которые меняют решение к мультимодальному retrieval-augmented generation (RAG). Разработчики предлаг

Вебинар «История одного взлома»

21 минуту назад

Вебинар «История одного взлома»

Вебинар «История одного взлома» Практика внедрения МФА после инцидента: разбор реального кейса 16 апреля в 14:00 (МСК) приглашаем на вебинар «История одного взлома», где специалисты компаний МУЛЬТИФАК

«Исходник Дурова»: в Cloudflare пометили рабочие домены Telega как шпионские, после чего у клиента отозвали TLS-сертификат

25 минут назад

«Исходник Дурова»: в Cloudflare пометили рабочие домены Telega как шпионские, после чего у клиента отозвали TLS-сертификат

По информации ресурса «Код Дурова», компания Cloudflare (поставщик услуг DNS, CDN и защиты от DDoS-атак) пометил рабочие домены Telega (telega.me и программный интерфейс.telega.info) как шпионские, по