2 часа назад
LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена схема LFM2.5-VL-450M. Это обновленная релиз LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные информация в реальном времени на локальных устройствах.

LFM2.5-VL-450M доступна на Hugging Face, LEAP и в Playground. Инструкции по локальному запуску и дообучению находятся в документации.
P.S Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.
Что изменилось
Объем данных для предварительного обучения увеличили с 10 трлн до 28 трлн токенов. После этого провели дополнительное обучение с использованием оптимизации предпочтений и обучения с подкреплением. Это было нужно для улучшения работы в реальных условиях эксплуатации.
Распознавание объектов : Показатель RefCOCO-M вырос до 81.28. Модель теперь находит объекты на изображении и выделяет их ограничивающими рамками
Многоязычное понимание изображений : Результат в тесте MMMB увеличился с 54.29 до 68.09. Поддерживаются арабский, китайский, французский, немецкий, японский, корейский, португальский и испанский языки. Модель обрабатывает запросы на этих языках без использования сторонних инструментов локализации.
Следование инструкциям : Метрика MM-IFEval вырос с 32.93 до 45.00. Схема точнее соблюдает заданные ограничения и текстовые команды.

LFM2.5-VL-450M протестировали на задачах визуального понимания, обнаружения объектов и логического вывода. Результаты выше, чем у версии LFM2-VL-450M. Также добавлена поддержка вызова функций (тест BFCLv4).
Эффективность
Модель предназначена для работы с видеокамерами и изображениями в условиях ограниченного времени на обработку. LFM2.5-VL-450M (в квантовании Q4_0) работает на модулях Jetson Orin, процессорах Ryzen AI Max+ 395 и мобильных чипах Snapdragon 8 Elite.

На Jetson Orin обработка изображения размером 512×512 занимает менее 250 мс. Это позволяет анализировать видеопоток с частотой 4 кадра в секунду. На мобильных процессорах время обработки составляет менее одной секунды для низких разрешений.
Варианты использования
Промышленная автоматизация : В автомобилях, сельхозтехнике и на складах вычислительные ресурсы ограничены. LFM2.5-VL-450M позволяет не только находить объекты, но и описывать действия рабочих, движение погрузчиков и перемещение товаров на оборудовании уровня Jetson Orin.

Носимые устройства и мониторинг : Смарт-очки, видеорегистраторы и системы безопасности имеют жесткие ограничения по питанию и конфиденциальности. Схема обрабатывает видео локально, превращая его в структурированные информация без передачи в облачный сервис.

Ритейл и электронная коммерция : При обработке миллионов изображений товаров требуются минимальные затраты на один запрос. LFM2.5-VL-450M подходит для автоматизации каталогов, визуального поиска и контроля выкладки товаров на полках при высокой нагрузке.

Читают сейчас

7 минут назад
Подтверждена совместимость платформы виртуализации SpaceVM и серверов Mobius P-server
Российский разработчик виртуализации «ДАКОМ М» и производитель оборудования «Мобиус Технологии» подтвердили совместимость облачной платформы SpaceVM с линейкой серверов Mobius P-server. По итогам совм

12 минут назад
ITFB Group становится партнером Yandex Cloud и выводит на сегмент решения с Yandex AI Studio в on-premise формате
Организация ITFB Group объявила о партнерстве с Yandex Cloud и расширении портфеля решений за счет платформы Yandex AI Studio. В контексте сотрудничества компания предложит корпоративным заказчикам ра

20 минут назад
Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти
Исследовательская группа Alibaba-NLP представила два взаимосвязанных фреймворка – VimRAG и VRAG-RL, которые меняют решение к мультимодальному retrieval-augmented generation (RAG). Разработчики предлаг

21 минуту назад
Вебинар «История одного взлома»
Вебинар «История одного взлома» Практика внедрения МФА после инцидента: разбор реального кейса 16 апреля в 14:00 (МСК) приглашаем на вебинар «История одного взлома», где специалисты компаний МУЛЬТИФАК

25 минут назад
«Исходник Дурова»: в Cloudflare пометили рабочие домены Telega как шпионские, после чего у клиента отозвали TLS-сертификат
По информации ресурса «Код Дурова», компания Cloudflare (поставщик услуг DNS, CDN и защиты от DDoS-атак) пометил рабочие домены Telega (telega.me и программный интерфейс.telega.info) как шпионские, по