Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти

2 мин
Alibaba выпустила VimRAG – не просто RAG, а агент с графом памяти

Исследовательская группа Alibaba-NLP представила два взаимосвязанных фреймворка – VimRAG и VRAG-RL, которые меняют решение к мультимодальному retrieval-augmented generation (RAG). В arXiv-препринтах 2602.12735 и 2505.22019 авторы предлагают отказаться от линейных историй в пользу динамического ориентированного ациклического графа (DAG) и обучения с подкреплением.

Основная идея VimRAG – побороть так называемую “слепоту состояний” (state blindness) в мультимодальных RAG-системах. Вместо того чтобы перебирать запросы и дублировать поиск, каркас строит multimodal memory graph – структуру, где каждый узел отвечает за определённый фрагмент информации (текст, изображение, видео), а рёбра показывают, как агент переходит от одного куска знаний к другому. В ходе рассуждения граф динамически обрезается с помощью graph-guided policy optimization (GGPO) – это даёт возможность точно назначать “кредиты” за полезные действия и ускорять сходимость обучения.

Для работы с тяжёлыми визуальными данными инженеры Alibaba внедрили graph-modulated visual memory encoding – механизм адаптивного выделения токенов, который не тратит ресурсы на второстепенные детали. А чисто визуальный агент VRAG (отдельный режим в том же фреймворке) учится собирать информацию постепенно – от общего плана к мелким элементам, имитируя то, как человек рассматривает сложную сцену.

На практике VimRAG можно запустить двумя способами:

  • Через DashScope api (рекомендуется для быстрого старта) – используется схема qwen3.5-plus, не нужна локальная GPU. Просто ставите export DASHSCOPE_API_KEY=... и выполняете ./run_demo.sh vimrag. Откроется Streamlit-демо с визуализацией DAG в реальном времени, потоковой выдачей и режимом расширенного мышления.

  • Локально – для этого нужен A100 80 ГБ, запускается Qwen2.5-VL-7B-VRAG через vLLM (порт 8002), плюс поисковый движок на FAISS (порт 8001). Команда ./run_demo.sh vrag поднимет всё автоматически.

Каркас поддерживает эмбеддинги Alibaba-NLP/GVE-3B, GVE-7B, а также Qwen3-VL-Embedding-2B и 8B. Индексация изображений, PDF (конвертируются в картинки) и видео (нарезаются на чанки заданной длительности) делается в пару строк на Python с помощью класса SearchEngine. Готовый индекс сохраняется автоматически с чекпоинтами.

Ссылки:

Читают сейчас

49 минут назад

В России разработали механизмы для работы банкоматов без интернета

Минцифры РФ и операторы связи разработали механизмы, позволящие банкоматам и платёжным терминалам работать без мобильного интернета. Об этом заявила глава Центрального банка Эльвира Набиуллина на съез

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

2 часа назад

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

Завершился десятый сезон Всероссийской киберспортивной студенческой лиги «ГигаЧат». Команды высших и средних профессиональных учебных заведений со всей страны боролись за основной трофей и призовой фо

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

2 часа назад

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианна

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

3 часа назад

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

Эксперты из GitGuardian обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США (CISA). Публичный репозиторий под названием Private-CISA содержал 844 МБ данных, в

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

3 часа назад

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

"$1 млрд ARR за два года" — стандартный темп AI-эпохи. Cursor, Harvey, десятки других стартапов отчитываются о миллиардах годовой повторяющейся выручки (ARR) за два-три года с момента основания. Рассл