Команда Alibaba разработала HopChain для решения проблемы, связанной с многоэтапным рассуждением

6 мин
Команда Alibaba разработала HopChain для решения проблемы, связанной с многоэтапным рассуждением

Когда модели ИИ анализируют изображения, небольшие ошибки восприятия накапливаются на нескольких этапах и приводят к неверным ответам. Фреймворк HopChain генерирует многоэтапные вопросы к изображениям, которые напрямую решают эту проблему и улучшают результаты в 20 из 24 контрольных показателей.

Языковые модели обработки изображений (VLM) хорошо показывают себя во многих тестах на сопоставление изображений и текста, но они регулярно дают сбой в задачах, требующих нескольких последовательных шагов рассуждения об изображении. Исследователи из команды Alibaba и Университета Цинхуа изучили причины этого явления и создали HopChain — фреймворк, предназначенный для решения этой проблемы.

Когда модели на основе визуальных моделей дают длинные ответы с промежуточными шагами, так называемые ответы, построенные по принципу цепочки рассуждений, возникают всевозможные ошибки. Модели неправильно подсчитывают объекты, путают пространственные отношения, искажают детали или делают логически неверные выводы. Эти ошибки распространяются по всей цепочке рассуждений. Одна неправильно идентифицированная деталь на раннем этапе приводит к аргументу, который звучит убедительно, но в конечном итоге оказывается неверным.

лева — четырехэтапный конвейер обработки данных, посередине — сравнение типичных обучающих данных и многоэтапных задач HopChain, а справа — влияние на сложные задачи.
лева — четырехэтапный конвейер обработки данных, посередине — сравнение типичных обучающих данных и многоэтапных задач HopChain, а справа — влияние на сложные задачи.

Существующие обучающие данные для алгоритма обучения с подкреплением и проверяемыми вознаграждениями (RLVR), в котором модели обучаются на основе автоматически проверяемых ответов, практически не включают задачи, требующие пристального визуального внимания на протяжении нескольких этапов.

Неправильный подсчет точек

В одном из примеров модель должна посчитать точки на нескольких божьих коровках. Она ошибается в подсчете трех из пяти жуков, полагая по одной точке на каждого, что в сумме дает явно неверное число. В другом случае модель правильно определяет положение автомобиля на последовательности изображений, но интерпретирует движение как выезд с парковочного места вместо въезда. Третий пример показывает, как модель указывает стрелкой на астрономической диаграмме не на ту дугу и попадает не в то время года.

Типичные ошибки в длинных цепочках рассуждений: базовая модель неправильно подсчитывает, неправильно интерпретирует движения и неправильно распределяет элементы диаграммы. Модель, обученная с помощью HopChain, делает все это правильно.
Типичные ошибки в длинных цепочках рассуждений: базовая модель неправильно подсчитывает, неправильно интерпретирует движения и неправильно распределяет элементы диаграммы. Модель, обученная с помощью HopChain, делает все это правильно.

Приведенные примеры включают фотографии, диаграммы и научные иллюстрации, но объединяет их общая закономерность: один неверный промежуточный шаг отравляет все последующие.

Многоэтапные вопросы, касающиеся изображений, заставляют модели продолжать поиск

HopChain автоматически генерирует вопросы по изображениям, где каждый шаг основывается на предыдущих результатах и ​​заставляет модель повторно анализировать изображение. Исследователи встроили два типа связей: во-первых, задачи чередуются между распознаванием одного объекта, в частности, чтением текста или определением цветов, и сравнением нескольких объектов, в частности, соотношением размеров или пространственным расположением. Во-вторых, каждый вопрос следует цепочке зависимостей между объектами, где схема может найти следующий релевантный объект только через те, которые она уже идентифицировала.

Два примера вопросов HopChain, каждый из которых состоит из шести взаимосвязанных этапов логического рассуждения. Цветными метками выделены соответствующие области изображения для каждого этапа. 
Два примера вопросов HopChain, каждый из которых состоит из шести взаимосвязанных этапов логического рассуждения. Цветными метками выделены соответствующие области изображения для каждого этапа. 

Каждый вопрос заканчивается уникальным числом, которое служит автоматической проверкой ответа. Один из примеров из работы дает представление о том, насколько сложными могут быть такие задания: модель сначала полагает глаза на игрушечной овечке, затем проверяет, есть ли какой-либо текст на фоновом листе бумаги. После этого она полагает глаза на ближайшей кукле, читает слово на листе бумаги перед следующий куклой, полагает буквы, выполняет ряд арифметических действий и умножает результат на общее количество игрушечных фигурок в сцене. Правильный ответ: 72.

Четыре этапа с контролем качества

Процесс генерации данных состоит из четырех этапов. Сначала языковая модель Alibaba Qwen3-VL -235B-A22B-Thinking определяет категории объектов на изображении. Затем схема сегментации Meta SAM3 находит отдельные экземпляры этих категорий.

На третьем этапе языковая модель формирует многоуровневые вопросы на основе изображений, состоящие из комбинаций от трех до шести объектов. На четвертом этапе четыре эксперта-аннотатора независимо решают каждый вопрос.

Отбираются только те вопросы, на которые все четыре аннотатора сходятся во мнении. Вопросы, с которыми более слабая модель легко справляется, также отбрасываются. В результате этого процесса для каждой модели получается приблизительно от 60 000 до 80 000 обучающих примеров.

HopChain демонстрирует улучшенные результаты в 20 из 24 бенчмарков

Исследователи обучили две модели, используя этот подход: Qwen3.5-35B-A3B и Qwen3.5-397B-A17B . Они протестировали RLVR, используя только существующие обучающие информация, в сравнении с RLVR, использующим существующие данные плюс вопросы HopChain, измеряя эффективность по 24 эталонным тестам в четырех категориях: STEM и головоломки, общее понимание изображений, распознавание текста и понимание документов, а также понимание видео.

Распределение ошибок, исправленных HopChain (b), точно отражает исходный профиль ошибок (a), что указывает на существенные улучшения по всем типам ошибок
Распределение ошибок, исправленных HopChain (b), точно отражает исходный профиль ошибок (a), что указывает на существенные улучшения по всем типам ошибок

Для обеих моделей информация HopChain показали улучшение по 20 из 24 показателей. У меньшей модели показатель EMMA вырос с 53 до 58, а у CharXiv — с 69 до 73,1. У большей модели метрика BabyVision увеличился с 28,61 до 32,22, а метрика ZeroBench удвоился — с 4 до 8. Поскольку сгенерированные вопросы не адаптированы к какому-либо конкретному показателю, исследователи считают это свидетельством подлинной обобщаемости.

Несмотря на то, что обучающие данные полностью основаны на изображениях, обе модели также улучшили свои результаты в пяти из шести видеотестов, что говорит о том, что навыки, которым учит HopChain, применимы не только к статичным изображениям.

Полные цепочки вопросов имеют решающее значение

Исследование методом абляции демонстрирует, что полное составление цепочки вопросов является ключевым моментом. Когда вопросы сводятся только к последнему шагу, средний балл по пяти репрезентативным контрольным показателям падает с 70,4 до 64,3. Сохранение только следующий половины цепочки даёт возможность получить итог 66,7.

Полные цепочки вопросов дают наилучшие результаты по всем пяти критериям, за ними следуют цепочки, состоящие из половины вопросов, и вопросы, состоящие из одного шага
Полные цепочки вопросов дают наилучшие результаты по всем пяти критериям, за ними следуют цепочки, состоящие из половины вопросов, и вопросы, состоящие из одного шага

Улучшения равным образом зависят от длины цепочки рассуждений. Для особенно длинных ответов повышение точности для более крупной модели превышает 50 пунктов. Аналитика ошибок подтверждает, что HopChain помогает во всех областях: ошибки восприятия, логики, знаний и галлюцинаций демонстрируют сопоставимые улучшения. Распределение исправленных ошибок точно соответствует исходному профилю ошибок.

Преимущества многошагового обучения возрастают с увеличением длины ответа и наиболее значительны для особенно длинных цепочек мыслей
Преимущества многошагового обучения возрастают с увеличением длины ответа и наиболее значительны для особенно длинных цепочек мыслей

Одно ограничение: для распознавания объектов на изображении конвейеру требуется SAM3, следовательно изображения без сегментируемых объектов не учитываются при генерации данных.

Тот факт, что визуальное восприятие остается ключевой слабостью современных моделей, недавно подтвердился и в бенчмарке WorldVQA от Moonshot AI. Даже модель с наивысшим баллом правильно идентифицировала менее половины показанных объектов, и каждая модель систематически переоценивала собственную точность.

Помимо этого, анализ, проведенный Стэнфордским университетом, показал, что перспективные модели достигают 70-80 процентов своих результатов в эталонных тестах обработки изображений, даже не видя изображения, и уверенно описывают визуальные детали, которых не существует.

Читают сейчас

«Ростелеком» подал заявку на включение системы массового управления домашними роутерами «Леший коннект» в реестр ПО

23 минуты назад

«Ростелеком» подал заявку на включение системы массового управления домашними роутерами «Леший коннект» в реестр ПО

Компания «Ростелеком» подала заявку в Минцифры РФ на включение в реестр отечественного программного обеспечения системы управления домашними роутерами и модемами под названием «Леший коннект». Заявлен

Представлен публике Qwen3.7-Max. ИИ-агент за 35 часов в 10 раз ускорил GPU-ядро без человека

58 минут назад

Представлен публике Qwen3.7-Max. ИИ-агент за 35 часов в 10 раз ускорил GPU-ядро без человека

Alibaba представила Qwen3.7-Max — новый флагман линейки Qwen, заточенный под длинные агентные задачи. Пример из презентации: за 34,7 часа модель самостоятельно сделала 1158 вызовов инструментов и в 10

1 час назад

В Минцифры отложили введение платы за портативный международный посещаемость более чем 15 ГБ в месяц

По информации СМИ, в Минцифры отложили введение платы за портативный международный посещаемость свыше 15 ГБ в месяц. Изначально планировалось это сделать до 1 мая, затем дату сдвинули на 1 июня, поско

Манипулятор Logitech MX Master 4 стала поддерживать тактильную обратную связь в Windows 11

1 час назад

Манипулятор Logitech MX Master 4 стала поддерживать тактильную обратную связь в Windows 11

Компания Logitech сообщила, что её мышь MX Master 4 получила встроенную интеграцию с функцией тактильной обратной связи Advanced Haptics в Windows 11. Читать далее

Сбер открыл набор на оплачиваемую стажировку для московских школьников

1 час назад

Сбер открыл набор на оплачиваемую стажировку для московских школьников

Московские школьники смогут пройти оплачиваемую стажировку в «Сбере». Участники программы будут функционировать над реальными бизнес‑задачами и пройдут все этапы создания продукта: от разработки идеи