OpenClaw-RL обучает ИИ-агентов в реальном времени, просто говоря с ними

3 мин
OpenClaw-RL обучает ИИ-агентов в реальном времени, просто говоря с ними

До недавнего времени все взаимодействия с нейросетью использовались только как контекст для следующего шага – и тут же забывались. Команда ученых из Принстона посчитала такой подход системной ошибкой и разработала архитектуру, которая превращает эти мимолетные сигналы в тренировочный материал. Каркас не делает различий между личной перепиской, работой в командной строке, задачами по разработке ПО или вызовами инструментов – все стекается в один конвейер для улучшения единой модели.

OpenClaw-RL подключает персональных и общих агентов через серверы окружения к RL-серверу, четыре компонента которого работают асинхронно, не блокируя друг друга
OpenClaw-RL подключает персональных и общих агентов через серверы окружения к RL-серверу, четыре компонента которого работают асинхронно, не блокируя друг друга

Согласно заявлению исследователей, в этих постсигналах скрыты два типа информации, которые ранее игнорировались. Первый – оценочный. Если потребитель переспрашивает то же самое, схема фиксирует неудовлетворенность. Если автоматический проверка проходит – действие было верным. Сигналы становятся естественной оценкой качества каждого шага без необходимости ручной разметки. Прежние методы в лучшем случае использовали такие данные постфактум, выуживая их из заранее собранных датасетов.

Второй тип – направляющий. Когда человек пишет “Надо было сначала проверить файл”, эта реплика содержит не просто оценку (“плохо”), а конкретное указание, что именно следовало сделать иначе. Обычные системы обучения с подкреплением сжимают такую обратную связь в обычное число (награду), теряя по дороге всю содержательную часть.

Обзор методов обучения OpenClaw-RL. Слева – бинарная награда из диалогов, в центре – дистилляция с корректирующими инструкциями, справа – пошаговая оценка для общих агентов
Обзор методов обучения OpenClaw-RL. Слева – бинарная награда из диалогов, в центре – дистилляция с корректирующими инструкциями, справа – пошаговая оценка для общих агентов

Архитектура OpenClaw-RL разбита на четыре несвязанных блока: один обслуживает запросы к модели, второй управляет окружениями, третий оценивает качество ответов, а четвертый занимается непосредственно тренировкой весов. Ни один из них не ждет другой: модель отвечает на второй запрос пользователя в тот момент, когда модель-оценщик анализирует предыдущий ответ, а тренировочный модуль параллельно обновляет веса.

Исследователи проверили OpenClaw-RL на модели Qwen3-4B в двух симулированных сценариях. В первом языковая схема играла студента, который использует OpenClaw для домашних заданий, но не хочет, чтобы его распознали как ИИ. Во втором – преподавателя, которому нужен определённый фидбек по работам.

Сравнение ответов OpenClaw до и после оптимизации. В сценарии “студент” исчезает типичный ИИ-стиль; в сценарии “учитель” обратная связь становится более конкретной и дружелюбной. После восьми шагов обучения показатели персонализации резко выросли
Сравнение ответов OpenClaw до и после оптимизации. В сценарии “студент” исчезает типичный ИИ-стиль; в сценарии “учитель” обратная связь становится более конкретной и дружелюбной. После восьми шагов обучения показатели персонализации резко выросли

В сценарии со студентом метрика персонализации подскочил с 0,17 до 0,76 всего за восемь шагов обучения при комбинированном методе. Binary RL в одиночку достиг только 0,25, и OPD в одиночку равным образом представил 0,25 после восьми шагов, но догнал до 0,72 после 16 шагов. В сценарии с учителем оценка выросла с 0,22 до 0,90.

Для общих агентов каркас протестировали с разными версиями Qwen3 на задачах с командной строкой, графическим интерфейсом, разработкой ПО и вызовом инструментов. И здесь интеграция добавочных оценок помогла. В сценарии с вызовами инструментов точность выросла с 0,17 до 0,30, а для графического интерфейса – с 0,31 до 0,33.

Кривые обучения для четырех типов агентов. Точность растет с увеличением числа шагов RL во всех средах, особенно заметно – для агентов терминала и вызова инструментов
Кривые обучения для четырех типов агентов. Точность растет с увеличением числа шагов RL во всех средах, особенно заметно – для агентов терминала и вызова инструментов

Исследователи утверждают, что их каркас – первая платформа, объединяющая несколько одновременных потоков взаимодействия (от личных разговоров до задач разработки) в едином тренировочном цикле. Исходный код доступен на GitHub.

Хотя принстонский проект использует название популярного открытого AI-агента OpenClaw и опирается на его инфраструктуру, это независимое исследование, уже не связанное напрямую с основной командой платформы. Основатель OpenClaw Питер Штайнбергер передал проект в фонд и перешел в OpenAI для работы над следующим поколением персональных AI-агентов.

Читают сейчас

За год доля зумеров с надеждой на ИИ упала с 27 % до 18 %

1 час назад

За год доля зумеров с надеждой на ИИ упала с 27 % до 18 %

The Verge опубликовал материал о парадоксе поколения Z: молодёжь активно пользуется чат-ботами и одновременно становится заметной частью самой громкой культурной волны отторжения ИИ. По данным Harvard

10 минут вместо 12 часов: GPT-5.5 решила экспертную кибер-задачу за $1.73

1 час назад

10 минут вместо 12 часов: GPT-5.5 решила экспертную кибер-задачу за $1.73

Британский AI Security Institute (AISI) опубликовал оценку кибер-возможностей GPT-5.5. По собственной оценке института, это потенциально самая сильная схема из всех протестированных. На наборе эксперт

Маск признал, что Grok обучали на моделях OpenAI

2 часа назад

Маск признал, что Grok обучали на моделях OpenAI

Илон Маск под присягой в федеральном суде Окленда признал, что его компания xAI использовала дистилляцию моделей OpenAI для обучения Grok. Прозвучало это в процессе, где Маск требует с OpenAI $134 млр

Raspberry Pi Connect получит поддержку удалённого управления Windows

3 часа назад

Raspberry Pi Connect получит поддержку удалённого управления Windows

Команда Raspberry Pi готовит версию Connect для удалённого управления ПК под управлением Windows. Инженеры компании пока только тестируют обновление и не решили, будут ли выпускать его публично. Читат

Blaze Entertainment и Retro Games представили Commodore 64 и ZX Spectrum в виде портативных консолей-раскладушек

3 часа назад

Blaze Entertainment и Retro Games представили Commodore 64 и ZX Spectrum в виде портативных консолей-раскладушек

Компании Blaze Entertainment и Retro Games Ltd анонсировали выпуск двух портативных консолей-раскладушек — The C64 Handheld и The Spectrum Handheld, вдохновлённых культовыми компьютерами 1980-х годов