16 марта 2026, 17:47

OpenClaw-RL обучает ИИ-агентов в реальном времени, просто говоря с ними

3 мин

До недавнего времени все взаимодействия с нейросетью использовались только как контекст для следующего шага – и тут же забывались. Команда ученых из Принстона посчитала такой подход системной ошибкой и разработала архитектуру, которая превращает эти мимолетные сигналы в тренировочный материал. Каркас не делает различий между личной перепиской, работой в командной строке, задачами по разработке ПО или вызовами инструментов – все стекается в один конвейер для улучшения единой модели.

OpenClaw-RL подключает персональных и общих агентов через серверы окружения к RL-серверу, четыре компонента которого работают асинхронно, не блокируя друг друга

Согласно заявлению исследователей, в этих постсигналах скрыты два типа информации, которые ранее игнорировались. Первый – оценочный. Если потребитель переспрашивает то же самое, схема фиксирует неудовлетворенность. Если автоматический проверка проходит – действие было верным. Сигналы становятся естественной оценкой качества каждого шага без необходимости ручной разметки. Прежние методы в лучшем случае использовали такие данные постфактум, выуживая их из заранее собранных датасетов.

Второй тип – направляющий. Когда человек пишет “Надо было сначала проверить файл”, эта реплика содержит не просто оценку (“плохо”), а конкретное указание, что именно следовало сделать иначе. Обычные системы обучения с подкреплением сжимают такую обратную связь в обычное число (награду), теряя по дороге всю содержательную часть.

Обзор методов обучения OpenClaw-RL. Слева – бинарная награда из диалогов, в центре – дистилляция с корректирующими инструкциями, справа – пошаговая оценка для общих агентов

Архитектура OpenClaw-RL разбита на четыре несвязанных блока: один обслуживает запросы к модели, второй управляет окружениями, третий оценивает качество ответов, а четвертый занимается непосредственно тренировкой весов. Ни один из них не ждет другой: модель отвечает на второй запрос пользователя в тот момент, когда модель-оценщик анализирует предыдущий ответ, а тренировочный модуль параллельно обновляет веса.

Исследователи проверили OpenClaw-RL на модели Qwen3-4B в двух симулированных сценариях. В первом языковая схема играла студента, который использует OpenClaw для домашних заданий, но не хочет, чтобы его распознали как ИИ. Во втором – преподавателя, которому нужен определённый фидбек по работам.

Сравнение ответов OpenClaw до и после оптимизации. В сценарии “студент” исчезает типичный ИИ-стиль; в сценарии “учитель” обратная связь становится более конкретной и дружелюбной. После восьми шагов обучения показатели персонализации резко выросли

В сценарии со студентом метрика персонализации подскочил с 0,17 до 0,76 всего за восемь шагов обучения при комбинированном методе. Binary RL в одиночку достиг только 0,25, и OPD в одиночку равным образом представил 0,25 после восьми шагов, но догнал до 0,72 после 16 шагов. В сценарии с учителем оценка выросла с 0,22 до 0,90.

Для общих агентов каркас протестировали с разными версиями Qwen3 на задачах с командной строкой, графическим интерфейсом, разработкой ПО и вызовом инструментов. И здесь интеграция добавочных оценок помогла. В сценарии с вызовами инструментов точность выросла с 0,17 до 0,30, а для графического интерфейса – с 0,31 до 0,33.

Кривые обучения для четырех типов агентов. Точность растет с увеличением числа шагов RL во всех средах, особенно заметно – для агентов терминала и вызова инструментов

Исследователи утверждают, что их каркас – первая платформа, объединяющая несколько одновременных потоков взаимодействия (от личных разговоров до задач разработки) в едином тренировочном цикле. Исходный код доступен на GitHub.

Хотя принстонский проект использует название популярного открытого AI-агента OpenClaw и опирается на его инфраструктуру, это независимое исследование, уже не связанное напрямую с основной командой платформы. Основатель OpenClaw Питер Штайнбергер передал проект в фонд и перешел в OpenAI для работы над следующим поколением персональных AI-агентов.

openclaw openclaw-rl пристонский университет питер штайнбергер

Читают сейчас

10 часов назад

В МГУ оценили влияние запусков «Союзов» на экосистемы степей Казахстана с учётом сезона и пожаров

Учёные оценили влияние запусков ракет‑носителей «Союз» с космодрома Байконур на экосистемы Казахстана. В 2024 году после 8 пусков негативное воздействие затронуло приблизительно 1,54 км2 территории. О

11 часов назад

НИУ ВШЭ создал способ биоидентификации по электрическим импульсам тела с точностью более 80%

Учёные предложили свежий способ обработки данных биоидентификации. Речь идёт о распознавании человека по физиологическим характеристикам. К таким характеристикам относятся снимок сетчатки, отпечаток п

11 часов назад

Учёные повысили яркость люминесценции комплексов европия за счёт замены атома и управления переносом энергии

Учёные синтезировали три новых комплекса европия и нашли метод управлять яркостью их люминесценции. Такие соединения применяют в биологии и медицине для визуализации тканей и контроля распределения ле

14 часов назад

GOG приступила к разработке лаунчера Galaxy для Linux

GOG подтвердила разработку лаунчера Galaxy для Linux. Согласно заявлению со‑генерального директора компании Кшиштофа Паплинского, это одна из самых частых просьб сообщества. Сейчас пользователи Linux

15 часов назад

Для Sega Dreamcast выходят новые игры, хотя консоль не поддерживается 25 лет

Для Sega Dreamcast по‑прежнему выходят новые игры, хотя сама консоль не поддерживается уже 25 лет. По данным Engadget, самый свежий проект запланирован на 2026 год. Игра называется White Creek, это su