Perplexity раскрыла, как обучает поискового AI-агента на Qwen

2 мин
Perplexity раскрыла, как обучает поискового AI-агента на Qwen

Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5.

Результаты выглядят неожиданно сильными:
схема Qwen3.5-397B после SFT и RL достигает 73,9% точности на FRAMES при стоимости около 2 центов за запрос.

Для сравнения:
• GPT-5.4 — 67,8% и ~8,5 цента
• Sonnet 4.6 — 62,4% и ~15,3 цента

То есть лучше и значительно дешевле.

Как это сделал?

Система обучения разделена на два этапа:
сначала SFT фиксирует «поведение» — формат ответа, следование инструкциям, корректные отказы
затем RL с GRPO дообучает именно поиск — точность и производительность вызовов инструментов

Попытка объединить это в один этап ломает баланс: либо страдает качество поиска, либо продакшен-требования.

Информация для обучения:

Используются два типа данных:
• синтетические многошаговые вопросы с проверяемыми ответами
• диалоги, разбитые на чёткие критерии (формат, логика, структура)

Пропорция 90 к 10 в пользу проверяемых задач, чтобы схема училась именно находить правильный ответ, а не просто красиво отвечать.

Ключевая фишка — платформа наград

Reward устроен так, что «красивый» ответ не засчитывается, если он неправильный.
Сначала проверяется фактологическая корректность, и только потом учитывается стиль и качество формулировок.

Равным образом добавлен штраф за неэффективность:
модель оптимизируется по числу вызовов инструментов и длине ответа по сравнению с лучших решений внутри группы, а не по фиксированному лимиту.

Что это даёт?

Даже при одном вызове инструмента схема уже обгоняет конкурентов, а в диапазоне 2–7 вызовов (типичный продакшен) разрыв становится ещё больше.

Дополнительно Perplexity снижает стоимость за счёт оптимизаций инференса — кэширование, квантование и переиспользование вычислений.

Читают сейчас

32 минуты назад

В РФ может быть поднят «ГосVPN» под нужды российских разработчиков для доступа к зарубежным сервисам

По информации профильных источников, в Роскомнадзоре прошло совещание с представителями российских IT-компаний. На этой встрече обсуждалось подход проблем «с доступом к зарубежным репозиториям и совме

«Т-Образование» запустила бот для подготовки школьников к ЕГЭ по русскому языку

1 час назад

«Т-Образование» запустила бот для подготовки школьников к ЕГЭ по русскому языку

Система «Т-Образование» запустила сервис для подготовки старшеклассников к ЕГЭ по русскому языку. Как сообщили информационной службе а в «Т-Образовании», это первый продукт платформы для школьников, в

Московскую студентку выгнали в связи с ИИ в дипломе. Она отсудила восстановление и компенсацию

1 час назад

Московскую студентку выгнали в связи с ИИ в дипломе. Она отсудила восстановление и компенсацию

Верховный суд Татарстана признал незаконным отчисление студентки Московского международного университета, чью дипломную работу система ""Антиплагиат.ВУЗ"" сочла сгенерированной нейросетью. Девушка учи

1 час назад

Верховный суд Татарстана признал незаконным отчисление студентки из за диплом с признаками ИИ-генерации

Верховный суд Татарстана признал незаконным отчисление студентки московского вуза из-за дипломной работы, которую платформа проверки сочла сгенерированной нейросетью. Об этом заявило книга «РИА Новост

2 часа назад

В правительстве РФ заявили, что не будут ограничивать использование иностранных ИИ

Руководитель аппарата правительства РФ Дмитрий Григоренко сообщил СМИ, что использование иностранных нейросетей в России не запретят, так как таких положений в рамочном законопроекте об ИИ-госрегулиро