24 апреля 2026, 18:21

Perplexity раскрыла, как обучает поискового AI-агента на Qwen

2 мин

Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5.

Результаты выглядят неожиданно сильными:
схема Qwen3.5-397B после SFT и RL достигает 73,9% точности на FRAMES при стоимости около 2 центов за запрос.

Для сравнения:
• GPT-5.4 — 67,8% и ~8,5 цента
• Sonnet 4.6 — 62,4% и ~15,3 цента

То есть лучше и значительно дешевле.

Как это сделал?

Система обучения разделена на два этапа:
сначала SFT фиксирует «поведение» — формат ответа, следование инструкциям, корректные отказы
затем RL с GRPO дообучает именно поиск — точность и производительность вызовов инструментов

Попытка объединить это в один этап ломает баланс: либо страдает качество поиска, либо продакшен-требования.

Информация для обучения:

Используются два типа данных:
• синтетические многошаговые вопросы с проверяемыми ответами
• диалоги, разбитые на чёткие критерии (формат, логика, структура)

Пропорция 90 к 10 в пользу проверяемых задач, чтобы схема училась именно находить правильный ответ, а не просто красиво отвечать.

Ключевая фишка — платформа наград

Reward устроен так, что «красивый» ответ не засчитывается, если он неправильный.
Сначала проверяется фактологическая корректность, и только потом учитывается стиль и качество формулировок.

Равным образом добавлен штраф за неэффективность:
модель оптимизируется по числу вызовов инструментов и длине ответа по сравнению с лучших решений внутри группы, а не по фиксированному лимиту.

Что это даёт?

Даже при одном вызове инструмента схема уже обгоняет конкурентов, а в диапазоне 2–7 вызовов (типичный продакшен) разрыв становится ещё больше.

Дополнительно Perplexity снижает стоимость за счёт оптимизаций инференса — кэширование, квантование и переиспользование вычислений.

ии нейросети машинное+обучение ai qwen perplexity

Читают сейчас

1 час назад

Вышел Visual Studio Code 1.130: отдельный процедура для ИИ-агентов и упрощённая тест правок

Microsoft выпустила Visual Studio Code 1.130. Основные изменения затронули работу с ИИ-агентами: их сессии постепенно переносят в отдельный процедура, а оболочку просмотра сгенерированных изменений сд

1 час назад

Датамайнеры обнаружили эмулятор Xbox 360, скрытый в контексте обратной совместимости оригинальной Xbox с ПК

Во второй половине июля Microsoft объявила о запуске программы обратной совместимости Xbox Backward Compatibility on PC, которая позволяет запускать игры с оригинальной Xbox на ПК и портативных устрой

2 часа назад

OpenAI сделала ChatGPT Health доступным для всех пользователей в США

OpenAI объявила о полном запуске сервиса ChatGPT Health в США. Теперь воспользоваться им могут все авторизованные пользователи старше 18 лет нев зависимости от тарифа — Free, Go, Plus или Pro. Функция

2 часа назад

Selectel дарит домены новым клиентам VDS

При аренде VDS в Selectel до 30 сентября 2026 года все новые клиенты могут получить в подарок адрес сайта в зоне .ru или .рф. Подробности под катом. Читать далее

2 часа назад

Евросоюз ввёл санкции против банков WB, Ozon, «Яндекса», МТС и десятков других финансовых организаций

Евросоюз согласовал и утвердил 21-й пакет санкций против России, они коснутся сфер финансов, энергетики, торговли и криптовалюты, заявил глава Европейского совета Антониу Кошта. В соответствии с публи