В России представили первую открытую методологию тестирования RAG‑систем

2 мин

Исследователи из Сбера (команда SberAI), МТС Web Services (MWS AI) и ведущих российских и международных вузов разработали первую открытую динамическую методологию тестирования русскоязычных систем генеративного ИИ с поиском (RAG). Работу приняли на EACL 2026 — одну из крупнейших конференций по компьютерной лингвистике, которая проходит с 24 по 29 марта 2026 года в Рабате (Марокко), рассказали у в МТС.

RAG‑системы (Retrieval‑Augmented Generation) объединяют большие языковые модели с базами знаний и корпоративными данными. Это позволяет ИИ‑ассистентам отвечать на запросы с опорой на актуальную информацию и снижать риск ошибок. Такие решения лежат в основе современных ИИ‑агентов, способных выполнять сложные задачи без участия человека.

Новая методология получила название DRAGOn (Designing RAG on Periodically Updated Corpus). Она решает ключевую проблему существующих тестов: большинство из них либо используют устаревающие статичные данные, либо не учитывают специфику корпоративных баз знаний. DRAGOn, напротив, работает с постоянно обновляемыми источниками — в частности, новостными лентами — и автоматически формирует из них «карту знаний».

Платформа генерирует не простые вопросы, а многоуровневые логические задачи, требующие сопоставления фактов из разных источников. Проверку ответов выполняет отдельная нейросеть, которая оценивает не только совпадение формулировок, но и точность и полноту ответа.

По словам соавтора исследования, руководителя центра разработки больших языковых моделей MWS AI Валентина Малых, индустрия ИИ смещается от гонки размеров моделей к качеству прикладных решений. Он отметил, что методология универсальна и может применяться в разных сферах — от анализа научных публикаций до юридических документов.

В рамках проекта также запустили начальный публичный рейтинг (лидерборд) русскоязычных RAG‑систем. Предварительные результаты показывают, что наилучшие показатели достигаются при комбинации нескольких моделей и продвинутых методов поиска, однако даже такие решения пока испытывают сложности при работе со сложными логическими связями.

Практическая ценность разработки заключается в том, что компании смогут разворачивать собственные тестовые среды на внутренних данных. Это позволит заранее оценивать точность ИИ‑систем, сравнивать разные подходы и снижать риски ошибок при внедрении.

В исследовании приняли участие специалисты Сбера, MBZUAI, ИТМО, МИСИС, НИУ ВШЭ, МТС Web Services, IITU и Школы анализа данных «Яндекса».

Читают сейчас

Выпуск менеджера файлов Total Commander 11.57

9 минут назад

Выпуск менеджера файлов Total Commander 11.57

7 мая 2026 года состоялся релиз менеджера файлов Total Commander 11.57 со встроенным FTP‑клиентом с FXP, анализатором дискового пространства, синхронизатором файлов, поддержкой работы с архивами (ZIP,

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

7 часов назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные заме

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

10 часов назад

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

Часто системная проблема продуктовой аналитики кроется не в слабых хард-скилах команды, а в сломанной архитектуре самой роли и границах ответственности. Когда аналитики работают в режиме внутреннего h

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

10 часов назад

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

Starlink достиг медианной скорости загрузки более чем 100 Мбит/с в 49 из 50 штатов — кроме Аляски, где показатель составил 87,6 Мбит/с, говорится в отчёте Ookla Speedtest за второе полугодие 2025 года

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

11 часов назад

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

Нидерландский регулятор по защите данных оштрафовал местную «дочку» «Яндекса» MLU B.V. — оператора приложения Yango — на €100 млн. По оценке ведомства, данные клиентов и водителей Yango хранились в Ро