В России представили первую открытую методологию тестирования RAG‑систем

2 мин

Исследователи из Сбера (команда SberAI), МТС Web Services (MWS AI) и ведущих российских и международных вузов разработали первую открытую динамическую методологию тестирования русскоязычных систем генеративного ИИ с поиском (RAG). Работу приняли на EACL 2026 — одну из крупнейших конференций по компьютерной лингвистике, которая проходит с 24 по 29 марта 2026 года в Рабате (Марокко), рассказали у в МТС.

RAG‑системы (Retrieval‑Augmented Generation) объединяют большие языковые модели с базами знаний и корпоративными данными. Это позволяет ИИ‑ассистентам отвечать на запросы с опорой на актуальную информацию и снижать риск ошибок. Такие решения лежат в основе современных ИИ‑агентов, способных выполнять сложные задачи без участия человека.

Новая методология получила название DRAGOn (Designing RAG on Periodically Updated Corpus). Она решает ключевую проблему существующих тестов: большинство из них либо используют устаревающие статичные данные, либо не учитывают специфику корпоративных баз знаний. DRAGOn, напротив, работает с постоянно обновляемыми источниками — в частности, новостными лентами — и автоматически формирует из них «карту знаний».

Платформа генерирует не простые вопросы, а многоуровневые логические задачи, требующие сопоставления фактов из разных источников. Проверку ответов выполняет отдельная нейросеть, которая оценивает не только совпадение формулировок, но и точность и полноту ответа.

По словам соавтора исследования, руководителя центра разработки больших языковых моделей MWS AI Валентина Малых, индустрия ИИ смещается от гонки размеров моделей к качеству прикладных решений. Он отметил, что методология универсальна и может применяться в разных сферах — от анализа научных публикаций до юридических документов.

В рамках проекта также запустили начальный публичный рейтинг (лидерборд) русскоязычных RAG‑систем. Предварительные результаты показывают, что наилучшие показатели достигаются при комбинации нескольких моделей и продвинутых методов поиска, однако даже такие решения пока испытывают сложности при работе со сложными логическими связями.

Практическая ценность разработки заключается в том, что компании смогут разворачивать собственные тестовые среды на внутренних данных. Это позволит заранее оценивать точность ИИ‑систем, сравнивать разные подходы и снижать риски ошибок при внедрении.

В исследовании приняли участие специалисты Сбера, MBZUAI, ИТМО, МИСИС, НИУ ВШЭ, МТС Web Services, IITU и Школы анализа данных «Яндекса».

Читают сейчас

24 минуты назад

UserGate WAF 7 и балансировщик нагрузки DS Proxima от «Цифровых решений» подтвердили совместимость

Российские разработчики UserGate и «Цифровые решения» сообщили о совместимости своих флагманских продуктов — межсетевого экрана для защиты веб‑приложений UserGate WAF (uWAF) версии 7 и аппаратного бал

Tesco переводит 40 тысяч серверов с VMware на фоне «злоупотреблений» со стороны Broadcom

37 минут назад

Tesco переводит 40 тысяч серверов с VMware на фоне «злоупотреблений» со стороны Broadcom

Британский розничный конгломерат Tesco переводит 40 000 серверов с платформы VMware на фоне «злоупотреблений» со стороны Broadcom. В прошлом году он подал иск в Высокий суд Великобритании против Broad

Объявлены цены на Steam Machine: от $1049 до $1349

39 минут назад

Объявлены цены на Steam Machine: от $1049 до $1349

Valve объявила об открытии предзаказов на компактный игровой компьютер Steam Machine с 25 июня 2026 года. Стоимость устройства будет варьироваться от $1049 до $1349. У пользователей появится возможнос

Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком

43 минуты назад

Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком

Письмо за разблокировку Mythos уже собрало больше 400 подписей тяжеловесов из мира безопасности, а Cisco, AWS и JPMorgan доступ, оказывается, и не теряли. От Anthropic Белый дом тем временем требует с

АО «Аналитический Центр» начнёт с 1 июля оказывать выдачу электронных подписей и госуслуги гражданам РФ за рубежом

52 минуты назад

АО «Аналитический Центр» начнёт с 1 июля оказывать выдачу электронных подписей и госуслуги гражданам РФ за рубежом

Организация АО «Аналитический Центр», созданная при участии компании «РТ‑Проектные технологии» ГК Ростех и группы компаний Seldon, начнёт в рамках эксперимента с 1 июля 2026 года оказывать государстве