Свежий средство Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

2 мин
Свежий средство Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка на основе спецификаций для оценочного и регрессионного тестирования). Эта открытая платформа упрощает оценку поведения ИИ в конкретных приложениях, используя технологию для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в оцениваемые тесты, которые можно исследовать.

ASSERT берёт описания ожидаемого поведения и политик модели ИИ на простом языке, преобразует их в структурированный набор допустимых и недопустимых вариантов поведения, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Он также может записывать пути, по которым движется платформа ИИ, включая промежуточные действия и вызовы инструментов, чтобы разработчики могли анализировать, где происходят сбои.

Авторы равным образом могут предоставлять контекст системы, инструменты и ограничения, если хотят дополнительно настроить то, что охватывают оценки.

Например, можно указать, что агент ИИ для поиска документов не должен отправлять электронные письма людям за пределами компании, предоставлять краткие резюме с учетом предыдущего контекста, а конфиденциальная данные должна быть доступна только руководителям высшего звена. ASSERT будет применять эти правила для генерации тестовых случаев, которые проверяют, следует ли платформа им на постоянной основе. Согласно заявлению представителей Microsoft, эта структура заполняет пробел, который не могут заполнить более широкие, общие оценки, когда модели ИИ должны вести себя в соответствии с контекстом, политиками и инструментами приложения или продукта.

«Оценки абсолютно необходимы для принятия правильных решений. Потому что, если вы не понимаете поведение системы ИИ, очень сложно определить, соответствует ли она стандартам вашей организации… Мы обнаружили, что если вы действительно хотите иметь надёжную систему, то следует оценить гораздо больше аспектов, специфичных для конкретного приложения», — сказала Сара Бёрд, главный директор по продуктам Responsible AI в Microsoft. По её словам, ASSERT можно применять для оценки систем на этапе их создания, после развёртывания и даже для непрерывного мониторинга.

Ранее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели могут определить, когда взаимодействие является частью теста, а когда — реальным разговором. Если схема понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.

Читают сейчас

Приглашаем на вебинар «ИИ под контролем: как выявлять угрозы и защищать системы искусственного интеллекта»

15 минут назад

Приглашаем на вебинар «ИИ под контролем: как выявлять угрозы и защищать системы искусственного интеллекта»

С распространением систем ИИ появляются новые классы угроз и уязвимостей, затрагивающие LLM, агентные системы и ML-решения. Такие риски требуют отдельного подхода к анализу и проверке защищенности. 23

ФАС проверит законность рекламы 5G

36 минут назад

ФАС проверит законность рекламы 5G

Экспертный совет ФАС проверит операторов связи на использовании в названии услуг и рекламе 5G — «не реализованных сегодня технологий», следует из повестки заседания экспертного совета, пишет «Ъ». В до

Вышло апдейт открытого видеотранскодера HandBrake 1.11.2

52 минуты назад

Вышло апдейт открытого видеотранскодера HandBrake 1.11.2

7 июня 2026 года состоялся версия открытого кроссплатформенного многопоточного видеотранскодера HandBrake 1.11.2. Исходный код решения написан на С и C# и опубликован на GitHub под лицензией GNU Gener

Национальная сервис здравоохранения Англии выдаст врачам полмиллиона лицензий Copilot для решения проблемы с документами

1 час назад

Национальная сервис здравоохранения Англии выдаст врачам полмиллиона лицензий Copilot для решения проблемы с документами

Национальная сервис здравоохранения Англии (NHS England) предоставит лицензии на Microsoft Copilot для 505 тыс. врачей и вспомогательного персонала. Ранее пилотный проект внедрения помощника на искусс

ФАС проверит операторов на законность рекламы 5G

1 час назад

ФАС проверит операторов на законность рекламы 5G

ФАС проведёт проверку операторов связи на предмет рекламы 5G как «не реализованных сегодня технологий». Ведомство равным образом изучит практики компаний, «которые могут содержать признаки недобросове