10 июня 2026, 09:47

Свежий средство Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

2 мин

Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка на основе спецификаций для оценочного и регрессионного тестирования). Эта открытая платформа упрощает оценку поведения ИИ в конкретных приложениях, используя технологию для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в оцениваемые тесты, которые можно исследовать.

ASSERT берёт описания ожидаемого поведения и политик модели ИИ на простом языке, преобразует их в структурированный набор допустимых и недопустимых вариантов поведения, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Он также может записывать пути, по которым движется платформа ИИ, включая промежуточные действия и вызовы инструментов, чтобы разработчики могли анализировать, где происходят сбои.

Авторы равным образом могут предоставлять контекст системы, инструменты и ограничения, если хотят дополнительно настроить то, что охватывают оценки.

Например, можно указать, что агент ИИ для поиска документов не должен отправлять электронные письма людям за пределами компании, предоставлять краткие резюме с учетом предыдущего контекста, а конфиденциальная данные должна быть доступна только руководителям высшего звена. ASSERT будет применять эти правила для генерации тестовых случаев, которые проверяют, следует ли платформа им на постоянной основе. Согласно заявлению представителей Microsoft, эта структура заполняет пробел, который не могут заполнить более широкие, общие оценки, когда модели ИИ должны вести себя в соответствии с контекстом, политиками и инструментами приложения или продукта.

«Оценки абсолютно необходимы для принятия правильных решений. Потому что, если вы не понимаете поведение системы ИИ, очень сложно определить, соответствует ли она стандартам вашей организации… Мы обнаружили, что если вы действительно хотите иметь надёжную систему, то следует оценить гораздо больше аспектов, специфичных для конкретного приложения», — сказала Сара Бёрд, главный директор по продуктам Responsible AI в Microsoft. По её словам, ASSERT можно применять для оценки систем на этапе их создания, после развёртывания и даже для непрерывного мониторинга.

Ранее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели могут определить, когда взаимодействие является частью теста, а когда — реальным разговором. Если схема понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.

microsoft искусственный интеллект машинное обучение тестирование ии инструменты инструменты разработчика инструменты мониторинга инструменты тестирования естественный язык

Читают сейчас

21 час назад

Вышел Claude Opus 5 от Anthropic: кодинг, работа с агентами и цены

Anthropic представила Claude Opus 5 — новую версию старшей модели семейства Claude. Схема уже доступна пользователям и через программный интерфейс, а по качеству в ряде задач приблизилась к Claude Fab

22 часа назад

Дженсен Хуанг: ограничения открытых моделей вытолкнут инновации из США

Глава NVIDIA Дженсен Хуанг опубликовал свой начальный пост в X. В нём он поделился совместным открытым письмом в поддержку моделей с открытыми весами. Документ подписали 25 организаций, в том числе NV

22 часа назад

Samsung представила умные очки со встроенным Gemini

Во время презентации Galaxy Unpacked в Лондоне Samsung представила умные очки на базе Android XR. Устройство разработали совместно с Google, а за дизайн отвечали бренды Gentle Monster (Южная Корея) и

22 часа назад

Anthropic выпустили Claude Opus 5: почти Fable 5 за половину цены

Anthropic выпустили Claude Opus 5. Компания позиционирует её как новую основную схема для программирования, длительной работы AI-агентов и профессиональных задач. По заявлению Anthropic, Opus 5 прибли

24 июля 2026, 17:43

Джек Дорси: правительство Индии не любит такие технологии, как Bitchat, и хочет, чтобы его убрали из GitHub

Правительство Индии потребовало от американской платформы GitHub удалить репозиторий Bitchat — открытого проекта децентрализованного мессенджера на базе Bluetooth Low Energy от создателя Twitter Джека