25 февраля 2026, 21:13

ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

1 мин

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.

Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.

В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.

В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.

ии нейросети машинное+обучение ai openai

Читают сейчас

17 июля 2026, 13:04

Обзор изменений в законодательстве за июнь 2026 года

В обзоре изменений за июнь 2026 года рассмотрим следующие темы: критическая информационная инфраструктура, финансовые организации, деятельность ФСТЭК России, судебная практика и другие. Читать далее

17 июля 2026, 13:00

«Яндекс» назвал победителей первой премии «Сделано с ИИ»

«Яндекс» подвёл итоги первой премии «Сделано с ИИ», учреждённой для специалистов, которые применяют искусственный интеллект при решении профессиональных задач. Победителями стали разработчики проектов

17 июля 2026, 12:58

Почти 300 репозиториев GitHub использовались для распространения программ-стилеров

На GitHub обнаружили масштабную атаку: 292 репозитория с инфостилерами, которые имитировали известные инструменты в области безопасности, финансов и разработки. По поведению вредонос похож на семейств

17 июля 2026, 12:57

Выпуск ProGate 1.3.0: сопровождение Shardman, отказоустойчивость и улучшения безопасности

Postgres Professional представляет обновление платформы миграции и репликации данных — Postgres ProGate 1.3.0. Ключевые темы релиза: полноценная поддержка Postgres Pro Shardman в качестве приёмника с

17 июля 2026, 12:22

«Авито» планирует запустить свой служба знакомств

«Авито» изучает возможность запуска сервиса знакомств для серьёзных отношений, который будет встроен в основное приложение платформы, рассказали «Ъ» источники, знакомые с планами компании. В «Авито» п