25 февраля 2026, 21:13
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.
Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.
В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.
В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.
Читают сейчас

7 минут назад
Solar webProxy заблокировала 32,1 млрд обращений к вредоносным ресурсам в школах
Школьники и студенты колледжей Центрального и Приволжского федеральных округов чаще всего становятся целями киберпреступников. На эти два региона пришлось более половины всех заблокированных обращений

26 минут назад
Ideogram релизнул четвертую версию T2i модели
✔ Ideogram релизнул четвертую версию T2i модели Ideogram 4.0 получила поддержку разрешения 2K, создание прозрачного фона и позиционирование объектов через bounding boxes. Сохранен фокус на качественно

30 минут назад
Приступаем к разработке собственного ИБ-решения для SPI-анализа облачных сред
Лето только началось, а у нас уже горячие новости. И не простые, а про ИБ-направление — мы запускаем НИОКР по разработке ПО, направленного на защиту облачной инфраструктуры от скрытых сетевых угроз. Э

57 минут назад
Microsoft Defender занял последнее место в тесте антивирусов по заказу Гонконгского совета потребителей
Microsoft Defender показал худшие результаты среди 16 антивирусных решений для Windows в контексте независимого исследования Международной организации по исследованию и тестированию потребительских то

1 час назад
GitLab уволила 14% или 350 сотрудников
Платформа для разработчиков GitLab сократила приблизительно 14% своего персонала или приблизительно 350 сотрудников в контексте реструктуризации, анонсированной в прошлом месяце. В мае компания сообщи