ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

1 мин
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.

Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.

В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.

В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.

Читают сейчас

Solar webProxy заблокировала 32,1 млрд обращений к вредоносным ресурсам в школах

7 минут назад

Solar webProxy заблокировала 32,1 млрд обращений к вредоносным ресурсам в школах

Школьники и студенты колледжей Центрального и Приволжского федеральных округов чаще всего становятся целями киберпреступников. На эти два региона пришлось более половины всех заблокированных обращений

Ideogram релизнул четвертую версию T2i модели

26 минут назад

Ideogram релизнул четвертую версию T2i модели

✔ Ideogram релизнул четвертую версию T2i модели Ideogram 4.0 получила поддержку разрешения 2K, создание прозрачного фона и позиционирование объектов через bounding boxes. Сохранен фокус на качественно

Приступаем к разработке собственного ИБ-решения для SPI-анализа облачных сред

30 минут назад

Приступаем к разработке собственного ИБ-решения для SPI-анализа облачных сред

Лето только началось, а у нас уже горячие новости. И не простые, а про ИБ-направление — мы запускаем НИОКР по разработке ПО, направленного на защиту облачной инфраструктуры от скрытых сетевых угроз. Э

Microsoft Defender занял последнее место в тесте антивирусов по заказу Гонконгского совета потребителей

57 минут назад

Microsoft Defender занял последнее место в тесте антивирусов по заказу Гонконгского совета потребителей

Microsoft Defender показал худшие результаты среди 16 антивирусных решений для Windows в контексте независимого исследования Международной организации по исследованию и тестированию потребительских то

GitLab уволила 14% или 350 сотрудников

1 час назад

GitLab уволила 14% или 350 сотрудников

Платформа для разработчиков GitLab сократила приблизительно 14% своего персонала или приблизительно 350 сотрудников в контексте реструктуризации, анонсированной в прошлом месяце. В мае компания сообщи