ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

1 мин
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.

Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.

В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.

В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.

Читают сейчас

Состоялся версия платформы совместной разработки Gitea 1.26

49 минут назад

Состоялся версия платформы совместной разработки Gitea 1.26

18 апреля 2026 года состоялся релиз открытой платформы совместной разработки Gitea 1.26. Исходный исходник проекта написан на Go и обнародован на GitHub под лицензией MIT. Предыдущая версия решения вы

Представлен публике публичный инициатива CSVMusic для преобразования плейлистов из музыкальных сервисов в файлы с набором тегов

4 часа назад

Представлен публике публичный инициатива CSVMusic для преобразования плейлистов из музыкальных сервисов в файлы с набором тегов

Состоялся выпуск открытого проекта под названием CSVMusic. Это подход для преобразования плейлистов из музыкальных сервисов в аудиофайлы с полным набором тегов. Исходный исходник проекта написан на Py

Версия LibreSSL 4.3.0

4 часа назад

Версия LibreSSL 4.3.0

18 апреля 2026 года состоялся выпуск криптографической библиотеки LibreSSL 4.3.0 (форка OpenSSL, который с 2014 года разрабатывается сообществом отдельно с целью модернизации кодовой базы, повышения б

xAI включает гиперскорость: Grok 4.3 уже в бете, 4.4 и 4.5 на подходе

10 часов назад

xAI включает гиперскорость: Grok 4.3 уже в бете, 4.4 и 4.5 на подходе

17 апреля xAI тихо выкатила Grok 4.3 в ранний бета-доступ, а днем позже Илон Маск опубликовал план дальнейших релизов: до конца мая размер модели вырастет втрое — с 0,5 до 1,5 триллиона параметров. Пр

Заключительный этап Всероссийской олимпиады школьников по математике проходит в Москве

13 часов назад

Заключительный этап Всероссийской олимпиады школьников по математике проходит в Москве

В Москве стартовал заключительный этап Всероссийской олимпиады школьников по математике. Ивент проходит на площадке Центрального университета и продлится до 20 апреля 2026 года. Всероссийская олимпиад