ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

1 мин
ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

OpenAI рекомендовала разработчикам больше не использовать тест производительности SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.

Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.

В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.

В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый тест производительности создавался с учетом утечек данных и должен лучше проверять способность моделей функционировать с незнакомыми репозиториями и реальными инженерными задачами.

Читают сейчас

ППредставлен публике публичный инициатива kafkalet — десктопный заказчик для Apache Kafka

6 марта 2026 г.

ППредставлен публике публичный инициатива kafkalet — десктопный заказчик для Apache Kafka

ППредставлен публике публичный инициатива kafkalet. Это десктопный графический заказчик для для работы с Apache Kafka. Решение поставляется в виде самов достаточной степениго бинарного файла размером

После редизайна SharePoint работает на основе ИИ от Anthropic

5 марта 2026 г.

После редизайна SharePoint работает на основе ИИ от Anthropic

SharePoint используется в корпоративных средах для управления контентом и файлами, размещёнными в частных сетях организаций, поэтому каждое апдейт влияет на миллионы клиентов по всему миру. Корпорация

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

5 марта 2026 г.

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

OpenAI опубликовали исследование контролируемости цепочки рассуждений (chain of thought, CoT) у reasoning-моделей — и пришли к парадоксальному выводу: все 13 протестированных моделей плохо справляются

OpenAI представила новую схема GPT-5.4

5 марта 2026 г.

OpenAI представила новую схема GPT-5.4

Компания продолжает развивать линейку языковых моделей, делая упор на более сложные задачи, программирование и работу с инструментами. Новая версия ориентирована не только на диалог, но и на выполнени

OpenAI выпустила GPT-5.4 — свою новую флагманскую схема

5 марта 2026 г.

OpenAI выпустила GPT-5.4 — свою новую флагманскую схема

Главное модификация: схема объединила возможности кодинга из GPT-5.3-Codex с улучшенным рассуждением из GPT-5.2. Раньше это были отдельные модели под разные задачи, теперь одна. На бенчмарке GDPval, г