Статьи по тегу

19 июня 2026, 13:26

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

Модель Claude Fable 5 от Anthropic возглавила обновленный лидерборд DeepSWE — бенчмарка по кодингу от стартапа Datacurve. На самых сложных, "длинных" инженерных задачах она набрала 70% pass@1 и формал

19 июня 2026, 11:49

Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества

OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении. Интересно, что метод

18 июня 2026, 07:05

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии. Результаты вышли скорее отрезвляющими: даже ф

14 июня 2026, 12:14

Энтузиаст создал программа с уязвимостью и потратил $1500, чтобы проверить, смогут ли ИИ его взломать

Исследователь Касра Раджерди разработал уязвимое программа и потратил $1500, чтобы проверить, смогут ли большие языковые модели его взломать. Для эксперимента он разработал простое приложение на React

8 июня 2026, 23:54

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Организация Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Он

8 июня 2026, 17:56

Вышел SWE-Marathon: тест производительности, где агенты часами пишут исходник — и почти никто не доходит до финиша

Организация Abundant AI выпустила SWE-Marathon — свежий тест производительности для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задаче

5 июня 2026, 12:45

ChatGPT научили «видеть сны», чтобы лучше помнить пользователя

4 июня OpenAI представила новую систему памяти для ChatGPT под названием Dreaming V3. Идея в том, что чат-бот теперь в фоновом режиме "видит сны" — сам перебирает прошлые диалоги и собирает из них цел

4 июня 2026, 00:44

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собр

3 июня 2026, 00:00

OpenAI научила Codex разрабатывать сайты, а равным образом функционировать за банкира, продавца и маркетолога

Компания OpenAI научила Codex собирать интерактивные сайты и приложения по обычному описанию задачи. Новую функцию Sites представили на стриме Intelligence at Work наряду с двумя другими новинками — и