
19 июня 2026, 13:26
Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену
Модель Claude Fable 5 от Anthropic возглавила обновленный лидерборд DeepSWE — бенчмарка по кодингу от стартапа Datacurve. На самых сложных, "длинных" инженерных задачах она набрала 70% pass@1 и формал

19 июня 2026, 11:49
Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества
OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении. Интересно, что метод

18 июня 2026, 07:05
ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench
OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии. Результаты вышли скорее отрезвляющими: даже ф

14 июня 2026, 12:14
Энтузиаст создал программа с уязвимостью и потратил $1500, чтобы проверить, смогут ли ИИ его взломать
Исследователь Касра Раджерди разработал уязвимое программа и потратил $1500, чтобы проверить, смогут ли большие языковые модели его взломать. Для эксперимента он разработал простое приложение на React

8 июня 2026, 23:54
Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему
Организация Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Он

8 июня 2026, 17:56
Вышел SWE-Marathon: тест производительности, где агенты часами пишут исходник — и почти никто не доходит до финиша
Организация Abundant AI выпустила SWE-Marathon — свежий тест производительности для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задаче

5 июня 2026, 12:45
ChatGPT научили «видеть сны», чтобы лучше помнить пользователя
4 июня OpenAI представила новую систему памяти для ChatGPT под названием Dreaming V3. Идея в том, что чат-бот теперь в фоновом режиме "видит сны" — сам перебирает прошлые диалоги и собирает из них цел

4 июня 2026, 00:44
Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга
В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собр

3 июня 2026, 00:00
OpenAI научила Codex разрабатывать сайты, а равным образом функционировать за банкира, продавца и маркетолога
Компания OpenAI научила Codex собирать интерактивные сайты и приложения по обычному описанию задачи. Новую функцию Sites представили на стриме Intelligence at Work наряду с двумя другими новинками — и