1 час назад
Claude Opus 4.7 достигла 1-го места на Artificial Analysis

Artificial Analysis опубликовала результаты тестирования Claude Opus 4.7. В соответствии с отчёту, новая нейросеть разделила первое место в Индексе искусственного интеллекта (Artificial Analysis Intelligence Index) с GPT-5.4 (OpenAI) и Gemini 3.1 Pro (Google), набрав 57,3 балла против 57,2 и 56,8. С учётом погрешности в ±1 балл эксперты заявляют о трёхсторонней ничьей – впервые в истории платформы.
Главная гордость Opus 4.7 – бенчмарк GDPval-AA, который измеряет способность модели выполнять реальную работу агента в 44 профессиях и 9 отраслях. Здесь Claude Opus 4.7 набрала 1 753 Эло, оставив позади Claude Sonnet 4.6 (1674) и GPT-5.4 (1673). Отрыв от собственной предшественницы Opus 4.6 (1619) составил 134 пункта.

В дополнение к этого, Opus 4.7 заняла второе место в индексе Omniscience от Artificial Analysis – сразу после Gemini 3.1 Pro. И это достижение обеспечено резким снижением галлюцинаций на 25 пп. – с 61% у Opus 4.6 до 36%. Схема стала чаще воздерживаться от ответа, если не уверена: процент попыток ответить упал с 82% до 70%. Точность при этом осталась на том же уровне.

Ещё один сюрприз – экономичность. Прогон полного набора тестов Intelligence Index для Opus 4.7 обошёлся приблизительно в 4406 $, что на 11% дешевле, чем для Opus 4.6 (приблизительно 4970 $). Одновременно схема набрала на 4 балла выше и использовала на 35% меньше выходных токенов – 102M против 157M. Для сравнения: GPT-5.4 (xhigh) потратила 121M токенов, а Gemini 3.1 Pro – всего 57M.

По остальным бенчмаркам динамика главным образом положительная: прирост в IFBench (+5,5 пп.), TerminalBench Hard (+5,3 пп.), HLE (+2,9 пп.), SciCode (+2,6 пп.) и GPQA Diamond (+1,8 пп.). Единственное заметное падение – в тесте τ²-Bench (−3,5 пп.).

Что нового в программный интерфейс наряду с Opus 4.7
Anthropic внесла некоторое количество изменений:
Свежий уровень размышлений
xhigh– междуhighиmax. Теперь доступныlow,medium,high,xhighиmax.Бюджет для задач (публичная бета) – модель получает ориентировочный бюджет токенов на весь агентный цикл (мышление, вызовы инструментов, результаты, вывод). Opus 4.7 видит обратный отсчёт и может приоритизировать работу, завершая задачи “грациозно”.
Полное удаление extended thinking – остался только режим adaptive reasoning.
Характеристики модели не изменились: контекстное окно 1M токенов, максимум вывода 128K токенов.
Сравнить Opus 4.7 с другими лидерами можно на официальной странице Artificial Analysis.
Читают сейчас

18 минут назад
NIST ограничила обработку CVE после 263%-ного роста числа поступивших сообщений об уязвимостях
Национальный институт стандартов и технологий (NIST) объявил об изменениях в порядке обработки уязвимостей и угроз кибербезопасности, перечисленных в Национальной базе данных уязвимостей (NVD). Такое
20 минут назад
Учёные ПНИПУ разработали малогабаритную лазерную систему для защиты самолётов от обледенения
Учёные Пермского национального исследовательского политехнического университета (ПНИПУ) создали малогабаритную систему, которая защищает самолёт от обледенения с помощью лазерного воздействия. Об этом

29 минут назад
В Chrome Web Store обнаружено вредоносное плагин под видом YouTube-панели
Плагин Youside — боковая панель для YouTube. В описании заявлены встроенный плеер, подписки и быстрый доступ. На практике — вредоносное плагин, не связанное с YouTube, использующее внешний сервер для

31 минуту назад
Седиментация для памяти ИИ-агентов: помнить главное, даже забывая детали
Ложку нашли, а осадочек остался. Как этот принцип может повлиять на хранилище ИИ-агента? Делимся концептом одной из самых ярких частей архитектуры Metabolic AI Ознакомиться далее

37 минут назад
Free Stealth-модель оказалась в топе OpenRouter за 72 часа
13 апреля на OpenRouter появилась Elephant Alpha — 100-миллиардная языковая модель без имени автора, пресс-релиза и маркетинга. Через несколько дней она заняла первое место в Trending-ранкинге платфор