Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

2 мин
Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документы.

Если коротко: свежий Opus 4.7 не просто обгоняет 4.6 - он доводит задачи до конца там, где старый сдавался.

Итоговый результат 0.77 против 0.56

Удобство работы 0.88 против 0.71

Качество работы с инструментами 0.88 против 0.73 - полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).

Основной операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата. По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.

Но есть и цена. Opus 4.7 иногда слишком доверяет собственной проверке: в нескольких важных эпизодах маскировал неуспешную сборку и ошибался в записи файлов. Opus 4.6 на этом фоне чаще корректно трактовал результаты сборки и тестов, но этого не хватило, чтобы перекрыть его более частые лишние правки и незавершённые откаты. Плюс 4.7 при сопоставимом времени заметно дороже по объёму генерации.

В Veai пользователь платит за минуту чистого времени работы модели, цена для вас не меняется. Для того, чтобы попробовать Opus 4.7 или много других передовых моделей достаточно инсталлировать плагин и выбрать интересующую схема из выпадающего списка.

Читают сейчас

OpenAI научила Codex разрабатывать сайты, а равным образом функционировать за банкира, продавца и маркетолога

1 час назад

OpenAI научила Codex разрабатывать сайты, а равным образом функционировать за банкира, продавца и маркетолога

Компания OpenAI научила Codex собирать интерактивные сайты и приложения по обычному описанию задачи. Новую функцию Sites представили на стриме Intelligence at Work наряду с двумя другими новинками — и

Prusa представила ColorMix — способ цветной FDM-печати, который даёт возможность послойно смешивать CMYKW-филаменты

1 час назад

Prusa представила ColorMix — способ цветной FDM-печати, который даёт возможность послойно смешивать CMYKW-филаменты

Исследователи Prusa Research представили ColorMix — способ печати, который позволяет получать десятки оттенков всего из нескольких базовых филаментов. Метод чередует во время печати тонкие слои цветов

Microsoft представила сразу семь новых ИИ-моделей и рассказала, как строит суперинтеллект

1 час назад

Microsoft представила сразу семь новых ИИ-моделей и рассказала, как строит суперинтеллект

На конференции Build 2026 подразделение Microsoft AI представило семейство из семи новых моделей под брендом MAI. Среди них — MAI-Thinking-1, первая собственная схема рассуждений компании. Глава напра

Минцифры продлило дедлайн переаккредитации ИТ-компаний до 1 июля

3 часа назад

Минцифры продлило дедлайн переаккредитации ИТ-компаний до 1 июля

Ожидаемо и теперь официально: срок переаккредитации продлили до 1 июля (анкета будет открыта). В 2026 году сроки прохождения плановой процедуры подтверждения ИТ-аккредитации были продлены. Аккредитова

Zcash экстренно отключила Orchard-пул: дефект, который мог обрушить приватность, нашли первыми

3 часа назад

Zcash экстренно отключила Orchard-пул: дефект, который мог обрушить приватность, нашли первыми

В минувшие выходные команда Zcash обнаружила проблему в самом новом shielded-пуле Orchard. Хорошая новость: дефект нашли до того, как им кто-то воспользовался, и все средства в безопасности. Плохая: O