Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

2 мин
Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документы.

Если коротко: свежий Opus 4.7 не просто обгоняет 4.6 - он доводит задачи до конца там, где старый сдавался.

Итоговый результат 0.77 против 0.56

Удобство работы 0.88 против 0.71

Качество работы с инструментами 0.88 против 0.73 - полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).

Основной операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата. По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.

Но есть и цена. Opus 4.7 иногда слишком доверяет собственной проверке: в нескольких важных эпизодах маскировал неуспешную сборку и ошибался в записи файлов. Opus 4.6 на этом фоне чаще корректно трактовал результаты сборки и тестов, но этого не хватило, чтобы перекрыть его более частые лишние правки и незавершённые откаты. Плюс 4.7 при сопоставимом времени заметно дороже по объёму генерации.

В Veai пользователь платит за минуту чистого времени работы модели, цена для вас не меняется. Для того, чтобы попробовать Opus 4.7 или много других передовых моделей достаточно инсталлировать плагин и выбрать интересующую схема из выпадающего списка.

Читают сейчас

1 час назад

СМИ: «В России построят полигон по тестированию отечественной химии для производства печатных плат»

Российский технологический университет (РТУ) совместно с АНО «Консорциум печатных плат» построит национальный полигон для тестирования продукции отечественной химической промышленности и материалов, и

Законопроект об административных штрафах за нарушение законодательства о майнинге виртуальный валюты принят в первом чтении

1 час назад

Законопроект об административных штрафах за нарушение законодательства о майнинге виртуальный валюты принят в первом чтении

Госдума РФ приняла 14 апреля 2026 года в первом чтении законопроект об административных штрафах за нарушение законодательства о майнинге виртуальный валюты. Законопроект вносит изменения в КоАП, а так

Alibaba vs Google: Qwen3.6-35B-A3B обходит Gemma 4-31B в кодинге, эрудиции и математике

1 час назад

Alibaba vs Google: Qwen3.6-35B-A3B обходит Gemma 4-31B в кодинге, эрудиции и математике

Опенсорсная схема Qwen3.6-35B-A3B, которая имеет архитектуру mixture-of-experts и была опубликована Alibaba 15 апреля, уверенно обошла недавнюю новинку от Google, Gemma 4-31B, в ключевых бенчмарках на

«Т-Технологии» подвели итоги спортивно-интеллектуальных соревнований для студентов «Исходник спорта»

2 часа назад

«Т-Технологии» подвели итоги спортивно-интеллектуальных соревнований для студентов «Исходник спорта»

Группа «Т‑Технологии» (головная компания «Т‑Банка») провела спортивно‑интеллектуальные соревнования «Исходник спорта» для студентов 11 и 12 апреля 2026 года. Мероприятие охватило 21 город России и Мин

Cursor получит доступ к 200 000 GPU Илона Маска, чтобы обучить Composer 2.5

3 часа назад

Cursor получит доступ к 200 000 GPU Илона Маска, чтобы обучить Composer 2.5

Компания Илона Маска xAI намерена сдавать свои вычислительные мощности в аренду стартапу Cursor, который специализируется на ИИ-кодинге и оценивается в 29 млрд $. По данным осведомлённых источников Bu