GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark

2 мин
GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark

Мы перевели агента на GLM 5.1 и обновили инференс-сервер. На интерактивном бенчмарке новая связка работает стабильнее, честнее и быстрее. Агент реже чинит “по догадке,” лучше проверяет себя тестами и сборкой и чаще доводит задачи до рабочего результата.

Это сразу можно увидеть по качеству работы:

  • Pitfalls (надёжность проверки) выросли с 0.41 до 0.53

  • Pleasantness (комфорт работы) — с 0.48 до 0.69

  • ToolCalls (работа с инструментами) — с 0.55 до 0.73

  • EndResult (доля реально закрытых задач) — с 0.55 до 0.67.

Агент стал эффективнее и увереннее ведёт себя в длинных сценариях.

По скорости новая связка тоже впереди: суммарное время работы на том же наборе задач сократилось с 12 534 до 7 280 секунд, а средняя скорость генерации выросла с 40 до 58 токенов в секунду — при том, что GLM 5.1 тратит часть токенов на invisible reasoning.

Для вас этот апдейт бесплатный: тариф считается по времени работы агента, а не конкретной модели.

Устанавливайте Veai бесплатно в JetBrains IDE. А если в работе вам не хватает каких-то возможностей или сценариев, смело пишите нам в чат или на support@veai.ru. Такие сообщения напрямую влияют на план следующих обновлений.

И подписывайтесь на наш Telegram-канал: там публикуем посты о релизах, грядущие изменения в продукте, новости из мира AI и свои мысли про использование AI в разработке.

Читают сейчас

Grok все? Google арендует у Маска вычислительные мощности на почти $1 млрд в месяц

3 часа назад

Grok все? Google арендует у Маска вычислительные мощности на почти $1 млрд в месяц

Google будет платить SpaceX $920 млн в месяц с октября 2026 по июнь 2029 за доступ около к 110 000 GPU NVIDIA, а равным образом к CPU, памяти и сопутствующей инфраструктуре. За цельный дедлайн это око

Версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1

4 часа назад

Версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1

Состоялся версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1. Версия 3.0 проекта вышла в 2024 году. Ознакомиться далее

Минцифры запускает единую программу исследований кибербезопасности ИИ

4 часа назад

Минцифры запускает единую программу исследований кибербезопасности ИИ

Минцифры России объявило о двух ключевых шагах в сфере кибербезопасности: формировании единой программы комплексных исследований и переходе к тестированию защищённости ИИ в государственных информацион

Китайская Navee представила двухместный экранолёт WaveFly 5

5 часов назад

Китайская Navee представила двухместный экранолёт WaveFly 5

Китайская организация NAVEE провела первый открытый полёт WaveFly 5X — нового двухместного электрического экранолёта (аппарата на воздушной подушке экранного эффекта), позиционируемого как первое потр

Профсоюз американских актёров SAG‑AFTRA заключил с киностудиями контракт для защиты от ИИ

7 часов назад

Профсоюз американских актёров SAG‑AFTRA заключил с киностудиями контракт для защиты от ИИ

Американский профсоюз актёров кино и сериалов SAG‑AFTRA согласовал условия нового контракта с голивудскими студиями и стриминговыми сервисами. Контракт рассчитан на четыре года, в него включены, в доп