GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark

2 мин
GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark

Мы перевели агента на GLM 5.1 и обновили инференс-сервер. На интерактивном бенчмарке новая связка работает стабильнее, честнее и быстрее. Агент реже чинит “по догадке,” лучше проверяет себя тестами и сборкой и чаще доводит задачи до рабочего результата.

Это сразу можно увидеть по качеству работы:

  • Pitfalls (надёжность проверки) выросли с 0.41 до 0.53

  • Pleasantness (комфорт работы) — с 0.48 до 0.69

  • ToolCalls (работа с инструментами) — с 0.55 до 0.73

  • EndResult (доля реально закрытых задач) — с 0.55 до 0.67.

Агент стал эффективнее и увереннее ведёт себя в длинных сценариях.

По скорости новая связка тоже впереди: суммарное время работы на том же наборе задач сократилось с 12 534 до 7 280 секунд, а средняя скорость генерации выросла с 40 до 58 токенов в секунду — при том, что GLM 5.1 тратит часть токенов на invisible reasoning.

Для вас этот апдейт бесплатный: тариф считается по времени работы агента, а не конкретной модели.

Устанавливайте Veai бесплатно в JetBrains IDE. А если в работе вам не хватает каких-то возможностей или сценариев, смело пишите нам в чат или на support@veai.ru. Такие сообщения напрямую влияют на план следующих обновлений.

И подписывайтесь на наш Telegram-канал: там публикуем посты о релизах, грядущие изменения в продукте, новости из мира AI и свои мысли про использование AI в разработке.

Читают сейчас

Вышла GPT-5.5 — схема, которая сама создала часть своего инференса

26 минут назад

Вышла GPT-5.5 — схема, которая сама создала часть своего инференса

OpenAI выпустила GPT-5.5 — свежий флагман, который, по заявлению компании, сам помог переписать часть своего инференс-стека. Модель проанализировала недели продакшн-трафика и написала механизм баланси

OpenAI выпустили GPT-5.5: пишет исходник дешевле предшественника

30 минут назад

OpenAI выпустили GPT-5.5: пишет исходник дешевле предшественника

GPT-5.5 — это следующая схема после GPT-5.4, ориентированная в первую очередь на агентную работу: многошаговые задачи, где схема планирует, использует инструменты и доводит работу до конца без постоян

Gemini против Mythos: Google отвечает Anthropic и OpenAI армией агентов вместо одной «страшной» модели

42 минуты назад

Gemini против Mythos: Google отвечает Anthropic и OpenAI армией агентов вместо одной «страшной» модели

На Google Cloud Next 2026 в Лас-Вегасе компания представила стратегию кибербезопасности, которая расходится с подходом Anthropic и OpenAI. Вместо отдельной cyber-модели Google встраивает универсальный

Canonical выпустила Ubuntu 26.04 LTS Resolute Raccoon

1 час назад

Canonical выпустила Ubuntu 26.04 LTS Resolute Raccoon

23 апреля 2026 года состоялся релиз публичной версии Ubuntu 26.04 LTS (с длительным сроком поддержки) Resolute Raccoon (Решительный Eнот) на базе ядра Linux 7.0 и рабочего окружения GNOME 50. Сборки п

Посещаемость под контролем: как повысить производительность мониторинга без потери качества

2 часа назад

Посещаемость под контролем: как повысить производительность мониторинга без потери качества

Современные системы анализа трафика напрямую зависят от качества входных данных. Потери пакетов, дублирование и перегрузка сенсоров могут снижать эффективность мониторинга и приводить к пропуску угроз