GPT-5.5, DeepSeek V4 и Kimi K2.6 уже доступны в Veai

2 мин
GPT-5.5, DeepSeek V4 и Kimi K2.6 уже доступны в Veai

Прогнали на нашем интерактивном бенчмарке gpt-5.5 демонстрирует заметно более надёжный профиль работы с инструментами и проверкой собственного результата, чем gpt-5.4.

По формальной проверке корректности результата gpt-5.5 успешно закрывает на 20% больше задач.

Самое наглядное — success rate инструментов.

У gpt-5.5 он держится на 100% почти везде: read_file 497/497, edit_file 71/71, run_configuration 71/71, search_file_by_name 111/111.

У gpt-5.4 на сопоставимых объёмах есть просадки — run_configuration 93.9%, search_file_by_name 96.3%, edit_file 98.9%.

С этим хорошо совпадает и ревью LLM-судей: gpt-5.5 точнее держит пути и аргументы инструментов (11 задач против 3) и аккуратнее доводит инструментальную проверку результата (13 против 8). По метрике ToolCalls итог — 0.81 против 0.72 в пользу gpt-5.5.

В проверке собственной работы картина похожая. По блоку «верификация и чтение результатов» судья отдаёт gpt-5.5 18 задач против 10, по безопасности правок — 9 против 6: то есть gpt-5.5 заметно реже сообщает «всё ок» при падающей сборке и реже сам ломает соседние модули. И ведёт он себя одновременно ощутимо экономнее: те же 32 чата закрываются за 1183 вызова инструментов и 235 855 токенов, тогда как gpt-5.4 тратит на это 1436 вызовов и 337 493 токена. То есть gpt-5.4 чаще «дожимает» задачу количеством шагов, а gpt-5.5 — точностью первого подхода.

По остальным метрикам качества разница невелика, и тут есть любопытный момент: судьёй в этом сравнении выступал сам gpt-5.4. Известно, что в таких ситауациях стабильно проявляется self-preference bias — модель-судья охотнее ставит победу ответам в собственном стиле, формулировках и способе закрывать шаг.

На этом фоне «ничья по скалярным оценкам» читается как сигнал в пользу gpt-5.5: его ответы выдерживают суд соперника, который оценивает «как бы сам себя», а там, где оценка опирается не на стиль, а на проверяемое поведение с инструментами, gpt-5.5 уверенно впереди.

В Veai потребитель платит за минуту чистого времени работы модели, цена для вас не меняется. Для того, чтобы попробовать GPT-5.5, DeepSeek V4 и Kimi K2.6 или много других передовых моделей достаточно инсталлировать расширение и выбрать интересующую модель из выпадающего списка.

Читают сейчас

51 минуту назад

GlobalSign стартовал отзывать сертификаты безопасности российских сайтов

Японская GlobalSign — один из крупнейших центров сертификации в мире — утром 13 июня начала процедуру принудительного отзыва ранее выпущенных SSL-сертификатов у компаний из России. Об этом говорится в

Which: на Amazon и eBay по-прежнему продаются опасные поддельные зарядные устройства для смартфонов

54 минуты назад

Which: на Amazon и eBay по-прежнему продаются опасные поддельные зарядные устройства для смартфонов

Amazon, eBay и другие онлайн-площадки продолжают продавать опасные поддельные зарядные устройства для смартфонов, указала британская компания по защите прав потребителей Which. Ознакомиться далее

Японская энергетическая организация потеряла жёсткий диск с данными более 10 млн клиентов

1 час назад

Японская энергетическая организация потеряла жёсткий диск с данными более 10 млн клиентов

Японская энергетическая организация Kyushu Electric Power подтвердила утерю жёсткого диска с данными 10,9 млн клиентов. Сообщается об именах, адресах оказания услуг, сведениях об энергопотреблении, но

Луис Россманн пригрозил Samsung судом из-за «мошенничества с гарантией на SSD 990 Pro»

3 часа назад

Луис Россманн пригрозил Samsung судом из-за «мошенничества с гарантией на SSD 990 Pro»

Активист и блогер Луис Россманн пригрозил судом Samsung, отказавшейся заменить вышедший из строя твердотельный накопитель Samsung 999 Pro, на который ещё распространялась гарантия. Ознакомиться далее

Правительство США закрыло доступ к Claude Fable 5 неамериканцам — схема в результате отключили для всех

4 часа назад

Правительство США закрыло доступ к Claude Fable 5 неамериканцам — схема в результате отключили для всех

Компания Anthropic экстренно отключила доступ к своим самым мощным моделям — Claude Fable 5 и Mythos 5 — после того, как 12 июня получила от правительства США директиву экспортного контроля. Власти по