6 марта 2026, 10:51
GPT-5.4 протестировали на самых сложных интерфейсах в мире — схема справилась

Стартап Pace, который строит ИИ-агентов для страховых компаний, протестировал GPT-5.4 на реальных легаси-порталах страховщиков — системах, которым по 20 лет, с перегруженными интерфейсами и крошечными кнопками. Согласно заявлению компании, схема справилась: GPT-5.4 точно кликает по нужным элементам, удерживает контекст на протяжении сотен шагов и запоминает расположение элементов интерфейса между сессиями.
Страхование — одна из самых сложных сред для computer use. Рабочие процессы здесь — это не 5 действий, а сотни: навигация по меню, ввод структурированных данных, сверка с PDF-документами, обработка исключений в разных системах. Предыдущие модели, согласно заявлению Pace, "теряли нить" на середине таких цепочек. GPT-5.4, по утверждению компании, удерживает контекст до конца. Сама OpenAI заявляет, что схема получила контекстное окно в 1,05 млн токенов и нативную поддержку компакции — сжатия контекста для длинных агентных сессий.
Pace выделяет четыре ключевых улучшения: точность кликов на перегруженных экранах, рассуждение на длинных цепочках действий, скорость итерации (быстрее прогоняются тысячи тестов) и память — агент запоминает пространственную раскладку интерфейса и не пересчитывает её каждый раз. На бенчмарке OSWorld-Verified, который измеряет способность модели управлять десктопом через скриншоты, GPT-5.4 набрала 75% против 47,3% у GPT-5.2 — это выше человеческого показателя в 72,4%.
Pace — не стартап-однодневка: в декабре компания объявила о работе с Prudential Financial, где ИИ-агенты уже автоматизируют обслуживание полисов страхования жизни. Подход Pace — не заменять 20-летние системы, а строить агентов, которые работают в тех же интерфейсах, что и живые операторы. Но реальная надёжность computer use в продакшене пока остается открытым вопросом — даже 75% на OSWorld-Verified означают, что каждая четвертая проблема заканчивается ошибкой, а значит надо искать решения, как их избегать.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас
17 минут назад
Не теряйте посещаемость летом: главные материалы месяца
Июнь часто создает ложное ощущение затишья. Кажется, что клиенты разъехались по отпускам и можно немного расслабиться. Но на практике все иначе: трафик снижается, заявки приходят реже, а фрод становит

17 минут назад
Боты в начальный раз в истории интернета обогнали людей по объёму трафика — информация Cloudflare
Трафик, генерируемый ботами, в начальный раз в истории интернета превысил объём трафика от реальных пользователей. Об этом говорит сервис Cloudflare Radar. Ознакомиться далее

19 минут назад
Обновили GPU-платформу в облаке и улучшили доступность NVIDIA L4
Привет! Вот что у нас нового было в мае: открыли для заказа диски PCIe Gen 5 уже с видеокартами NVIDIA L4 24 ГБ, добавили Ubuntu 26.04 в доступные образы для IaaS, обновили веб-сайт и улучшили раздел

30 минут назад
Маск планирует десятикратно увеличить группировку спутников Starlink на орбите
К середине марта 2026 года число активных спутников интернет-системы Starlink на орбите превысило 10 тыс. Генеральный директор SpaceX Илон Маск планирует увеличить общее количество аппаратов орбитальн
44 минуты назад
Вышла опенсорсная набор модулей для устранения шума на изображениях Open Image Denoise 2.5
Intel выпустила инициатива oidn 2.5 (Open Image Denoise) с коллекцией фильтров. Они предназначены для устранения шумов на изображениях, подготовленных с использованием систем рендеринга на основе трас