16 часов назад
GPT-5.4 протестировали на самых сложных интерфейсах в мире — схема справилась

Стартап Pace, который строит ИИ-агентов для страховых компаний, протестировал GPT-5.4 на реальных легаси-порталах страховщиков — системах, которым по 20 лет, с перегруженными интерфейсами и крошечными кнопками. Согласно заявлению компании, схема справилась: GPT-5.4 точно кликает по нужным элементам, удерживает контекст на протяжении сотен шагов и запоминает расположение элементов интерфейса между сессиями.
Страхование — одна из самых сложных сред для computer use. Рабочие процессы здесь — это не 5 действий, а сотни: навигация по меню, ввод структурированных данных, сверка с PDF-документами, обработка исключений в разных системах. Предыдущие модели, согласно заявлению Pace, "теряли нить" на середине таких цепочек. GPT-5.4, по утверждению компании, удерживает контекст до конца. Сама OpenAI заявляет, что схема получила контекстное окно в 1,05 млн токенов и нативную поддержку компакции — сжатия контекста для длинных агентных сессий.
Pace выделяет четыре ключевых улучшения: точность кликов на перегруженных экранах, рассуждение на длинных цепочках действий, скорость итерации (быстрее прогоняются тысячи тестов) и память — агент запоминает пространственную раскладку интерфейса и не пересчитывает её каждый раз. На бенчмарке OSWorld-Verified, который измеряет способность модели управлять десктопом через скриншоты, GPT-5.4 набрала 75% против 47,3% у GPT-5.2 — это выше человеческого показателя в 72,4%.
Pace — не стартап-однодневка: в декабре компания объявила о работе с Prudential Financial, где ИИ-агенты уже автоматизируют обслуживание полисов страхования жизни. Подход Pace — не заменять 20-летние системы, а строить агентов, которые работают в тех же интерфейсах, что и живые операторы. Но реальная надёжность computer use в продакшене пока остается открытым вопросом — даже 75% на OSWorld-Verified означают, что каждая четвертая проблема заканчивается ошибкой, а значит надо искать решения, как их избегать.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

4 часа назад
Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку
Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети.

5 часов назад
OpenAI выпустила ИИ-агента для поиска уязвимостей — он уже нашел баги в OpenSSH, GnuTLS и Chromium
OpenAI запустила Codex Security — ИИ-агента для поиска уязвимостей в коде. За время закрытой беты, которая шла с прошлого года под кодовым названием Aardvark, агент просканировал более 1,2 млн коммито

8 часов назад
Крупнейшая провинция Китая планирует перестроить промышленность с помощью ИИ
Власти китайской провинции Гуандун, крупнейшего экономического региона страны, объявили о планах масштабного внедрения искусственного интеллекта в промышленность и ключевые отрасли экономики. Об этом

8 часов назад
Запущен инициатива по сохранению файлов игрового архива Myrient, дедлайн до 31 марта
26 февраля 2026 года было объявлено о закрытии одного из крупнейших собраний цифровых копий игр Myrient. Чтобы сохранить цифровое наследие, запущен инициатива Minerva Archive. Сотни энтузиастов качают

8 часов назад
OpenAI встроила ChatGPT в Excel и подключила к нему информация Bloomberg, Moody's и S&P
OpenAI официально представила новую модель GPT-5.4 и специализированный аддон ChatGPT для Excel, предназначенный для глубокой автоматизации офисной работы. ИСредство позволяет строить сложные финансов