OpenAI представила первую голосовую схема с интеллектом GPT-5

3 мин
OpenAI представила первую голосовую схема с интеллектом GPT-5

OpenAI выпустила GPT-Realtime-2 — первую голосовую схема компании с уровнем рассуждений GPT-5. На бенчмарке Big Bench Audio (тест на способность аудиомоделей рассуждать) она показала 96,6% против 81,4% у предыдущей версии gpt-realtime-1.5 — прирост в 15,2 пункта. Параллельно с ней OpenAI представила еще две специализированные модели: GPT-Realtime-Translate для синхронного перевода с 70+ языков на 13 и GPT-Realtime-Whisper для потоковой транскрипции.

Главное изменение в GPT-Realtime-2 — режим рассуждений, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. Сама OpenAI оценивает эффективность в этом режиме на уровне прошлогодней GPT-5 — отличный результат для голосовой модели. Так как работа режима рассуждений занимает время, то схема обучена говорить о том, чем занята. Появились преамбулы ("секунду, проверяю"), параллельные вызовы инструментов с озвучкой действия ("смотрю в твоем календаре"), и более мягкое восстановление при сбое — вместо молчания схема скажет "у меня сейчас проблема с этим". Контекст вырос с 32 тысяч токенов до 128 тысяч — четырехкратный рост, необходимый для длинных агентских сценариев.

Разработчику доступны пять уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для бронирования столика хватит minimal, для разбора жалобы клиента можно поднять до high. Преамбулы и параллельные вызовы инструментов с озвучкой как раз закрывают разрыв: пока схема думает, она проговаривает, чем занята, и пользователь не сидит в тишине.

Цифры партнеров выглядят сильно. Zillow прогнали модель через стресс-тест с каверзными запросами и получили долю успешных диалогов в 95% против 69% у предыдущей модели — рост на 26 пунктов. В соответствии с заявлению Джоша Вайсберга, главы AI-направления Zillow, в дополнение к роста точности модель оказалась существенно надежнее в плане соблюдения закона Fair Housing — американского закона, запрещающего дискриминацию в недвижимости по расе, полу и семейному статусу, а это критичный момент для всего бизнеса компании. На втором бенчмарке Audio MultiChallenge, где проверяют способность вести многоходовой диалог (следовать инструкциям, держать контекст, реагировать на правки), GPT-Realtime-2 в режиме xhigh набрала 48,5% против 34,7% у предшественницы.

Realtime-Translate ориентирован на сценарии, где две стороны говорят на разных языках: техподдержку, продажи, образование. Deutsche Telekom тестирует модель в мультиязычной поддержке клиентов, Vimeo — для синхронного перевода продуктовых видео прямо во время воспроизведения. Realtime-Whisper — потоковая релиз привычного Whisper, транскрипция появляется по ходу речи, а не после завершения фразы; это закрывает запрос на живые субтитры и заметки на встречах. В программный оболочку GPT-Realtime-2 стоит $32 за миллион входных аудио-токенов (40 центов за миллион кешированных) и $64 за миллион выходных — столько же, сколько у gpt-realtime, но с прокачанными рассуждениями. Translate обойдется в 3,4 цента за минуту, Whisper — в 1,7 цента. В ChatGPT схема появится позже.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Полиция Германии закрыла перезапущенную версию криминальной торговой площадки Crimenetwork и арестовала её админа

12 минут назад

Полиция Германии закрыла перезапущенную версию криминальной торговой площадки Crimenetwork и арестовала её админа

Немецкая полиция закрыла перезапущенную криминальную торговую платформу Crimenetwork и арестовала её администратора, который заработал на площадке более €3,6 млн. Ознакомиться далее

ИИ сам находит, сравнивает и оплачивает товары. В Китае запускают агентный шопинг

29 минут назад

ИИ сам находит, сравнивает и оплачивает товары. В Китае запускают агентный шопинг

Alibaba готовится развернуть глубокую интеграцию своего AI-приложения Qwen с маркетплейсом Taobao и его премиальной частью Tmall. Чат-бот получит доступ к каталогу из более 4 миллиардов товарных позиц

В защиту разработчика форка для принтеров Bambu Lab запустили кампанию

32 минуты назад

В защиту разработчика форка для принтеров Bambu Lab запустили кампанию

Инженер по ремонту электроники, предприниматель и защитник прав потребителей на ремонт Луис Россманн пообещал выделить $10 000 на покрытие первоначальных судебных издержек независимого разработчика пр

Представлена игровая мышка Mionix из карбона

52 минуты назад

Представлена игровая мышка Mionix из карбона

Организация Mionix анонсировала Avior Air Carbon Fiber — беспроводную игровую мышь ограниченной серии с корпусом из углеродного волокна и новой беспроводной платформой на базе чипсета nRF54H20 от Nord

Средство charmap.exe Windows активно используется спустя 30 лет после выхода

1 час назад

Средство charmap.exe Windows активно используется спустя 30 лет после выхода

В Windows 11 до сих пор сохранилось немало устаревших инструментов, в том числе «Карта символов» (charmap.exe). В недавнем обсуждении на Reddit пользователи вспоминали, как его внедрили как минимум с