11 мая 2026, 11:48

OpenAI представила первую голосовую схема с интеллектом GPT-5

3 мин

OpenAI выпустила GPT-Realtime-2 — первую голосовую схема компании с уровнем рассуждений GPT-5. На бенчмарке Big Bench Audio (тест на способность аудиомоделей рассуждать) она показала 96,6% против 81,4% у предыдущей версии gpt-realtime-1.5 — прирост в 15,2 пункта. Параллельно с ней OpenAI представила еще две специализированные модели: GPT-Realtime-Translate для синхронного перевода с 70+ языков на 13 и GPT-Realtime-Whisper для потоковой транскрипции.

Главное изменение в GPT-Realtime-2 — режим рассуждений, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. Сама OpenAI оценивает эффективность в этом режиме на уровне прошлогодней GPT-5 — отличный результат для голосовой модели. Так как работа режима рассуждений занимает время, то схема обучена говорить о том, чем занята. Появились преамбулы ("секунду, проверяю"), параллельные вызовы инструментов с озвучкой действия ("смотрю в твоем календаре"), и более мягкое восстановление при сбое — вместо молчания схема скажет "у меня сейчас проблема с этим". Контекст вырос с 32 тысяч токенов до 128 тысяч — четырехкратный рост, необходимый для длинных агентских сценариев.

Разработчику доступны пять уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для бронирования столика хватит minimal, для разбора жалобы клиента можно поднять до high. Преамбулы и параллельные вызовы инструментов с озвучкой как раз закрывают разрыв: пока схема думает, она проговаривает, чем занята, и пользователь не сидит в тишине.

Цифры партнеров выглядят сильно. Zillow прогнали модель через стресс-тест с каверзными запросами и получили долю успешных диалогов в 95% против 69% у предыдущей модели — рост на 26 пунктов. В соответствии с заявлению Джоша Вайсберга, главы AI-направления Zillow, в дополнение к роста точности модель оказалась существенно надежнее в плане соблюдения закона Fair Housing — американского закона, запрещающего дискриминацию в недвижимости по расе, полу и семейному статусу, а это критичный момент для всего бизнеса компании. На втором бенчмарке Audio MultiChallenge, где проверяют способность вести многоходовой диалог (следовать инструкциям, держать контекст, реагировать на правки), GPT-Realtime-2 в режиме xhigh набрала 48,5% против 34,7% у предшественницы.

Realtime-Translate ориентирован на сценарии, где две стороны говорят на разных языках: техподдержку, продажи, образование. Deutsche Telekom тестирует модель в мультиязычной поддержке клиентов, Vimeo — для синхронного перевода продуктовых видео прямо во время воспроизведения. Realtime-Whisper — потоковая релиз привычного Whisper, транскрипция появляется по ходу речи, а не после завершения фразы; это закрывает запрос на живые субтитры и заметки на встречах. В программный оболочку GPT-Realtime-2 стоит $32 за миллион входных аудио-токенов (40 центов за миллион кешированных) и $64 за миллион выходных — столько же, сколько у gpt-realtime, но с прокачанными рассуждениями. Translate обойдется в 3,4 цента за минуту, Whisper — в 1,7 цента. В ChatGPT схема появится позже.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GPT-Realtime-2 OpenAI GPT

Читают сейчас

25 минут назад

Как Oracle сократила 21 000 сотрудников и ушла в минус на $23,7 млрд ради чипов NVIDIA

Вы, скорее всего, уже слышали, что Oracle на днях выкатила свой годовой отчет. Но если вы пропустили эту новость среди кучи других инфоповодов, то вкратце случилось вот что: техногигант официально при

30 минут назад

В VK пытаются сохранить пользовательский комфорт для обладателей iPhone после удаления приложений из AppStore

В VK сообщили, что работники компании пытаются сделать всё возможное и сохранить пользовательский комфорт для пользователей на iPhone после удаления своих мобильных приложений из App Store, в том числ

51 минуту назад

«У нас есть Claude Mythos дома»: Китай показал ИИ для поиска уязвимостей

Китайская 360 Security Technology представила то, что сама называет "китайским Mythos", — ИИ-инструмент для автоматического поиска уязвимостей в чужом софте. На пекинской конференции ISC.AI 2026 основ

1 час назад

В России в начальный раз застраховали ответственность антропоморфных роботов

«СберСтрахование» в первый раз застраховала ответственность владельца антропоморфных роботов «Грин». Договор заключёили на год. Полис покрывает ущерб, который робот может нанести имуществу третьих лиц

1 час назад

LDLC представила конкурента Steam Machine под названием PC Stim

Французский ретейлер LDLC показал конкурента компактного ПК Steam Machine под названием PC Stim. Одновременно PC Stim примерно в три раза превышает по размерам новинку от Valve. Ознакомиться далее