11 мая 2026, 11:48
OpenAI представила первую голосовую схема с интеллектом GPT-5

OpenAI выпустила GPT-Realtime-2 — первую голосовую схема компании с уровнем рассуждений GPT-5. На бенчмарке Big Bench Audio (тест на способность аудиомоделей рассуждать) она показала 96,6% против 81,4% у предыдущей версии gpt-realtime-1.5 — прирост в 15,2 пункта. Параллельно с ней OpenAI представила еще две специализированные модели: GPT-Realtime-Translate для синхронного перевода с 70+ языков на 13 и GPT-Realtime-Whisper для потоковой транскрипции.
Главное изменение в GPT-Realtime-2 — режим рассуждений, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. Сама OpenAI оценивает эффективность в этом режиме на уровне прошлогодней GPT-5 — отличный результат для голосовой модели. Так как работа режима рассуждений занимает время, то схема обучена говорить о том, чем занята. Появились преамбулы ("секунду, проверяю"), параллельные вызовы инструментов с озвучкой действия ("смотрю в твоем календаре"), и более мягкое восстановление при сбое — вместо молчания схема скажет "у меня сейчас проблема с этим". Контекст вырос с 32 тысяч токенов до 128 тысяч — четырехкратный рост, необходимый для длинных агентских сценариев.
Разработчику доступны пять уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для бронирования столика хватит minimal, для разбора жалобы клиента можно поднять до high. Преамбулы и параллельные вызовы инструментов с озвучкой как раз закрывают разрыв: пока схема думает, она проговаривает, чем занята, и пользователь не сидит в тишине.
Цифры партнеров выглядят сильно. Zillow прогнали модель через стресс-тест с каверзными запросами и получили долю успешных диалогов в 95% против 69% у предыдущей модели — рост на 26 пунктов. В соответствии с заявлению Джоша Вайсберга, главы AI-направления Zillow, в дополнение к роста точности модель оказалась существенно надежнее в плане соблюдения закона Fair Housing — американского закона, запрещающего дискриминацию в недвижимости по расе, полу и семейному статусу, а это критичный момент для всего бизнеса компании. На втором бенчмарке Audio MultiChallenge, где проверяют способность вести многоходовой диалог (следовать инструкциям, держать контекст, реагировать на правки), GPT-Realtime-2 в режиме xhigh набрала 48,5% против 34,7% у предшественницы.
Realtime-Translate ориентирован на сценарии, где две стороны говорят на разных языках: техподдержку, продажи, образование. Deutsche Telekom тестирует модель в мультиязычной поддержке клиентов, Vimeo — для синхронного перевода продуктовых видео прямо во время воспроизведения. Realtime-Whisper — потоковая релиз привычного Whisper, транскрипция появляется по ходу речи, а не после завершения фразы; это закрывает запрос на живые субтитры и заметки на встречах. В программный оболочку GPT-Realtime-2 стоит $32 за миллион входных аудио-токенов (40 центов за миллион кешированных) и $64 за миллион выходных — столько же, сколько у gpt-realtime, но с прокачанными рассуждениями. Translate обойдется в 3,4 цента за минуту, Whisper — в 1,7 цента. В ChatGPT схема появится позже.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

19 минут назад
В России в начальный раз застраховали ответственность антропоморфных роботов
«СберСтрахование» в первый раз застраховала ответственность владельца антропоморфных роботов «Грин». Договор заключёили на год. Полис покрывает ущерб, который робот может нанести имуществу третьих лиц

27 минут назад
LDLC представила конкурента Steam Machine под названием PC Stim
Французский ретейлер LDLC показал конкурента компактного ПК Steam Machine под названием PC Stim. Одновременно PC Stim примерно в три раза превышает по размерам новинку от Valve. Ознакомиться далее
36 минут назад
Система SimpleOne стала основой сервисной поддержки «Группы Лента»
«Группа Лента» завершила переход на российскую платформу управления ИТ-услугами от компании SimpleOne (входит в корпорацию ITG) в рамках стратегии импортозамещения. Сегодня система обрабатывает более

59 минут назад
«Яндекс» запустил ИИ-ассистента для медицинских учреждений
«Яндекс» запустил пилотную версию ИИ‑ассистента для клиник, который автоматизирует рутинную работу врачей во время приёма. В компании заявили, что подход позволит врачам тратить до 40% меньше времени

1 час назад
Лучшее за неделю (15.06 — 21.06)
Привет, ! Сегодня расскажем, зачем могут пригодиться два VPS, почему темпы роста SaaS в России замедляются, а ещё рассмотрим лучшие статьи прошлой недели: про использование бормашины в DIY-эксперимент