6 марта 2026, 15:59

OpenAI готовит к релизу двунаправленную аудиомодель

2 мин

Компания OpenAI ведет разработку инновационной двунаправленной (BiDi) аудиомодели, которая сделает диалог с искусственным интеллектом максимально похожим на человеческий. В отличие от текущих систем, новая техника позволяет ИИ обрабатывать речь непрерывно и мгновенно реагировать на изменения в процессе беседы.

ТТехника BiDi: конец эпохи пошаговых диалогов

Суть новой двунаправленной (BiDi) обработки звука заключается в непрерывном анализе входящего аудиопотока. В отличие от существующих пошаговых систем, где искусственный интеллект ожидает окончания фразы пользователя, BiDi-модель адаптируется к изменениям в режиме реального времени. Подобная архитектура даёт возможность алгоритму мгновенно корректировать ответ, если собеседник перебивает его или меняет тему разговора. Исследователи OpenAI отмечают, что текущие аудиомодели уступают текстовым решениям в точности и скорости, из-за чего большинство пользователей ChatGPT предпочитает текстовый оболочку голосовому.

Проблемы разработки и новые сроки запуска

В процессе тестирования прототипов инженеры столкнулись с техническими сбоями: схема начинает работать некорректно спустя несколько минут диалога. По этой причине запускание технологии перенесли с первого квартала 2026 года на следующий квартал или более поздний дедлайн. Данная задержка продолжает историю сложностей OpenAI с аудиопродуктами. Ранее добавление режима Advanced Voice Mode для GPT-4o откладывалось для доработки инфраструктуры и систем безопасности. В процессе ранних тестов специалисты фиксировали ошибки, включая имитацию голоса пользователя и неожиданные выкрики системы. Сегодня разработчики сосредоточены на способности модели обнаруживать и отклонять нежелательный контент.

Аппаратное будущее и экосистема устройств OpenAI

РСоздание новой модели является частью стратегии OpenAI по выходу на сегмент потребительской электроники. Компания планирует представить персональное аудиоустройство на протяжении года, а в дальнейшем расширить портфель за счет умных колонок и очков. Для интеграции в гаджеты и автомобили ведется создание облегченных моделей, способных обрабатывать аудио локально. Это позволит снизить затраты по сравнению с облачными вычислениями, следуя примеру Google, использующей схема Gemini Nano в смартфонах Pixel. Для ускорения работ руководство OpenAI объединило команды инженеров, исследователей и продуктологов в единую группу, сфокусированную на аудиорешениях.

ии ии и машинное обучение OpenAI BiDi ai аудиомодели ии диалог

Читают сейчас

17 июля 2026, 13:04

Обзор изменений в законодательстве за июнь 2026 года

В обзоре изменений за июнь 2026 года рассмотрим следующие темы: критическая информационная инфраструктура, финансовые организации, деятельность ФСТЭК России, судебная практика и другие. Читать далее

17 июля 2026, 13:00

«Яндекс» назвал победителей первой премии «Сделано с ИИ»

«Яндекс» подвёл итоги первой премии «Сделано с ИИ», учреждённой для специалистов, которые применяют искусственный интеллект при решении профессиональных задач. Победителями стали разработчики проектов

17 июля 2026, 12:58

Почти 300 репозиториев GitHub использовались для распространения программ-стилеров

На GitHub обнаружили масштабную атаку: 292 репозитория с инфостилерами, которые имитировали известные инструменты в области безопасности, финансов и разработки. По поведению вредонос похож на семейств

17 июля 2026, 12:57

Выпуск ProGate 1.3.0: сопровождение Shardman, отказоустойчивость и улучшения безопасности

Postgres Professional представляет обновление платформы миграции и репликации данных — Postgres ProGate 1.3.0. Ключевые темы релиза: полноценная поддержка Postgres Pro Shardman в качестве приёмника с

17 июля 2026, 12:22

«Авито» планирует запустить свой служба знакомств

«Авито» изучает возможность запуска сервиса знакомств для серьёзных отношений, который будет встроен в основное приложение платформы, рассказали «Ъ» источники, знакомые с планами компании. В «Авито» п