OpenAI готовит к релизу двунаправленную аудиомодель

2 мин
OpenAI готовит к релизу двунаправленную аудиомодель

Компания OpenAI ведет разработку инновационной двунаправленной (BiDi) аудиомодели, которая сделает диалог с искусственным интеллектом максимально похожим на человеческий. В отличие от текущих систем, новая техника позволяет ИИ обрабатывать речь непрерывно и мгновенно реагировать на изменения в процессе беседы.

ТТехника BiDi: конец эпохи пошаговых диалогов

Суть новой двунаправленной (BiDi) обработки звука заключается в непрерывном анализе входящего аудиопотока. В отличие от существующих пошаговых систем, где искусственный интеллект ожидает окончания фразы пользователя, BiDi-модель адаптируется к изменениям в режиме реального времени. Подобная архитектура даёт возможность алгоритму мгновенно корректировать ответ, если собеседник перебивает его или меняет тему разговора. Исследователи OpenAI отмечают, что текущие аудиомодели уступают текстовым решениям в точности и скорости, из-за чего большинство пользователей ChatGPT предпочитает текстовый оболочку голосовому.

Проблемы разработки и новые сроки запуска

В процессе тестирования прототипов инженеры столкнулись с техническими сбоями: схема начинает работать некорректно спустя несколько минут диалога. По этой причине запускание технологии перенесли с первого квартала 2026 года на следующий квартал или более поздний дедлайн. Данная задержка продолжает историю сложностей OpenAI с аудиопродуктами. Ранее добавление режима Advanced Voice Mode для GPT-4o откладывалось для доработки инфраструктуры и систем безопасности. В процессе ранних тестов специалисты фиксировали ошибки, включая имитацию голоса пользователя и неожиданные выкрики системы. Сегодня разработчики сосредоточены на способности модели обнаруживать и отклонять нежелательный контент.

Аппаратное будущее и экосистема устройств OpenAI

РСоздание новой модели является частью стратегии OpenAI по выходу на сегмент потребительской электроники. Компания планирует представить персональное аудиоустройство на протяжении года, а в дальнейшем расширить портфель за счет умных колонок и очков. Для интеграции в гаджеты и автомобили ведется создание облегченных моделей, способных обрабатывать аудио локально. Это позволит снизить затраты по сравнению с облачными вычислениями, следуя примеру Google, использующей схема Gemini Nano в смартфонах Pixel. Для ускорения работ руководство OpenAI объединило команды инженеров, исследователей и продуктологов в единую группу, сфокусированную на аудиорешениях.

Читают сейчас

Apple одобрила Poke в качестве первого ИИ-агента на платформе Messages for Business

8 минут назад

Apple одобрила Poke в качестве первого ИИ-агента на платформе Messages for Business

Стартап Poke, который упрощает использование ИИ-агентов через обычные сообщения, стал первым, одобренным для работы на платформе Apple Messages for Business. Она была разработана для предприятий — ави

Хакатон Дайджест №35 на июнь

10 минут назад

Хакатон Дайджест №35 на июнь

Ежемесячная подборка хакатонов! Июньский версия: снова собрали для вас ИТ‑соревнования, где проверяют не только исходник, но и инженерную смекалку, командную выносливость и умение решать реальные прод

Версия Trayy 3.1 — открытого приложения для Windows 10/11, которое расширяет возможности системного трея

1 час назад

Версия Trayy 3.1 — открытого приложения для Windows 10/11, которое расширяет возможности системного трея

В начале июня 2026 года состоялся версия проекта Trayy 3.1. Это небольшое открытое приложение для ПК на Windows 10/11, которое расширяет возможности системного трея. Исходный код решения написан на C+

$80 за миллион токенов? По слухам, Anthropic готовит Claude Mythos к релизу

1 час назад

$80 за миллион токенов? По слухам, Anthropic готовит Claude Mythos к релизу

Неделей ранее в анонсе Claude Opus 4.8 компания Anthropic упомянула, что готовит к широкому запуску модель еще более высокого класса — вероятно, доработанную публичную версию Сlaude Mythos, который с

Выпуск NWinfo 1.6.4 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows

2 часа назад

Выпуск NWinfo 1.6.4 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows

В начале июня 2026 года состоялся релиз легковесного проекта NWinfo 1.6.4. Это публичный мобильный инструмент для быстрого просмотра ключевых деталей ПК от характеристик оборудования до программного о