Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

2 мин
Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

Команда Qwen (Alibaba Cloud) представила Qwen3.5-Omni — новое поколение мультимодальной модели, которая принимает на вход текст, изображения, аудио и видео, а на выходе генерирует текст и речь в реальном времени. Модель выпущена в трех размерах — Plus, Flash и Light — и доступна через Offline программный оболочку и Realtime программный оболочку.

Главное отличие от предшественника Qwen3-Omni — масштаб. Контекстное окно выросло с 32 до 256 тысяч токенов: модель обрабатывает более 10 часов аудио или приблизительно 400 секунд видео 720p за один запрос. Распознавание речи теперь охватывает 113 языков и диалектов (было 19), синтез — 36 (было 10). Оба компонента архитектуры — Thinker и Talker — перешли на Hybrid-Attention MoE, а предобучение проводилось на более чем 100 миллионах часов мультимодальных аудио-видеоданных.

По бенчмаркам версия Plus показала SOTA-результаты на большинстве из 36 аудио- и аудио-видео бенчмарков, а равным образом по десяткам языков в распознавании и переводе речи. В общем и целом аудиопонимании, распознавании, переводе и диалоге схема обошла Gemini 3.1 Pro, а в аудио-видео понимании вышла на его уровень. В генерации речи Qwen3.5-Omni-Plus обогнала ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках. Текстовые и визуальные способности одновременно не просели — они на уровне текстовых Qwen3.5 того же размера.

Среди новых возможностей — семантическое прерывание (модель отличает реальную реплику пользователя от фонового шума), клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также встроенные WebSearch и FunctionCall. Отдельно Alibaba выделяет технику ARIA (Adaptive Rate Interleave Alignment): она динамически выравнивает текстовые и речевые токены, устраняя пропуски слов и нечёткое произношение чисел при стриминге.

Неожиданным побочным эффектом мультимодального масштабирования стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding: схема смотрит видеозапись экрана с аудиоинструкциями и пишет работающий код — без текстового промпта. В компании подчеркивают, что эту способность не тренировали целенаправленно — она возникла как эмерджентное свойство.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

HackerOne сообщила об утечке данных сотрудников после взлома системы Navia

1 час назад

HackerOne сообщила об утечке данных сотрудников после взлома системы Navia

Платформа Bug bounty HackerOne уведомила сотни сотрудников о том, что их данные были скомпрометированы после взлома злоумышленниками Navia, одного из американских провайдеров, управляющих системами ль

Vivo представила X300 Ultra — флагманский камерофон с внешней оптикой и аксессуарами для съёмки

2 часа назад

Vivo представила X300 Ultra — флагманский камерофон с внешней оптикой и аксессуарами для съёмки

Vivo презентовала в Китае телефон X300 Ultra с упором на мобильную фотографию. Одной из главных особенностей стал модуль из трёх камер, разработанных совместно с Zeiss и внешние телеобъективы с фокусн

Qwen3.6 Plus Preview появился на OpenRouter бесплатно

3 часа назад

Qwen3.6 Plus Preview появился на OpenRouter бесплатно

Сегодня Alibaba выпустила Qwen3.5-Omni — мультимодальную схема, которая принимает текст, изображения, аудио и видео, а на выходе генерирует текст и речь одновременно. Три размера: Plus, Flash, Light.

OpenAI встроила Codex в Claude Code — все для удобства пользователей

3 часа назад

OpenAI встроила Codex в Claude Code — все для удобства пользователей

OpenAI выпустила опенсорс-плагин, который даёт возможность вызывать Codex прямо из Claude Code — ИИ-агента конкурирующей Anthropic. Плагин разработал Доминик Кундел, разработчик из команды Developer E

Suno научился петь голосом пользователя — и это самая запрашиваемая опция за всю историю сервиса

5 часов назад

Suno научился петь голосом пользователя — и это самая запрашиваемая опция за всю историю сервиса

ИИ-музыкальная платформа Suno выпустила версию v5.5, главным нововведением которой стала опция Voices — клонирование голоса пользователя. Теперь подписчики Pro и Premier могут загрузить или записать ф