31 марта 2026, 00:03

Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

2 мин

Команда Qwen (Alibaba Cloud) представила Qwen3.5-Omni — новое поколение мультимодальной модели, которая принимает на вход текст, изображения, аудио и видео, а на выходе генерирует текст и речь в реальном времени. Модель выпущена в трех размерах — Plus, Flash и Light — и доступна через Offline программный оболочку и Realtime программный оболочку.

Главное отличие от предшественника Qwen3-Omni — масштаб. Контекстное окно выросло с 32 до 256 тысяч токенов: модель обрабатывает более 10 часов аудио или приблизительно 400 секунд видео 720p за один запрос. Распознавание речи теперь охватывает 113 языков и диалектов (было 19), синтез — 36 (было 10). Оба компонента архитектуры — Thinker и Talker — перешли на Hybrid-Attention MoE, а предобучение проводилось на более чем 100 миллионах часов мультимодальных аудио-видеоданных.

По бенчмаркам версия Plus показала SOTA-результаты на большинстве из 36 аудио- и аудио-видео бенчмарков, а равным образом по десяткам языков в распознавании и переводе речи. В общем и целом аудиопонимании, распознавании, переводе и диалоге схема обошла Gemini 3.1 Pro, а в аудио-видео понимании вышла на его уровень. В генерации речи Qwen3.5-Omni-Plus обогнала ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках. Текстовые и визуальные способности одновременно не просели — они на уровне текстовых Qwen3.5 того же размера.

Среди новых возможностей — семантическое прерывание (модель отличает реальную реплику пользователя от фонового шума), клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также встроенные WebSearch и FunctionCall. Отдельно Alibaba выделяет технику ARIA (Adaptive Rate Interleave Alignment): она динамически выравнивает текстовые и речевые токены, устраняя пропуски слов и нечёткое произношение чисел при стриминге.

Неожиданным побочным эффектом мультимодального масштабирования стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding: схема смотрит видеозапись экрана с аудиоинструкциями и пишет работающий код — без текстового промпта. В компании подчеркивают, что эту способность не тренировали целенаправленно — она возникла как эмерджентное свойство.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Qwen3.5 qwen3.5-omni

Читают сейчас

11 минут назад

Вышел nginx 1.31

13 мая 2026 года состоялся версия высокопроизводительного HTTP‑сервера и многопротокольного прокси‑сервера nginx 1.31.0. Исходный исходник проекта nginx написан на языке C и распространяется под лицен

27 минут назад

Версия обновления открытого инструментария для загрузки прошивок Fwupd 2.1.3

12 мая 2026 года состоялся версия обновления открытого инструментария для загрузки прошивок Fwupd 2.1.3. Исходный код проекта написан на C и Python и опубликован на GitHub под лицензией GNU Lesser Gen

4 часа назад

Организация LinkedIn уволит 5% сотрудников

Принадлежащая Microsoft компания LinkedIn заявила, что сократит почти 5% сотрудников, и уточнила, что увольнения не связаны с внедрением искусственного интеллекта, сообщает Reuters со ссылкой на свои

5 часов назад

Codex добавили в портативный ChatGPT — для всех планов, в том числе бесплатный

OpenAI запустила Codex в мобильном приложении ChatGPT в режиме preview. Версии для iOS и Android раскатывают на всех тарифах — включая Free и Go. По данным компании, кодинг-агентом сейчас пользуются б

7 часов назад

У GoPro проблемы: организация не выдерживает конкуренцию с DJI и Insta360, а руководство рассматривает продажу бизнеса

Совет директоров GoPro начал искать способы поднять стоимость компании среди акционеров. Среди вариантов рассматривают продажу бизнеса, слияние и контракты в оборонной промышленности. Сейчас организац