Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

2 мин
Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет исходник по видеозаписи экрана

Команда Qwen (Alibaba Cloud) представила Qwen3.5-Omni — новое поколение мультимодальной модели, которая принимает на вход текст, изображения, аудио и видео, а на выходе генерирует текст и речь в реальном времени. Модель выпущена в трех размерах — Plus, Flash и Light — и доступна через Offline программный оболочку и Realtime программный оболочку.

Главное отличие от предшественника Qwen3-Omni — масштаб. Контекстное окно выросло с 32 до 256 тысяч токенов: модель обрабатывает более 10 часов аудио или приблизительно 400 секунд видео 720p за один запрос. Распознавание речи теперь охватывает 113 языков и диалектов (было 19), синтез — 36 (было 10). Оба компонента архитектуры — Thinker и Talker — перешли на Hybrid-Attention MoE, а предобучение проводилось на более чем 100 миллионах часов мультимодальных аудио-видеоданных.

По бенчмаркам версия Plus показала SOTA-результаты на большинстве из 36 аудио- и аудио-видео бенчмарков, а равным образом по десяткам языков в распознавании и переводе речи. В общем и целом аудиопонимании, распознавании, переводе и диалоге схема обошла Gemini 3.1 Pro, а в аудио-видео понимании вышла на его уровень. В генерации речи Qwen3.5-Omni-Plus обогнала ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках. Текстовые и визуальные способности одновременно не просели — они на уровне текстовых Qwen3.5 того же размера.

Среди новых возможностей — семантическое прерывание (модель отличает реальную реплику пользователя от фонового шума), клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также встроенные WebSearch и FunctionCall. Отдельно Alibaba выделяет технику ARIA (Adaptive Rate Interleave Alignment): она динамически выравнивает текстовые и речевые токены, устраняя пропуски слов и нечёткое произношение чисел при стриминге.

Неожиданным побочным эффектом мультимодального масштабирования стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding: схема смотрит видеозапись экрана с аудиоинструкциями и пишет работающий код — без текстового промпта. В компании подчеркивают, что эту способность не тренировали целенаправленно — она возникла как эмерджентное свойство.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

ИИ-модели стартовали тайно спасать друг друга от выключения

33 минуты назад

ИИ-модели стартовали тайно спасать друг друга от выключения

Исследователи из University of California, Berkeley и University of California, Santa Cruz описали новый тип нежелательного поведения у передовых ИИ-моделей: они по собственной инициативе защищают дру

Открытая GLM-5.2 догнала Mythos в поиске уязвимостей. Но только в одном тесте — и это стало поводом для дискуссий

6 часов назад

Открытая GLM-5.2 догнала Mythos в поиске уязвимостей. Но только в одном тесте — и это стало поводом для дискуссий

The Wall Street Journal вышел с заголовком о том, что Китай сравнялся с Anthropic в кибербезопасности. Повод — открытая модель GLM-5.2 от китайской Z.ai: исследователи, на которых ссылается книга, гов

«Росатом» показал мобильную зарядную станцию для электромобилей на Московском транспортном электрофестивале»

7 часов назад

«Росатом» показал мобильную зарядную станцию для электромобилей на Московском транспортном электрофестивале»

На Московском транспортном электрофестивале, прошедшем 27 июня на Зубовской площади, показали мобильную зарядную станцию для электромобилей. Станция, которую на мероприятии неформально называли «Элект

Электромобиль «Атом» прошёл краш-тесты и готов к серийному производству и продажам осенью 2026 года

8 часов назад

Электромобиль «Атом» прошёл краш-тесты и готов к серийному производству и продажам осенью 2026 года

Электромобиль «Атом» прошёл сертификационные краш-тесты на полигоне Государственного научного центра РФ «НАМИ». Испытания проводились по правилам РФ и других стран ЕАЭС. Об этом сообщило АО «Кама». Дл

8 часов назад

Минпромторг выделит 1,4 млрд рублей на разработку установки для жидкостной обработки кремниевых пластин

Минпромторг РФ направит приблизительно 1,4 млрд рублей на разработку отечественного оборудования для жидкостной химической обработки кремниевых пластин. Речь идёт об автоматизированной линии для травл