ИИ, который не тупит: стартап-компания Миры Мурати представил начальный большой инициатива

3 мин
ИИ, который не тупит: стартап-компания Миры Мурати представил начальный большой инициатива

Thinking Machines Lab, стартап бывшего технического директора OpenAI Миры Мурати, представил первое демо новой модели, которая работает с пользователем в режиме живого разговора — слышит, видит и сообщает одновременно, без классической схемы "сначала вопрос, потом ответ". Задержка между репликой пользователя и реакцией модели — 0,4 секунды против 1,18 у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live.

В блог-посте команда объясняет, почему стандартные модели плохо подходят для живого диалога. Обычный чатбот работает по очереди: пока пользователь не закончил печатать или говорить, схема ждет — никакого восприятия, что вообще происходит. Пока модель отвечает, она ничего не слышит и не видит сама. Аналогия из самого поста: будто решать серьезный конфликт по электронной почте, а не лицом к лицу. Пользователи к этому подстроились — стали формулировать запросы как письма и батчить мысли, потому что прерывания и угуканье ("ага", "понял") живого разговора чатбот не тянет.

Архитектурно Thinking Machines выкинула турн-режим (вопрос-ответ) и заменила его на потоковую обработку. Модель режет вход и выход на куски по 200 миллисекунд — и параллельно слушает входящие 200 мс аудио или видео и генерирует следующие 200 мс собственного ответа. Эти куски авторы называют "микро-турнами". Параллельно убрали тяжелые отдельные энкодеры — обычно аудио прогоняют через модель типа Whisper, видео через свой энкодер, и только потом скармливают результат главный модели. Здесь сырой сигнал идет прямо в трансформер через легкий слой векторных представлений (embedding), что заметно срезает задержку.

Сама модель устроена как связка из двух частей. TML-Interaction-Small держит реальное время — слышит, отвечает, реагирует на жесты и интонации. Если задача требует долгого размышления (например, что-то найти в интернете или сгенерировать запутанный ui), она передает запрос более мощной фоновой модели (background model) — это второй компонент, который думает асинхронно и отдает результат, когда готов. TML-Interaction-Small — это разреженная MoE-архитектура (mixture of experts, "смесь экспертов" — когда из общего пула параметров на каждом шаге задействуется только часть) на 276 миллиардов параметров, из которых на каждом шаге активны 12 миллиардов. Технические характеристики background model пока не раскрываются.

Ситуация в бенчмарках следующая. На FD-bench V1.5 — это проверка на качество живого взаимодействия, который проверяет работу с прерываниями, фоновой речью и репликами в сторону — TML-Interaction-Small набрал 77,8 балла против 46,8 у GPT-realtime-2.0 (minimal) и 54,3 у Gemini-3.1-flash-live. Еще интереснее на тестах визуальной проактивности, которые Thinking Machines адаптировала специально. На RepCount-A (схема по видео должна вслух считать отжимания или приседания) TML дал 35,4, GPT-realtime-2.0 — 1,3. На CueSpeak (модель должна сама заговорить в нужный момент, реагируя на словесный триггер пользователя) — 81,7 против 2,9. Конкуренты на этих задачах практически молчат.

Сейчас доступ к моделям есть только у избранных партнеров — Thinking Machines планирует в ближайшие месяцы открыть ограниченное превью для сбора обратной связи, а полноценный релиз запланирован до конца года. Для самой Мурати это второй открытый продукт после Tinker, инструмента для исследователей, который запустили в октябре 2025-го.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

OpenAI запустила новую инициативу по поиску и исправлению ошибок в открытом исходном коде

6 минут назад

OpenAI запустила новую инициативу по поиску и исправлению ошибок в открытом исходном коде

OpenAI запустила новую инициативу Patch the Planet совместно с компанией Trail of Bits, специализирующейся на безопасности. По замыслу, специалисты Trail of Bits будут работать напрямую с авторами про

ИИ должен учиться непрерывно, чтобы стать AGI. Но с этим задача

22 минуты назад

ИИ должен учиться непрерывно, чтобы стать AGI. Но с этим задача

Чтобы приблизиться к настоящему универсальному ИИ (AGI), схема должна уметь дообучаться без остановки — впитывать новые факты и навыки прямо по мере работы. Новое исследование лаборатории Zyphra показ

Cloudflare совместно с разработчиками браузеров представила технологию PACT для фильтрации трафика от ботов

40 минут назад

Cloudflare совместно с разработчиками браузеров представила технологию PACT для фильтрации трафика от ботов

Cloudflare объявила о начале работы над браузерным протоколом PACT (Private Access Control Tokens), предназначенным для определения легитимного трафика. Он не требует авторизации, сбора данных и CAPTC

Valve выпустила видеоруководство по работе со Steam Machine, а энтузиаст оснастил девайс 64 ГБ ОЗУ и SSD на 4 ТБ

47 минут назад

Valve выпустила видеоруководство по работе со Steam Machine, а энтузиаст оснастил девайс 64 ГБ ОЗУ и SSD на 4 ТБ

Valve выпустила видеоруководство по работе с компактным ПК Steam Machine. В ролике показана распаковка, комплектация, подключение и настройка устройства. Одновременно с этим автор YouTube-канала Eta P

Работники МВД России задержали в Москве трёх человек по делу о выводе 30 млрд рублей через Qiwi‑кошельки

1 час назад

Работники МВД России задержали в Москве трёх человек по делу о выводе 30 млрд рублей через Qiwi‑кошельки

Сотрудники Главного управления экономической безопасности и противодействия коррупции МВД России задержали в Москве руководителей и владельцев группы компаний «Интерком» Григория Кисильгофа и Дениса Л