12 мая 2026, 08:48

ИИ, который не тупит: стартап-компания Миры Мурати представил начальный большой инициатива

3 мин

Thinking Machines Lab, стартап бывшего технического директора OpenAI Миры Мурати, представил первое демо новой модели, которая работает с пользователем в режиме живого разговора — слышит, видит и сообщает одновременно, без классической схемы "сначала вопрос, потом ответ". Задержка между репликой пользователя и реакцией модели — 0,4 секунды против 1,18 у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live.

В блог-посте команда объясняет, почему стандартные модели плохо подходят для живого диалога. Обычный чатбот работает по очереди: пока пользователь не закончил печатать или говорить, схема ждет — никакого восприятия, что вообще происходит. Пока модель отвечает, она ничего не слышит и не видит сама. Аналогия из самого поста: будто решать серьезный конфликт по электронной почте, а не лицом к лицу. Пользователи к этому подстроились — стали формулировать запросы как письма и батчить мысли, потому что прерывания и угуканье ("ага", "понял") живого разговора чатбот не тянет.

Архитектурно Thinking Machines выкинула турн-режим (вопрос-ответ) и заменила его на потоковую обработку. Модель режет вход и выход на куски по 200 миллисекунд — и параллельно слушает входящие 200 мс аудио или видео и генерирует следующие 200 мс собственного ответа. Эти куски авторы называют "микро-турнами". Параллельно убрали тяжелые отдельные энкодеры — обычно аудио прогоняют через модель типа Whisper, видео через свой энкодер, и только потом скармливают результат главный модели. Здесь сырой сигнал идет прямо в трансформер через легкий слой векторных представлений (embedding), что заметно срезает задержку.

Сама модель устроена как связка из двух частей. TML-Interaction-Small держит реальное время — слышит, отвечает, реагирует на жесты и интонации. Если задача требует долгого размышления (например, что-то найти в интернете или сгенерировать запутанный ui), она передает запрос более мощной фоновой модели (background model) — это второй компонент, который думает асинхронно и отдает результат, когда готов. TML-Interaction-Small — это разреженная MoE-архитектура (mixture of experts, "смесь экспертов" — когда из общего пула параметров на каждом шаге задействуется только часть) на 276 миллиардов параметров, из которых на каждом шаге активны 12 миллиардов. Технические характеристики background model пока не раскрываются.

Ситуация в бенчмарках следующая. На FD-bench V1.5 — это проверка на качество живого взаимодействия, который проверяет работу с прерываниями, фоновой речью и репликами в сторону — TML-Interaction-Small набрал 77,8 балла против 46,8 у GPT-realtime-2.0 (minimal) и 54,3 у Gemini-3.1-flash-live. Еще интереснее на тестах визуальной проактивности, которые Thinking Machines адаптировала специально. На RepCount-A (схема по видео должна вслух считать отжимания или приседания) TML дал 35,4, GPT-realtime-2.0 — 1,3. На CueSpeak (модель должна сама заговорить в нужный момент, реагируя на словесный триггер пользователя) — 81,7 против 2,9. Конкуренты на этих задачах практически молчат.

Сейчас доступ к моделям есть только у избранных партнеров — Thinking Machines планирует в ближайшие месяцы открыть ограниченное превью для сбора обратной связи, а полноценный релиз запланирован до конца года. Для самой Мурати это второй открытый продукт после Tinker, инструмента для исследователей, который запустили в октябре 2025-го.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

thinking machines lab мира мурати

Читают сейчас

7 минут назад

85 процентов австралийских подростков продолжают заходить в соцсети после запрета

Запрет соцсетей для подростков в Австралии оказался неэффективным: несовершеннолетние обходят ограничения, используя приватные браузеры и VPN, создавая фейковые аккаунты или заходя через аккаунты боле

15 минут назад

Apple повысила стоимость восстановленных по программе Certified Refurbished ноутбуков Mac и планшетов iPad

Apple объявила о повышении стоимости компьютеров Mac и планшетов iPad, восстановленных по программе Certified Refurbished. Американская организация пошла на такой шаг после увеличения цены своих новых

15 минут назад

Большое апдейт «Станции Дуо Макс»: установка APK, звонки через «Телемост» и умный дом на экране

«Яндекс» показал июньское обновление умных устройств. В этом месяце команда сконцентрировалась на улучшении большой «Станции Дуо Макс» с полноценным экраном. В обновлении добавили звонки через «Телемо

16 минут назад

OpenAI просят не выкатывать GPT‑5.6 на всеобщее обозрение

Белый дом вежливо, но настойчиво попросил OpenAI отложить публичный релиз GPT‑5.6. Предварительный доступ к ней просят выдать только американским компаниям и организациям из «белого списка» правительс

20 минут назад

«Яндекс Браузер» для организаций теперь поддерживает ГОСТ TLS и работает с электронной виртуальный подписью на Android

«Яндекс Браузер» для организаций теперь поддерживает российские алгоритмы шифрования (ГОСТ TLS) и электронную цифровую подпись (ЭЦП) в версии для Android. Благодаря этому сотрудники компаний, которые