Muse Spark — первая LLM от Meta Superintelligence Lab

4 мин
Muse Spark — первая LLM от Meta Superintelligence Lab

Пять агентов, которые спорят между собой

Главная фишка, которую сразу все обсуждают — мультиагентная архитектура. Внутри модели работает пять независимых агентов, и разработчики намеренно заставили их конфликтовать друг с другом. Не синхронизироваться, а именно спорить.

На практике это выглядит так: даёшь задачу, несколько агентов параллельно генерируют решения, а отдельный модуль-арбитр ищет противоречия между ними. Такой внутренний peer review в реальном времени.

В медицинских задачах это даёт 88% точности — против обычных ~70% у стандартных нейросеток на специфических диагнозах. Разница реально ощутимая.

Одновременно схема довольно компактная. Meta не раскрывает точные цифры, но по ощущениям — вряд ли больше 500 млрд параметров. Для сравнения, это вдвое меньше, чем у Mythos от Anthropic. Берёт не размером, а тем, как организован процедура рассуждения.



А не MoE эта хвалёная супер уникальная мультиагентная платформа? - нет, но похоже:

MoE (Mixture of Experts) — это архитектура на уровне весов модели. Грубо говоря, для каждого токена активируется только часть параметров (эксперты). Всё происходит внутри одного прогона, пользователь этого не видит.

Мультиагентность как в Muse Spark — это другой уровень. Несколько отдельных моделей (или инстансов) запускаются параллельно, каждая генерирует своё решение, потом отдельный компонент сравнивает и арбитрирует между ними. Это ближе к тому, что называют multi-agent debate или self-consistency — направление, которое активно исследуется, но в продакшн-моделях встречается редко.


Зрение — это реально круто

Muse Spark изначально делали под умные очки Ray-Ban, и в компьютерном зрении она прёт. 92% точности в тестах — Gemini 3.1 чуть выше (94%), но Meta быстрее справляется с живым видеопотоком.

На записях с прогулок модель не просто тыкает пальцем в объекты: "вот собака, вот машина". Она считывает контекст. Заметит на ценнике акцию "2 по цене 1" и сверит её с вашим списком покупок. Meta называет это визуальным интеллектом — и в данном случае слова не расходятся с делом.

Правда, на абстрактных задачах эта магия куда-то испаряется.


Кодинг — больно смотреть

Вайб-кодеры, проходите мимо. 65% на Python-тестах — это результат уровня прошлого года, не сейчас. Я попросил отрефакторить небольшой сервис на FastAPI. Модель запуталась в импортах и выдала исходник, который просто не запускался. Не "работает, но криво" — а вообще не запускается.

Meta, судя по всему, это направление сознательно игнорирует. Логика понятна: зачем тратить ресурсы на конкуренцию с Sonnet или GPT в кодинге, если можно сосредоточиться на AR и мониторинге здоровья — там у них реальное преимущество и реальные деньги.


Я скормил ей свою аптечку

Решил проверить на реальной задаче. У меня дома скопилась куча таблеток без упаковок и пара подозрительных продуктов в холодильнике. Через meta.ai закинул поток фоток и спросил: что с чем смешивать нельзя и не скисло ли молоко?

Модель мгновенно считала маркировку на блистерах. Дальше включился мультиагентный режим — один агент полез в базу лекарственных взаимодействий, следующий анализировал текстуру молока и едва видные даты на этикетке. Вердикт пришёл чёткий: препарат А и Б лучше не совмещать (риск аритмии 15 процентов), молоко просрочено на два дня, структура неоднородна.

Я был впечатлён. До момента, когда через минуту в том же диалоге схема забыла дозировку, которую сама же только что назвала. Галлюцинация это или ошибка контекста между агентами — честно, без разницы. Доверять на 100% нельзя.


Опенсорс — это было красиво, пока длилось

Llama приучила нас к тому, что Meta делится весами. Muse Spark — нет. Полностью закрытая, проприетарная модель. Это инструмент для экосистемы Instagram и Ray-Ban, и Цукерберг явно не собирается дарить конкурентам что-то, что знает о пользователях всё — от рациона до пульса.

Акции $META после релиза пошли вверх. Инвесторы, видимо, поняли: это не чат-бот, это фундамент под новые гаджеты.


Итого

Muse Spark — не убийца всех и вся. Никакой революции нет. Но это по-настоящему хорошая узкоспециализированная схема: если вы делаете что-то в носимых устройствах или медицине — лучшего варианта сейчас нет. Если пишете код — не тратьте время.

Meta строит свою экосистему, и Muse Spark выглядит как центральный элемент всей этой конструкции. Посмотрим, насколько крепкой она окажется.

P.S. Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых.

Читают сейчас

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

14 минут назад

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

Завершился десятый сезон Всероссийской киберспортивной студенческой лиги «ГигаЧат». Команды высших и средних профессиональных учебных заведений со всей страны боролись за основной трофей и призовой фо

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

1 час назад

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианна

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

1 час назад

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

Эксперты из GitGuardian обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США (CISA). Публичный репозиторий под названием Private-CISA содержал 844 МБ данных, в

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

1 час назад

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

"$1 млрд ARR за два года" — стандартный темп AI-эпохи. Cursor, Harvey, десятки других стартапов отчитываются о миллиардах годовой повторяющейся выручки (ARR) за два-три года с момента основания. Рассл

RxJS Ninja 2.0: обновлённый бесплатный курс по RxJS

2 часа назад

RxJS Ninja 2.0: обновлённый бесплатный курс по RxJS

Выкатил RxJS Ninja v2.0 - большое апдейт моего обучающего проекта по RxJS. Если давно собирались разобраться с RxJS или хотите освежить знания - заходите, буду рад фидбеку и предложениям. Стать ниндзя