3 часа назад
Текстовые ИИ-данные иссякают. Meta⚹ предлагает переключиться на неразмеченное видео

Исследовательская группа из Meta FAIR⚹ и Нью-Йоркского университета систематически изучила, как можно обучать мультимодальные модели ИИ с нуля. Их выводы ставят под сомнение сразу некоторое количество широко распространённых представлений о том, как вообще следует строить такие модели.
Модели языка во многом определили эпоху так называемых foundation-моделей. Тем не менее, как утверждают авторы работы “Beyond language modeling”, текст в конечном счёте представляет собой только сжатое и неизбежно неполное отражение реальности. Обращаясь к платоновской аллегории пещеры, исследователи замечают: языковые модели научились описывать тени на стене, ни разу не увидев предметов, которые эти тени отбрасывают. К тому же существует и вполне практическая проблема: качественные текстовые данные ограничены – и их запасы стремительно истощаются.

Исследование, в котором принимал участие Янн ЛеКун, посвящено обучению единой модели, созданной полностью с нуля. Для языка в ней используется привычное пословное предсказание, а для визуальных данных – диффузионный способ flow matching. Модель обучается сразу на нескольких типах данных: тексте, видео, парах “изображение – текст”, а равным образом на видеороликах, содержащих действия. Поскольку исследователи не опираются на уже обученную языковую схема, их результаты не искажаются знаниями, усвоенными ранее.

В предыдущих подходах – таких, как Janus или BAGEL, – обычно используются раздельные визуальные энкодеры: один отвечает за понимание изображений, другой – за их генерацию. Однако исследователи Meta⚹ обнаружили, что подобное разделение фактически излишне.
В соответствии с результатам работы, автоэнкодер представлений (RAE), построенный на базе модели изображений SigLIP 2, превосходит традиционные VAE-энкодеры и в генерации изображений, и в их визуальном понимании. Одновременно языковые способности модели остаются на уровне систем, обученных исключительно на тексте.

Вместо того чтобы поддерживать две отдельные вычислительные ветви, схема использует один общий энкодер, выполняющий обе задачи. Это резко упрощает архитектуру – и ставит под сомнение распространённое предположение, будто зрение и язык неизбежно конкурируют внутри модели. К тому же, как показало исследование, неразмеченное видео вообще не ухудшает языковые способности. На проверочном наборе данных модель, обученная одновременно на тексте и видео, даже немного превосходит текстовую базовую систему.

Исследователи также проверили, способна ли их схема предсказывать будущие визуальные состояния. Ей показывают текущее изображение и навигационную инструкцию – после чего она должна сгенерировать второй визуальный кадр. Действия при этом кодируются напрямую текстом, так что никаких изменений в архитектуре не требуется.

По словам исследователей, способность к моделированию мира возникает прежде всего из общего мультимодального обучения, а не из специализированных навигационных данных. Схема показывает конкурентоспособные результаты, используя всего один процент специфических для задачи данных. Более того, она способна следовать инструкциям на естественном языке – в частности, “Get out of the shadow!” – и генерировать соответствующие последовательности изображений, несмотря на то, что подобных входных данных во время обучения она никогда не видела.
Разработчики подчёркивают, что их работа касается только этапа предварительного обучения – вопросы файнтюнинга и обучения с подкреплением они не рассматривали. Тем не менее результаты уже намекают на тенденцию: граница между мультимодальными моделями и моделями мира размывается. Огромные массивы немаркированного видео до сих пор почти не используются – и это исследование показывает, что их можно включать в обучение без ущерба для языковых способностей модели.
⚹ Meta – деятельность организации запрещена на территории Российской Федерации.
Читают сейчас

32 минуты назад
Внутри ChatGPT больше нельзя купить всё подряд, акции Expedia и Tripadvisor снова выросли
Как говорит The Information, компания постепенно отказывается от идеи позволить пользователям покупать товары, рекомендованные ChatGPT, прямо внутри чат-бота. Теперь вместо этого пользователи будут пе

49 минут назад
ИИ из Оксфорда подбирает антидепрессанты лучше врачей — потому что спрашивает, чего боится пациент
Ученые из Оксфордского университета разработали ИИ-систему PETRUSHKA (Personalising antidEpressant Treatment foR Unipolar depreSsion combining individual cHoices, risKs and big datA), которая помогает

1 час назад
НАСА представило меню экипажа «Артемиды-2»
Американское космическое агентство опубликовало меню экипажа миссии «Артемида-2», в контексте которой астронавты совершат облёт Луны и вернутся на Землю. Питание на борту миссии разработано для поддер

1 час назад
Grammarly использует работы авторов текстов без их разрешения
Функция Expert Review инструмента для проверки грамматики и орфографии Grammarly предлагает экспертные советы от людей, которые не давали согласия на это, пишет Wired. При этом система указывает, что

2 часа назад
“Он проецирует”: реакция Илона Маска на заявление главы Anthropic о сознании Claude
Илон Маск ответил на заявление генерального директора Anthropic Дарио Амодеи, который допустил, что модели искусственного интеллекта, созданные его компанией, возможно, обрели сознание. Технологически