Microsoft выпустила мультимодальную версию Phi-4

3 мин
Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую схема в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить производительность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.

Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. Во-вторых, растет спрос на «малые языковые модели», которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.

Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.
Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.

Детали

Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:

  1. Мультимодальность. Способность модели воспринимать и обрабатывать не только текст, но и изображения. Это критически важно для задач, где требуется аналитика графиков, диаграмм, пользовательских интерфейсов или сцен из реального мира.

  2. Рассуждение. Модель обучена выстраивать логические цепочки. Это не просто выдача наиболее вероятного следующего слова, а попытка имитировать процесс мышления, разбивая сложную задачу на подзадачи.

РАвторы подчеркивают, что объединение этих навыков в компактной архитектуре даёт возможность снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.

ААналитика

A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).
A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).

Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят производительность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.

Это равным образом решает проблему стоимости. ЗЗапускание огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется аналитика документов или визуальный контроль качества.

Перспектива

В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.

ГОсновной вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «небольшой мозг» может рассуждать так же логично, как и крупный, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.

Читают сейчас

Представлен публике инициатива KillerPDF — редактор PDF с открытым исходным кодом для Windows 10/11

52 минуты назад

Представлен публике инициатива KillerPDF — редактор PDF с открытым исходным кодом для Windows 10/11

Разработчик под ником Steve the Killer представил открытый инициатива KillerPDF. Это бесплатный легковесный портативный редактор PDF для Windows 10/11. Исходный код решения написан на С# и опубликован

Версия Firefox 150.0

1 час назад

Версия Firefox 150.0

21 апреля 2026 года состоялся выпуск стабильной версии Firefox 150.0 с улучшениями и обновлениями, а также с исправлениями ошибок и багов, обнаруженных в прошлой стабильной версии. Выпуск проекта брау

Тим Кук покинет пост генерального директора Apple, а его место займёт Джон Тернус

5 часов назад

Тим Кук покинет пост генерального директора Apple, а его место займёт Джон Тернус

Пресс-служба Apple сообщила, что Тим Кук покидает пост генерального директора компании. Его заменит Джон Тернус — старший вице-президент по компьютерной инженерии, курирующий разработку Mac, iPad, Air

Тим Кук покидает пост Apple. Свежий глава — «отец» Apple Silicon Джон Тернус

5 часов назад

Тим Кук покидает пост Apple. Свежий глава — «отец» Apple Silicon Джон Тернус

Apple в начальный раз за 15 лет меняет генерального директора: с 1 сентября 2026 года компанию возглавит Джон Тернус, старший вице-президент по аппаратной инженерии, а Тим Кук перейдет на пост исполни

Для Mac на базе Intel последней поддерживаемой ОС станет macOS 26 Tahoe

5 часов назад

Для Mac на базе Intel последней поддерживаемой ОС станет macOS 26 Tahoe

На конференции WWDC 2025 организация Apple сообщила, что macOS 26 Tahoe — это последняя версия macOS, которую будут поддерживать компьютеры Mac на базе процессоров Intel. Ознакомиться далее