6 марта 2026, 15:32
Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую схема в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить производительность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.
Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. Во-вторых, растет спрос на «малые языковые модели», которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.
Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Детали
Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:
Мультимодальность. Способность модели воспринимать и обрабатывать не только текст, но и изображения. Это критически важно для задач, где требуется аналитика графиков, диаграмм, пользовательских интерфейсов или сцен из реального мира.
Рассуждение. Модель обучена выстраивать логические цепочки. Это не просто выдача наиболее вероятного следующего слова, а попытка имитировать процесс мышления, разбивая сложную задачу на подзадачи.
РАвторы подчеркивают, что объединение этих навыков в компактной архитектуре даёт возможность снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.
ААналитика

Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят производительность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.
Это равным образом решает проблему стоимости. ЗЗапускание огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется аналитика документов или визуальный контроль качества.
Перспектива
В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.
ГОсновной вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «небольшой мозг» может рассуждать так же логично, как и крупный, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.
Читают сейчас
9 минут назад
Apple одобрила Poke в качестве первого ИИ-агента на платформе Messages for Business
Стартап Poke, который упрощает использование ИИ-агентов через обычные сообщения, стал первым, одобренным для работы на платформе Apple Messages for Business. Она была разработана для предприятий — ави

11 минут назад
Хакатон Дайджест №35 на июнь
Ежемесячная подборка хакатонов! Июньский версия: снова собрали для вас ИТ‑соревнования, где проверяют не только исходник, но и инженерную смекалку, командную выносливость и умение решать реальные прод

1 час назад
Версия Trayy 3.1 — открытого приложения для Windows 10/11, которое расширяет возможности системного трея
В начале июня 2026 года состоялся версия проекта Trayy 3.1. Это небольшое открытое приложение для ПК на Windows 10/11, которое расширяет возможности системного трея. Исходный код решения написан на C+

1 час назад
$80 за миллион токенов? По слухам, Anthropic готовит Claude Mythos к релизу
Неделей ранее в анонсе Claude Opus 4.8 компания Anthropic упомянула, что готовит к широкому запуску модель еще более высокого класса — вероятно, доработанную публичную версию Сlaude Mythos, который с

2 часа назад
Выпуск NWinfo 1.6.4 — открытого портативного инструмента для быстрого просмотра ключевых характеристик ПК на Windows
В начале июня 2026 года состоялся релиз легковесного проекта NWinfo 1.6.4. Это публичный мобильный инструмент для быстрого просмотра ключевых деталей ПК от характеристик оборудования до программного о