12 часов назад
Microsoft выпустила мультимодальную версию Phi-4

Microsoft Research анонсировала новую схема в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить производительность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.
Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. Во-вторых, растет спрос на «малые языковые модели», которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.
Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Детали
Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:
Мультимодальность. Способность модели воспринимать и обрабатывать не только текст, но и изображения. Это критически важно для задач, где требуется аналитика графиков, диаграмм, пользовательских интерфейсов или сцен из реального мира.
Рассуждение. Модель обучена выстраивать логические цепочки. Это не просто выдача наиболее вероятного следующего слова, а попытка имитировать процесс мышления, разбивая сложную задачу на подзадачи.
РАвторы подчеркивают, что объединение этих навыков в компактной архитектуре даёт возможность снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.
ААналитика

Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят производительность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.
Это равным образом решает проблему стоимости. ЗЗапускание огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется аналитика документов или визуальный контроль качества.
Перспектива
В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.
ГОсновной вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «небольшой мозг» может рассуждать так же логично, как и крупный, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.
Читают сейчас

4 часа назад
Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку
Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети.

5 часов назад
OpenAI выпустила ИИ-агента для поиска уязвимостей — он уже нашел баги в OpenSSH, GnuTLS и Chromium
OpenAI запустила Codex Security — ИИ-агента для поиска уязвимостей в коде. За время закрытой беты, которая шла с прошлого года под кодовым названием Aardvark, агент просканировал более 1,2 млн коммито

8 часов назад
Крупнейшая провинция Китая планирует перестроить промышленность с помощью ИИ
Власти китайской провинции Гуандун, крупнейшего экономического региона страны, объявили о планах масштабного внедрения искусственного интеллекта в промышленность и ключевые отрасли экономики. Об этом

8 часов назад
Запущен инициатива по сохранению файлов игрового архива Myrient, дедлайн до 31 марта
26 февраля 2026 года было объявлено о закрытии одного из крупнейших собраний цифровых копий игр Myrient. Чтобы сохранить цифровое наследие, запущен инициатива Minerva Archive. Сотни энтузиастов качают

8 часов назад
OpenAI встроила ChatGPT в Excel и подключила к нему информация Bloomberg, Moody's и S&P
OpenAI официально представила новую модель GPT-5.4 и специализированный аддон ChatGPT для Excel, предназначенный для глубокой автоматизации офисной работы. ИСредство позволяет строить сложные финансов