1 апреля 2026, 22:14
Вышла GLM-5V-Turbo: схема, которая видит оформление и превращает его в рабочий клиентская часть

Китайская Z.ai (бывшая Zhipu AI) выпустила GLM-5V-Turbo — свою первую мультимодальную кодинг-модель. Она принимает на вход изображения, видео и текст, а на выходе генерирует рабочий исходник. Модель доступна через api ($1,2/$4 за 1M входных/выходных токенов) и бесплатно в веб-интерфейсе chat.z.ai.
Главная идея — замкнуть цикл "увидел → спланировал → создал текст код". GLM-5V-Turbo понимает дизайн-макеты, скриншоты и веб-интерфейсы, после чего генерирует готовый фронтенд-проект. В связке с Claude Code схема умеет самостоятельно исследовать сайты: обходить страницы, собирать визуальные элементы и воспроизводить их в коде — Z.ai называет это режимом URL = Code.

На собственных замерах компании модель обходит Claude Opus 4.6 в 9 из 14 мультимодальных тестов. Самый показательный разрыв — на Design2Code (воспроизведение макета в коде): 94,8 у GLM-5V-Turbo против 77,3 у Claude. Схема также лидирует в тестах GUI-агентов: AndroidWorld (75,7 против 62,0) и WebVoyager (88,5 против 88,0). Одновременно в чистом текстовом кодинге Claude Opus 4.6 по-прежнему впереди по всем позициям — от бэкенда до исследования репозиториев.
Технически Z.ai описывает четыре ключевых улучшения: новый визуальный кодировщик CogViT, обучение с подкреплением сразу на 30+ типах задач (от STEM до GUI-агентов), систему генерации агентных данных для обучения и расширенный мультимодальный тулчейн — схема умеет делать скриншоты, рисовать ограничивающие рамки и ознакомиться веб-страницы с картинками. Наряду с моделью вышел набор из 10 встроенных навыков (Skills): от генерации подписей к изображениям и скрининга резюме до конвертации PDF в презентации и анализа акций.
Выпуск продолжает стратегию Z.ai по выпуску специализированных вариантов флагманской GLM-5: в марте вышла текстовая GLM-5-Turbo для агентных задач, в конце марта — обновлённая GLM-5.1 для кодинга. GLM-5V-Turbo добавляет к этой линейке зрение — и напрямую конкурирует с мультимодальными возможностями Claude, Gemini и Kimi K2.5.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

24 минуты назад
Microsoft вложит $10 млрд в японские ИИ-проекты
До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр

40 минут назад
В космическом корабле «Орион» снова сломался туалет — теперь там промерзает трубопровод и образуется засор
Спустя трое суток полёта экипаж миссии «Артемида» II на космическом корабле «Орион» снова столкнулся с неполадками в работе бортового туалета (универсальной системы управления отходами — Universal Was

2 часа назад
В Великобритании подросток решил раздеться перед Gemini Live в режиме камеры, после этого ИИ убрал все аккаунты семьи
В Великобритании 14-летний подросток решил раздеться перед голосовым помощником Gemini Live с доступом к камере планшета. В итоге искусственный интеллект удалил все аккаунты семьи и документы родителе

2 часа назад
Приглашаем на День открытых дверей онлайн-магистратуры «Кибербезопасность» НИЯУ МИФИ в партнёрстве с Яндексом
Привет! Это команда Яндекс Практикума — приглашаем вас на День открытых дверей онлайн-магистратуры «Кибербезопасность» НИЯУ МИФИ в партнёрстве с Яндекс Практикумом. На мероприятии мы вместе с эксперта

2 часа назад
Большое апдейт текстового движка UniText
Пару месяцев назад писал про новый текстовый движок для Unity. Настолько он выглядел амбициозно, что вообще не верилось в его правдивость. На этой неделе подкрался выпуск новой версии 2.0. Это уже бук