1 апреля 2026, 22:14

Вышла GLM-5V-Turbo: схема, которая видит оформление и превращает его в рабочий клиентская часть

2 мин

Китайская Z.ai (бывшая Zhipu AI) выпустила GLM-5V-Turbo — свою первую мультимодальную кодинг-модель. Она принимает на вход изображения, видео и текст, а на выходе генерирует рабочий исходник. Модель доступна через api ($1,2/$4 за 1M входных/выходных токенов) и бесплатно в веб-интерфейсе chat.z.ai.

Главная идея — замкнуть цикл "увидел → спланировал → создал текст код". GLM-5V-Turbo понимает дизайн-макеты, скриншоты и веб-интерфейсы, после чего генерирует готовый фронтенд-проект. В связке с Claude Code схема умеет самостоятельно исследовать сайты: обходить страницы, собирать визуальные элементы и воспроизводить их в коде — Z.ai называет это режимом URL = Code.

На собственных замерах компании модель обходит Claude Opus 4.6 в 9 из 14 мультимодальных тестов. Самый показательный разрыв — на Design2Code (воспроизведение макета в коде): 94,8 у GLM-5V-Turbo против 77,3 у Claude. Схема также лидирует в тестах GUI-агентов: AndroidWorld (75,7 против 62,0) и WebVoyager (88,5 против 88,0). Одновременно в чистом текстовом кодинге Claude Opus 4.6 по-прежнему впереди по всем позициям — от бэкенда до исследования репозиториев.

Технически Z.ai описывает четыре ключевых улучшения: новый визуальный кодировщик CogViT, обучение с подкреплением сразу на 30+ типах задач (от STEM до GUI-агентов), систему генерации агентных данных для обучения и расширенный мультимодальный тулчейн — схема умеет делать скриншоты, рисовать ограничивающие рамки и ознакомиться веб-страницы с картинками. Наряду с моделью вышел набор из 10 встроенных навыков (Skills): от генерации подписей к изображениям и скрининга резюме до конвертации PDF в презентации и анализа акций.

Выпуск продолжает стратегию Z.ai по выпуску специализированных вариантов флагманской GLM-5: в марте вышла текстовая GLM-5-Turbo для агентных задач, в конце марта — обновлённая GLM-5.1 для кодинга. GLM-5V-Turbo добавляет к этой линейке зрение — и напрямую конкурирует с мультимодальными возможностями Claude, Gemini и Kimi K2.5.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GLM-5V-Turbo GLM z ai

Читают сейчас

24 минуты назад

Microsoft вложит $10 млрд в японские ИИ-проекты

До 2029 года Microsoft планирует инвестировать $10 млрд в инфраструктуру искусственного интеллекта и облачных вычислений Японии, пишет местное информационное агентство Kyodo News со ссылкой на вице-пр

40 минут назад

В космическом корабле «Орион» снова сломался туалет — теперь там промерзает трубопровод и образуется засор

Спустя трое суток полёта экипаж миссии «Артемида» II на космическом корабле «Орион» снова столкнулся с неполадками в работе бортового туалета (универсальной системы управления отходами — Universal Was

2 часа назад

В Великобритании подросток решил раздеться перед Gemini Live в режиме камеры, после этого ИИ убрал все аккаунты семьи

В Великобритании 14-летний подросток решил раздеться перед голосовым помощником Gemini Live с доступом к камере планшета. В итоге искусственный интеллект удалил все аккаунты семьи и документы родителе

2 часа назад

Приглашаем на День открытых дверей онлайн-магистратуры «Кибербезопасность» НИЯУ МИФИ в партнёрстве с Яндексом

Привет! Это команда Яндекс Практикума — приглашаем вас на День открытых дверей онлайн-магистратуры «Кибербезопасность» НИЯУ МИФИ в партнёрстве с Яндекс Практикумом. На мероприятии мы вместе с эксперта

2 часа назад

Большое апдейт текстового движка UniText

Пару месяцев назад писал про новый текстовый движок для Unity. Настолько он выглядел амбициозно, что вообще не верилось в его правдивость. На этой неделе подкрался выпуск новой версии 2.0. Это уже бук