Себастьян Рашка запустил визуальный справочник архитектур LLM — от DeepSeek до GLM-5

2 мин
Себастьян Рашка запустил визуальный справочник архитектур LLM — от DeepSeek до GLM-5

Себастьян Рашка, автор бестселлера Build a Large Language Model (From Scratch) и рассылки Ahead of AI на 168 000 подписчиков, запустил открытый визуальный каталог архитектур больших языковых моделей — LLM Architecture Gallery. На одной странице собраны диаграммы и карточки более чем 40 моделей: от Llama 3 и DeepSeek V3 до свежих Qwen3.5, GLM-5 и Nemotron 3 Super.

Для каждой модели указаны масштаб (общее число параметров и количество активных), тип декодера (dense, sparse MoE или гибрид), алгоритм внимания (GQA, MLA, sliding-window и другие) и ключевая архитектурная особенность. Карточки ведут на config.json модели на HuggingFace, техрепорт и — для части моделей — реализацию "с нуля" из репозитория Рашки на GitHub.

Если смотреть на каталог как на карту трендов, бросаются в глаза некоторое количество вещей. Архитектура DeepSeek V3 с многоголовым латентным вниманием (MLA) и смесью экспертов (MoE) практически стала отраслевым шаблоном — ее в той или другой форме воспроизвели Mistral 3 Large, Kimi K2 и GLM-5. Классические dense-модели вытесняются разреженными MoE на крупных масштабах, а на переднем крае уже появляются гибриды с линейным вниманием: Gated DeltaNet в Qwen3.5, слои Mamba-2 в Nemotron 3 от NVIDIA, Lightning Attention в триллионном Ling 2.5 от Ant Group.

Рашка не связан ни с одной из крупных лабораторий — с 2022 года он работал в Lightning AI, а сейчас ведет независимую исследовательскую лабораторию RAIR Lab. Галерея обновляется — последнее апдейт датировано 14 марта. Баг-репорты и предложения по моделям принимаются через трекер на GitHub.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

31 минуту назад

FCC добавила портативные импортные хотспоты в список запрещённого к ввозу оборудования

Федеральная комиссия по связи США уточнила, что запрет на потребительские роутеры иностранного производства распространяется равным образом на портативные точки доступа. Смартфоны с функцией раздачи и

Исследование: хакеры перехватили сотни поддоменов американских вузов и опубликовали на них порно и спам

54 минуты назад

Исследование: хакеры перехватили сотни поддоменов американских вузов и опубликовали на них порно и спам

Исследователь Алекс Шахов из SH Consulting обнаружил, злоумышленники перехватили сотни поддоменов крупнейших университетов США, в том числе Колумбийский, Стэнфордский, Гарвардский, Вашингтонский и Кал

Депутат Госдумы предлагает ограничить покупку лутбоксов для несовершеннолетних в EA Sports FC и Counter-Strike 2

1 час назад

Депутат Госдумы предлагает ограничить покупку лутбоксов для несовершеннолетних в EA Sports FC и Counter-Strike 2

Депутат Госдумы РФ Виталий Милонов направил обращение в Роскомнадзор с предложением рассмотреть ограничения на внутриигровые покупки для несовершеннолетних. Об этом сообщает издание «Mash на спорте».

Commodore представила настольный компьютер Commodore C64C Ultimate

1 час назад

Commodore представила настольный компьютер Commodore C64C Ultimate

В Commodore представили настольный компьютер Commodore C64C Ultimate. Новинка получила корпус, похожий на модель 1986 года, но тоньше и с современной цветовой схемой. Организация также приобрела ориги

Эксперты RKS Global: из 30 популярных российских Android-приложений теперь все детектируют VPN

1 час назад

Эксперты RKS Global: из 30 популярных российских Android-приложений теперь все детектируют VPN

Эксперты RKS Global повторно протестировали 30 популярных российских Android‑приложений и выяснили, что теперь все из них детектируют VPN, а часть проектов, в соответствии с сетевым логам, отправляют