7 мая 2026, 10:15
Энтузиаст «выжег» microGPT Андрея Карпати в FPGA и получил 53 тыс. токенов/сек

20-летний студент факультета электроники и вычислительной техники университета Торонто Лутира Абейкун выложил на GitHub проект TALOS-V2 — реализацию трансформера microGPT Андрея Карпати, полностью собранную в железе FPGA. По описанию проекта, модель выдает приблизительно 53 000 токенов в секунду на плате размером с кредитную карту — без Python, без CUDA и без какой-либо программной прослойки.
TALOS-V2 — это RTL-реализация трансформера, в которой все компоненты модели превращены в логические ячейки чипа. Эмбеддинги, алгоритм внимания (attention), нормализация, полносвязные слои и даже механизм выборки следующего токена сидят прямо в железе: процессор сам вычисляет распределение вероятностей и выбирает следующий символ. Платформа — Intel/Altera Cyclone V (плата DE1-SoC, порядка $250–350). Веса хранятся как ROM-файлы в формате с фиксированной запятой Q4.12, управление — через переключатели и JTAG, симуляция в ModelSim детерминирована: при одном начальном значении итог повторяется бит-в-бит.
Чтобы понять, что значит "выжечь GPT в FPGA", полезно сравнить с привычной картиной. Обычно нейросеть — это веса в памяти и программа, которая их читает: процессор берет инструкцию, достает данные, перемножает, пишет результат, переходит к следующей инструкции. В TALOS-V2 этого слоя нет вообще. Веса лежат в постоянной памяти прямо на чипе, умножения и сложения выполняют логические ячейки, которые соединены проводами под конкретную архитектуру. Чип не выполняет модель — чип становится моделью. Сменить модель на другую означает пересобрать всю схему заново.
Сама идея — не академическое любопытство. В том же Торонто работает стартап Taalas, основанный в 2023 году бывшим главой Tenstorrent Любишей Баичем; в феврале 2026 года организация закрыла раунд на $169 млн (всего привлекла $219 млн). Taalas занимается ровно тем же, что Лутира на FPGA, только в кремнии и в индустриальном масштабе: их первый чип HC1 — это Llama 3.1 8B, выжженная в кристалл по техпроцессу TSMC 6 нм, со скоростью приблизительно 17 000 токенов в секунду на одного пользователя. Разница только в масштабе: TALOS-V2 — образовательный объект на 4192 параметра, HC1 — production-ускоритель для модели на 8 миллиардов параметров. Базовая идея у обоих одна: трансформер можно превратить из программы в схему — и Торонто, похоже, становится для этой идеи отдельным хабом.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Claude Mythos взломал почти все секретные системы США за считанные часы — глава АНБ
Глава Агентства национальной безопасности (АНБ) и Киберкомандования США генерал Джошуа Радд рассказал сенатору Марку Уорнеру, что схема Mythos от Anthropic пробила почти все секретные системы страны —

3 часа назад
Вышел кроссплатформенный средство с открытым исходным кодом для создания скриншотов Flameshot 14.0
18 июня 2026 года состоялся выпуск кроссплатформенного инструмента с открытым исходным кодом для создания скриншотов Flameshot 14.0. Исходный код проекта написан на C++ и опубликован на GitHub под лиц

4 часа назад
AEON выпустит одноплатный компьютер для создания встраиваемых систем
Организация AAEON представит одноплатный компьютер UP WCL для создания встраиваемых систем и периферийных устройств с ИИ-функциями. Он работает на аппаратной платформе Intel Wildcat Lake с Windows 11

4 часа назад
Вышла стабильная релиз systemd 261
19 июня 2026 года состоялся релиз стабильной версии подсистемы инициализации и управления службами в Linux systemd 261. Ознакомиться далее

4 часа назад
Свежий медиаплеер Windows 11 потребляет в 3,5 раза больше памяти и требует платы за видеокодеки
Свежий медиаплеер Microsoft для Windows 11 раскритиковали за то, что он использует гораздо больше памяти, чем классический Windows Media Player. Кроме того, он скрывает некоторые популярные кодеки за