Энтузиаст «выжег» microGPT Андрея Карпати в FPGA и получил 53 тыс. токенов/сек

2 мин
Энтузиаст «выжег» microGPT Андрея Карпати в FPGA и получил 53 тыс. токенов/сек

20-летний студент факультета электроники и вычислительной техники университета Торонто Лутира Абейкун выложил на GitHub проект TALOS-V2 — реализацию трансформера microGPT Андрея Карпати, полностью собранную в железе FPGA. По описанию проекта, модель выдает приблизительно 53 000 токенов в секунду на плате размером с кредитную карту — без Python, без CUDA и без какой-либо программной прослойки.

TALOS-V2 — это RTL-реализация трансформера, в которой все компоненты модели превращены в логические ячейки чипа. Эмбеддинги, алгоритм внимания (attention), нормализация, полносвязные слои и даже механизм выборки следующего токена сидят прямо в железе: процессор сам вычисляет распределение вероятностей и выбирает следующий символ. Платформа — Intel/Altera Cyclone V (плата DE1-SoC, порядка $250–350). Веса хранятся как ROM-файлы в формате с фиксированной запятой Q4.12, управление — через переключатели и JTAG, симуляция в ModelSim детерминирована: при одном начальном значении итог повторяется бит-в-бит.

Чтобы понять, что значит "выжечь GPT в FPGA", полезно сравнить с привычной картиной. Обычно нейросеть — это веса в памяти и программа, которая их читает: процессор берет инструкцию, достает данные, перемножает, пишет результат, переходит к следующей инструкции. В TALOS-V2 этого слоя нет вообще. Веса лежат в постоянной памяти прямо на чипе, умножения и сложения выполняют логические ячейки, которые соединены проводами под конкретную архитектуру. Чип не выполняет модель — чип становится моделью. Сменить модель на другую означает пересобрать всю схему заново.

Сама идея — не академическое любопытство. В том же Торонто работает стартап Taalas, основанный в 2023 году бывшим главой Tenstorrent Любишей Баичем; в феврале 2026 года организация закрыла раунд на $169 млн (всего привлекла $219 млн). Taalas занимается ровно тем же, что Лутира на FPGA, только в кремнии и в индустриальном масштабе: их первый чип HC1 — это Llama 3.1 8B, выжженная в кристалл по техпроцессу TSMC 6 нм, со скоростью приблизительно 17 000 токенов в секунду на одного пользователя. Разница только в масштабе: TALOS-V2 — образовательный объект на 4192 параметра, HC1 — production-ускоритель для модели на 8 миллиардов параметров. Базовая идея у обоих одна: трансформер можно превратить из программы в схему — и Торонто, похоже, становится для этой идеи отдельным хабом.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

РБК: финансовые маркетплейсы пожаловались в ФАС на «Яндекс»

19 минут назад

РБК: финансовые маркетплейсы пожаловались в ФАС на «Яндекс»

Ассоциация финансовых маркетплейсов («Банки.ру», «Сравни», «Финуслуги» и др.) подала в Федеральную антимонопольную службу жалобу в отношении «Яндекса». Об этом говорит РБК со ссылкой на источники на I

Врачам в России могут разрешить онлайн-мониторинг здоровья пациентов через цифровые медустройства

27 минут назад

Врачам в России могут разрешить онлайн-мониторинг здоровья пациентов через цифровые медустройства

Врачам могут разрешить отслеживать показатели здоровья пациентов с помощью персональных медицинских помощников в онлайн‑режиме. С января 2023 года такую практику разрешили в 16 субъектах РФ в контекст

Разработчик DAEMON Tools подтвердил взлом и опубликовал версию, свободную от вредоносного ПО

55 минут назад

Разработчик DAEMON Tools подтвердил взлом и опубликовал версию, свободную от вредоносного ПО

Компания Disc Soft подтвердила заражение своего приложения DAEMON Tools трояном в итоге атаки и выпустила новую версию, свободную от вредоносного программного обеспечения. На выявления проблемы и её у

Репозитории с открытым исходным кодом перестают справляться с 10 трлн загрузок в год

1 час назад

Репозитории с открытым исходным кодом перестают справляться с 10 трлн загрузок в год

В Sonatype подсчитали, что компании ежегодно скачивают более 10 трлн файлов с открытым исходным кодом. В результате опенсорсные репозитории и хранилища столкнулись с беспрецедентной нагрузкой. Ознаком

Уязвимость в устройствах Cisco делает их уязвимыми для DoS-атак

1 час назад

Уязвимость в устройствах Cisco делает их уязвимыми для DoS-атак

Компания Cisco выпустила обновления безопасности для устранения уязвимости типа «отказ в обслуживании» (DoS) в контроллерах Crosswork Network Controller (CNC) и Network Services Orchestrator (NSO). Он