1 час назад

Новые TPU восьмого поколения от Google. Обучение и инференс теперь отдельно?

5 мин

На конференции Google Cloud Next были представлены новые Tensor Processor Unit (TPU) восьмого поколения. В этом поколении чипы анонсированы в двух различных архитектурах TPU — 8t и 8i:

8t (Sunfish) — для обучения,
8i (Zebrafish) — для инференса.

По существу, это дополнительное подтверждение, что решение «один GPU под все задачи» — устаревает. В этом поколении Google глубоко разносит обучение и инференс по разным архитектурам — вплоть до разной топологии сети.

Как следует из поста Амина Вахдата (Amin Vahdat), старшего вице-президента и главного технолога по искусственному интеллекту и инфраструктуре: TPU 8t и TPU 8i были разработаны в сотрудничестве с Google DeepMind для выполнения самых ресурсоемких задач в области искусственного интеллекта и адаптации к масштабируемым архитектурам моделей. TPU восьмого поколения — это результат свыше десятилетней работы (первое поколение было создано в 2015 году).

Как сообщает Вахдат: «Несколько лет назад мы предвидели растущий спрос на логические выводы со стороны клиентов по мере внедрения передовых моделей искусственного интеллекта в производственные процессы. А с появлением AI-агентов мы пришли к выводу, что сообществу будут полезны чипы, индивидуально адаптированные под нужды обучения и обслуживания».

8t для обучения

TPU 8t ориентирован на ресурсоемкие задачи обучения. По заверениям автора: «Благодаря сочетанию максимально возможной вычислительной мощности, общей памяти и пропускной способности межчиповых соединений с максимально возможной энергоэффективностью и продуктивным временем вычислений мы создали систему, которая обеспечивает почти в три раза более высокую вычислительную производительность на компонент по сравнению с предыдущим поколением. Это даёт возможность быстрее внедрять инновации и гарантирует, что наши клиенты будут задавать темп развития отрасли».

В цифрах это выглядит так: векторные, матричные и SparseCore-ядра, дополненные 128 МБ SRAM и 216 ГБ HBM3e. Для вертикального масштабирования используется межчиповый интерконнект ICI со скоростью 19,2 Тбит/с, для горизонтального — 400 Гбит/с. Это даёт возможность самым большим моделям применять единый огромный пул памяти.

*Сравнение характеристик производительности 8t с прошлым поколением TPU.*

Кроме того, TPU 8t получили расширенные возможности RAS (Remote Access Service). Телеметрия в реальном времени, автоматическое обнаружение неисправных каналов ICI и перенаправление трафика без прерывания задания, а также оптическая коммутация каналов (OCS), которая перенастраивает оборудование в случае сбоев без участия человека… Все это даёт возможность довести уровень утилизации чипа до 97%.

Superpod состоит из 9 600 чипов с 2 ПБ общей памяти: 121 экзафлопс вычислений. А новая сеть Virgo, которая использует плоскую двухуровневую неблокирующую топологию, через JAX и Pathways даёт возможность объединить до миллиона TPU в контексте нескольких ЦОД.

*Подключение стойки TPU 8t к сети Virgo.*

Дополнительно были представлены TPUDirect RDMA и TPUDirect Storage.

TPUDirect RDMA — это прямая передача данных между памятью TPU (HBM) и сетевыми картами (NIC).
TPUDirect Storage — прямой доступ к памяти между TPU и высокоскоростным управляемым хранилищем, таким как 10T Lustre.

*Путь передачи данных ранее и после внедрения TPUDirect RDMA TPUDirect Storage.*

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

8i для инференса

TPU 8i, в свою очередь, ориентирован на инференс. Чип разработан для обработки сложной совместной итеративной работы множества специализированных агентов, часто объединяющихся в сложные потоки для предоставления решений и аналитических данных по самым сложным задачам, — говорит Вахдат.

TPU 8i получил 288 ГБ памяти HBM3e в паре с 384 МБ SRAM — такой объем SRAM помогает удерживать активные веса модели на самом чипе. А новый алгоритм ускорения коллективных операций (Collectives Acceleration Engine, CAE), по информации Google, разгружает глобальные операции, сокращая внутреннюю задержку в пять раз

*Сравнение характеристик производительности 8i с прошлым поколением TPU.*

Как и у 8t, пропускная способность межчиповых взаимодействий удвоена до 19,2 Тбит/с. Тем не менее сетевая топология отличается — в данном случае это Boardfly.

В основе лежит Building Block (BB), в котором четыре чипа объединены в кольцо с полной связностью. BB масштабируются в группу из восьми штук. 36 групп замыкаются через оптические коммутаторы в под. Сетевой диаметр сокращен до семи хопов, поскольку для MoE-инференса важно меньшее количество сетевых переходов между чипами.

TPU 8i масштабируется в Superpod до 1 152 чипов в одном кластере с производительностью 11,6 экзафлопс. По заявлению Google, TPU 8i на 80% выгоднее по соотношению производительности и цены, чем Ironwood — за те же деньги можно обслужить почти вдвое больше пользователей.

Итоги

Оба чипа в первый раз работают на собственных ARM-процессорах Axion в качестве хост-CPU и поддерживают СЖО

Удобная таблица для сравнения спецификаций:

Как говорит Google: «Оба чипа поступят в продажу в конце этого года и могут быть использованы в составе гиперкомпьютера Google с искусственным интеллектом, который объединяет специализированное оборудование (вычислительные ресурсы, системы хранения данных, сетевые ресурсы), открытое программное обеспечение (фреймворки, механизмы логического вывода) и гибкие модели потребления (оркестрация, управление кластерами и модели доставки) в единый стек».

Коммерческий контекст этого анонса очевиден. Google некоторое количество раз в пресс-релизе указывает на возросшую продуктивность и очевидную экономию, связанную с этим. В дополнение к этого, теперь это не просто альтернатива GPU, а усиленный сдвиг на отдельный ускоритель для разных AI-задач. Еще одна из увлекательных новостей: TPU 8t масштабируется до миллиона чипов в одном кластере — это больше, чем публично известные размеры кластеров других компании.

Что думаете насчет новых TPU? Делитесь мнением в комментариях.

selectel ml tpu google

Читают сейчас

21 минуту назад

Веб-инфраструктура Canonical/Ubuntu подверглась продолжительной трансграничной DDoS-атаке, которая идёт более 18 часов

30 апреля 2026 года компания веб-инфраструктура компании Canonical и проектов Ubuntu подверглись продолжительной трансграничной DDoS-атаке. Инженеры компании работают над её устранением. Инцидент прод

35 минут назад

Apple удивилась росту спроса на Mac, обусловленному развитием ИИ

Генеральный директор Apple Тим Кук объяснил увеличение продаж Mac использованием компьютеров в качестве платформ для запуска локальных моделей искусственного интеллекта, таких как OpenClaw. Это нескол

1 час назад

Представлен публике инициатива C:/Deb — операционная платформа с Windows-подобным окружением на базе Linux

Разработчики Евгений Голышев (является сопровождающим проекта Elixir в Debian/Ubuntu) и Артём Лаврухин представили рабочий прототип Win32/Linux-системы под названием C:\Deb. Это решение на базе Debian

1 час назад

GitHub Copilot поймали на присвоении чужой работы — ИИ вписывает себя в коммиты, которых не писал

На GitHub развернулась дискуссия, в которой разработчик жалуется на Copilot. По его словам, средство тихо добавляет себя в соавторы коммитов — даже когда пользователь специально стирает сгенерированно

2 часа назад

В Microsoft Word появятся модели Anthropic AI для работы с текстом

В Microsoft Word начнут функционировать модели Anthropic AI. Новая опция станет частью Microsoft 365 Copilot, запустить её планируют в конце мая. Пользователи смогут при помощи ИИ работать с текстом (