Новые TPU восьмого поколения от Google. Обучение и инференс теперь отдельно?

5 мин
Новые TPU восьмого поколения от Google. Обучение и инференс теперь отдельно?

На конференции Google Cloud Next были представлены новые Tensor Processor Unit (TPU) восьмого поколения. В этом поколении чипы анонсированы в двух различных архитектурах TPU — 8t и 8i:

  • 8t (Sunfish) — для обучения,

  • 8i (Zebrafish) — для инференса.

По существу, это дополнительное подтверждение, что решение «один GPU под все задачи» — устаревает. В этом поколении Google глубоко разносит обучение и инференс по разным архитектурам — вплоть до разной топологии сети. 

Как следует из поста Амина Вахдата (Amin Vahdat), старшего вице-президента и главного технолога по искусственному интеллекту и инфраструктуре: TPU 8t и TPU 8i были разработаны в сотрудничестве с Google DeepMind для выполнения самых ресурсоемких задач в области искусственного интеллекта и адаптации к масштабируемым архитектурам моделей. TPU восьмого поколения — это результат свыше десятилетней работы (первое поколение было создано в 2015 году).

Как сообщает Вахдат: «Несколько лет назад мы предвидели растущий спрос на логические выводы со стороны клиентов по мере внедрения передовых моделей искусственного интеллекта в производственные процессы. А с появлением AI-агентов мы пришли к выводу, что сообществу будут полезны чипы, индивидуально адаптированные под нужды обучения и обслуживания». 

8t для обучения

TPU 8t ориентирован на ресурсоемкие задачи обучения. По заверениям автора: «Благодаря сочетанию максимально возможной вычислительной мощности, общей памяти и пропускной способности межчиповых соединений с максимально возможной энергоэффективностью и продуктивным временем вычислений мы создали систему, которая обеспечивает почти в три раза более высокую вычислительную производительность на компонент по сравнению с предыдущим поколением. Это даёт возможность быстрее внедрять инновации и гарантирует, что наши клиенты будут задавать темп развития отрасли».

В цифрах это выглядит так: векторные, матричные и SparseCore-ядра, дополненные 128 МБ SRAM и 216 ГБ HBM3e. Для вертикального масштабирования используется межчиповый интерконнект ICI со скоростью 19,2 Тбит/с, для горизонтального — 400 Гбит/с. Это даёт возможность самым большим моделям применять единый огромный пул памяти.

Сравнение характеристик производительности 8t с прошлым поколением TPU.
Сравнение характеристик производительности 8t с прошлым поколением TPU.

Кроме того, TPU 8t получили расширенные возможности RAS (Remote Access Service). Телеметрия в реальном времени, автоматическое обнаружение неисправных каналов ICI и перенаправление трафика без прерывания задания, а также оптическая коммутация каналов (OCS), которая перенастраивает оборудование в случае сбоев без участия человека… Все это даёт возможность довести уровень утилизации чипа до 97%.

Superpod состоит из 9 600 чипов с 2 ПБ общей памяти: 121 экзафлопс вычислений. А новая сеть Virgo, которая использует плоскую двухуровневую неблокирующую топологию, через JAX и Pathways даёт возможность объединить до миллиона TPU в контексте нескольких ЦОД.

Подключение стойки TPU 8t к сети Virgo.
Подключение стойки TPU 8t к сети Virgo.

Дополнительно были представлены TPUDirect RDMA и TPUDirect Storage.

  • TPUDirect RDMA — это прямая передача данных между памятью TPU (HBM) и сетевыми картами (NIC).

  • TPUDirect Storage — прямой доступ к памяти между TPU и высокоскоростным управляемым хранилищем, таким как 10T Lustre.

Путь передачи данных ранее и после внедрения TPUDirect RDMA TPUDirect Storage.
Путь передачи данных ранее и после внедрения TPUDirect RDMA TPUDirect Storage.

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

8i для инференса

TPU 8i, в свою очередь, ориентирован на инференс. Чип разработан для обработки сложной совместной итеративной работы множества специализированных агентов, часто объединяющихся в сложные потоки для предоставления решений и аналитических данных по самым сложным задачам, — говорит Вахдат.

TPU 8i получил 288 ГБ памяти HBM3e в паре с 384 МБ SRAM — такой объем SRAM помогает удерживать активные веса модели на самом чипе. А новый алгоритм ускорения коллективных операций (Collectives Acceleration Engine, CAE), по информации Google, разгружает глобальные операции, сокращая внутреннюю задержку в пять раз

Сравнение характеристик производительности 8i с прошлым поколением TPU.
Сравнение характеристик производительности 8i с прошлым поколением TPU.

Как и у 8t, пропускная способность межчиповых взаимодействий удвоена до 19,2 Тбит/с. Тем не менее сетевая топология отличается — в данном случае это Boardfly. 

В основе лежит Building Block (BB), в котором четыре чипа объединены в кольцо с полной связностью. BB масштабируются в группу из восьми штук. 36 групп замыкаются через оптические коммутаторы в под. Сетевой диаметр сокращен до семи хопов, поскольку для MoE-инференса важно меньшее количество сетевых переходов между чипами.

Иерархическая топология Boardfly.
Иерархическая топология Boardfly.

TPU 8i масштабируется в Superpod до 1 152 чипов в одном кластере с производительностью 11,6 экзафлопс. По заявлению Google, TPU 8i на 80% выгоднее по соотношению производительности и цены, чем Ironwood — за те же деньги можно обслужить почти вдвое больше пользователей.

Итоги

Оба чипа в первый раз работают на собственных ARM-процессорах Axion в качестве хост-CPU и поддерживают СЖО

Удобная таблица для сравнения спецификаций:

Спецификация 8t и 8i.
Спецификация 8t и 8i.

Как говорит Google: «Оба чипа поступят в продажу в конце этого года и могут быть использованы в составе гиперкомпьютера Google с искусственным интеллектом, который объединяет специализированное оборудование (вычислительные ресурсы, системы хранения данных, сетевые ресурсы), открытое программное обеспечение (фреймворки, механизмы логического вывода) и гибкие модели потребления (оркестрация, управление кластерами и модели доставки) в единый стек».

Коммерческий контекст этого анонса очевиден. Google некоторое количество раз в пресс-релизе указывает на возросшую продуктивность и очевидную экономию, связанную с этим. В дополнение к этого, теперь это не просто альтернатива GPU, а усиленный сдвиг на отдельный ускоритель для разных AI-задач. Еще одна из увлекательных новостей: TPU 8t масштабируется до миллиона чипов в одном кластере — это больше, чем публично известные размеры кластеров других компании.

Что думаете насчет новых TPU? Делитесь мнением в комментариях.

Читают сейчас

Веб-инфраструктура Canonical/Ubuntu подверглась продолжительной трансграничной DDoS-атаке, которая идёт более 18 часов

21 минуту назад

Веб-инфраструктура Canonical/Ubuntu подверглась продолжительной трансграничной DDoS-атаке, которая идёт более 18 часов

30 апреля 2026 года компания веб-инфраструктура компании Canonical и проектов Ubuntu подверглись продолжительной трансграничной DDoS-атаке. Инженеры компании работают над её устранением. Инцидент прод

Apple удивилась ​​росту спроса на Mac, обусловленному развитием ИИ

35 минут назад

Apple удивилась ​​росту спроса на Mac, обусловленному развитием ИИ

Генеральный директор Apple Тим Кук объяснил увеличение продаж Mac использованием компьютеров в качестве платформ для запуска локальных моделей искусственного интеллекта, таких как OpenClaw. Это нескол

Представлен публике инициатива C:/Deb — операционная платформа с Windows-подобным окружением на базе Linux

1 час назад

Представлен публике инициатива C:/Deb — операционная платформа с Windows-подобным окружением на базе Linux

Разработчики Евгений Голышев (является сопровождающим проекта Elixir в Debian/Ubuntu) и Артём Лаврухин представили рабочий прототип Win32/Linux-системы под названием C:\Deb. Это решение на базе Debian

GitHub Copilot поймали на присвоении чужой работы — ИИ вписывает себя в коммиты, которых не писал

1 час назад

GitHub Copilot поймали на присвоении чужой работы — ИИ вписывает себя в коммиты, которых не писал

На GitHub развернулась дискуссия, в которой разработчик жалуется на Copilot. По его словам, средство тихо добавляет себя в соавторы коммитов — даже когда пользователь специально стирает сгенерированно

В Microsoft Word появятся модели Anthropic AI для работы с текстом

2 часа назад

В Microsoft Word появятся модели Anthropic AI для работы с текстом

В Microsoft Word начнут функционировать модели Anthropic AI. Новая опция станет частью Microsoft 365 Copilot, запустить её планируют в конце мая. Пользователи смогут при помощи ИИ работать с текстом (