Cerebras запустили Kimi K2.6 на скорости ~1000 токенов в секунду

2 мин
Cerebras запустили Kimi K2.6 на скорости ~1000 токенов в секунду

Для тех, кто слышит про Cerebras в первый раз, расскажу. Cerebras — это американский чипмейкер, который пошёл против индустрии: вместо кластеров из сотен GPU они делают один огромный процессор размером с ноутбук.

Он содержит 4 триллиона транзисторов, 900 тысяч вычислительных ядер и 44 гигабайта памяти прямо на кристалле. Вся хранилище рядом с вычислениями, данные не гоняются по сети между чипами, отсюда и скорость.

В январе 2026-го статус компании резко изменился: OpenAI подписала многолетний контракт на развёртывание 750 МВт мощностей Cerebras для обслуживания своих пользователей. Сделка оценивается свыше в 20 млрд долларов, OpenAI также выдала Cerebras кредит на 1 млрд. Начальный совместный продукт — GPT-5.3-Codex-Spark, работающий на скорости более 1200 токенов/с.

На этом же железе Cerebras теперь запустили Kimi K2.6 для корпоративных клиентов. Это первая триллионная open-weight схема в их инфраструктуре. Измерения Artificial Analysis: 981 токен/с — в 6,7 раза быстрее ближайшего GPU-облака и в 23 раза быстрее медианного провайдера. На практике: запрос с 10 000 токенов входа и 500 токенов ответа занимает 5,6 секунды против 163,7 секунды на официальном эндпоинте Kimi.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Mobile Runtime 2026: AI-агенты в больших проектах, перформанс медиалент и нативный хардкор

24 минуты назад

Mobile Runtime 2026: AI-агенты в больших проектах, перформанс медиалент и нативный хардкор

7 июня Яндекс во следующий раз проводит Mobile Runtime — большую конференцию для мобильных разработчиков. Встречаемся в Москве и онлайн, чтобы обсудить то, что определяет индустрию прямо сейчас: AI-тр

Совокупная выручка российских IT-компаний впервые за некоторое количество лет незначительно снизилась

30 минут назад

Совокупная выручка российских IT-компаний впервые за некоторое количество лет незначительно снизилась

Российский IT‑сектор впервые за некоторое количество лет столкнулся с незначительным, но сокращением совокупной выручки. По данным аналитиков «Контур.Фокуса» и «Контур.Эгиды», по итогам 2025 года выру

Как хостинг-провайдеру построить единую управляемую систему на базе трех продуктов

40 минут назад

Как хостинг-провайдеру построить единую управляемую систему на базе трех продуктов

Ключевая специализация Джихост — инфраструктура для сайтов, интернет-магазинов и корпоративных порталов на 1С-Битрикс. Для таких проектов важны не только ресурсы сервера, но и корректная конфигурация

«Делайте в 3-4 раза больше, а не увольняйте»: Хассабис — компаниям, заменяющим инженеров AI

40 минут назад

«Делайте в 3-4 раза больше, а не увольняйте»: Хассабис — компаниям, заменяющим инженеров AI

На фоне волны корпоративных сокращений, которые крупные технологические компании списывают на внедрение AI, глава Google DeepMind Демис Хассабис в интервью WIRED перед недавней конференцией I/O 2026 н

Исследование: в апреле человечество получило больше электроэнергии от солнца и ветра, чем от газа

44 минуты назад

Исследование: в апреле человечество получило больше электроэнергии от солнца и ветра, чем от газа

Согласно исследованию аналитического центра Ember, в апреле 2026 года ветровые и солнечные установки произвели 22% мировой электроэнергии, природный газ — 20%. Вместе два возобновляемых источника энер