1 час назад
Cerebras ускорила 1 трлн схема kimi K2.6 до тысяча т/sec

Недавно компания производитель чипов Cerebras добавила топовую открытую трилионную модель Kimi k2.6, на свою платформу.
В сравнении со другими компаниями - это невероятный апгрейд скорости. По сути теперь доступна флагманская скорость для флагманской нейросетевой модели.
К сожалению сейчас доступна только enterprise клиентам. Для остальных же доступна тоже интересная схема glm-4.7.
Давайте разберемся, что происходит с Kimi K2.6. Эта схема сейчас — настоящий король open-weight для кодинга и агентов.
Она просто разрывает бенчмарки: на SWE-Bench Pro выбила 58.6%, обойдя Claude Opus 4.6 и встав вровень с GPT-5.4. А на тестах для агентов (типа Humanity's Last Exam или DeepSearchQA) — вообще лидер.
Авторы уже вовсю юзают её как бесплатную альтернативу закрытым топам. Особенно для кода: K2.6 прям чувствует, как делать чистый клиентская часть, и стала топовой для генерации full-stack приложений. В версии 2.6 она пошла дальше — теперь это полноценный full-stack воркфлоу: аутентификация, базы данных, длинные цепочки действий агентов.
Как это вообще работает на Cerebras
У Cerebras есть свой движок (Wafer-Scale Engine), который заточен под масштаб. Кластер CS-3 можно настроить так, что он будет тащить модели с триллионами параметров — и для обучения, и для инференса. Они вылизали софт до блеска, чтобы обслуживать ее.
Хитрость в том, как они хранят модель: Kimi K2.6 лежит в оригинальных 4-битных весах, но все вычисления идут в 16-битной плавающей точкой. Так и точность сохраняется, и памяти меньше жрёт. Веса размазаны по нескольким чипам, а активации стримятся между ними. Связь между слоями идёт прямо по сети на движке — у него пропускная способность в 200+ раз выше, чем у NVLink на NVL72. Плюс кастомные ядра и спекулятивный декодинг — в итоге MoE-модель на триллион параметров выдаёт почти 1000 токенов в секунду. Мировой рекорд.
Что это даёт
Агентный кодинг — сейчас самая жирная тема для LLM, и он дико чувствителен к скорости инференса. На 1к токенов в секунду Kimi генерирует код на порядок быстрее, чем Claude Opus. Разработчики могут работать моментально, быстрее добираться до финального решения и не распыляться.
Фронтенд-итерации — практически мгновенные. Рефакторинг кода и сложные баги — в разы быстрее. Всё, что раньше отнимало кучу времени, теперь делается за долю секунд
Читают сейчас

27 минут назад
Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал
Одновременно с запуском Claude Opus 4.8, Anthropic представила для Claude Code режим dynamic workflows: теперь модель сама пишет оркестрационный скрипт, который запускает в одной сессии от десятков до

54 минуты назад
echo hello-world | ai
Обнародован прототип ai-cli — консольная утилита на Rust для встраивания LLM (GitHub Models, OpenAI, Groq, DeepSeek и др.) в pipeline командной строки. Проект распространяется под лицензией MIT. Докум

1 час назад
Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле
Anthropic выпустили Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене: $5 за млн входящих токенов и $25 за млн исходящих. Одно из ключевых изменений — честно

1 час назад
Вышел Claude Opus 4.8 — схема в 4 раза реже пропускает свои же баги
Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая релиз: $5 за миллион входных токенов и $25 за миллион выходных. Сама

2 часа назад
Opus 4.8 появился в выборе моделей Claude Code в десктопном приложении
Opus 4.8 появился в выборе моделей Claude Code в десктопном приложении. Высокая вероятность, что Sonnet 4.8 выйдет сегодня - после нескольких месяцев ожидания с момента, когда модель в начальный раз з