
1 час назад
3 бита хватит: Google ускорила работу LLM за счет сжатия кэша
Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. Одновременно качество ответов модели не падает, а дообучение не требуется. Работу п