Y11 (@seclink) “小米给每个人送 820亿token ... 原因是：推理技术优化说明本次价格调整背后，离不”

2026.05.27 13:26

小米给每个人送 820亿token ... 原因是：推理技术优化说明本次价格调整背后，离不开小米技术团队在推理系统上的持续优化。我们基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7，并将可缓存 token 数量提升至优化前的近 5 倍，显著提升了缓存命中率和推理效率。同时，我们通过优化专家并行方案、输入长度分桶策略等，进一步提升了集群输入吞吐能力，从而在保障服务质量的前提下持续降低单位 token 服务成本。

显示更多