注册并分享邀请链接,可获得视频播放与邀请奖励。

Y11 (@seclink) “小米 给每个人送 820亿token ... 原因是: 推理技术优化说明 本次价格调整背后,离不” — TopicDigg

Y11 的个人资料封面
Y11 的头像
Y11
@seclink
找工作、找面试题、改简历、模拟面试。关注: 创业(冷启动) | 认知心理学|智能体 | 强化学习 building:
加入 January 2011
645 正在关注    30K 粉丝
小米 给每个人送 820亿token ... 原因是: 推理技术优化说明 本次价格调整背后,离不开小米技术团队在推理系统上的持续优化。 我们基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7,并将可缓存 token 数量提升至优化前的近 5 倍,显著提升了缓存命中率和推理效率。 同时,我们通过优化专家并行方案、输入长度分桶策略等,进一步提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位 token 服务成本。
显示更多