GLM-5 MoE 权重溢出 SSD 仍可用：缓存动态分析

AI 摘要

社区通过详细的缓存动态分析发现，GLM-5 的 MoE 架构在权重溢出到 SSD 后仍然保持了可用的推理速度。原因是 MoE 模型的专家激活模式具有局部性——常用的专家会被缓存在 VRAM 中，不常用的从 SSD 加载。即使超过 1/3 的权重留在 SSD 上，由于缓存命中率足够高，实际推理体验"出人意料地可用"。这对 VRAM 不足但有大容量 NVMe SSD 的用户是重要发现。

以上为 AI 生成摘要，不代表原文完整观点

原始来源

🔗 查看原文 →

AI 摘要

原始来源

有疑问？问一下