AI 摘要
社区通过详细的缓存动态分析发现,GLM-5 的 MoE 架构在权重溢出到 SSD 后仍然保持了可用的推理速度。原因是 MoE 模型的专家激活模式具有局部性——常用的专家会被缓存在 VRAM 中,不常用的从 SSD 加载。即使超过 1/3 的权重留在 SSD 上,由于缓存命中率足够高,实际推理体验"出人意料地可用"。这对 VRAM 不足但有大容量 NVMe SSD 的用户是重要发现。
以上为 AI 生成摘要,不代表原文完整观点
社区通过详细的缓存动态分析发现,GLM-5 的 MoE 架构在权重溢出到 SSD 后仍然保持了可用的推理速度。原因是 MoE 模型的专家激活模式具有局部性——常用的专家会被缓存在 VRAM 中,不常用的从 SSD 加载。即使超过 1/3 的权重留在 SSD 上,由于缓存命中率足够高,实际推理体验"出人意料地可用"。这对 VRAM 不足但有大容量 NVMe SSD 的用户是重要发现。
以上为 AI 生成摘要,不代表原文完整观点