Gemma 4 31B 推测解码：平均加速 29%，代码场景 +50%

AI 摘要

社区在 llama.cpp 上测试了用 Gemma 4 E2B（4.65B 参数）作为 draft 模型对 Gemma 4 31B 进行推测解码。结果远超预期：所有任务平均加速 29%，代码生成场景加速高达 50%。这意味着使用本地模型做编码 Agent 时，仅通过推测解码这一免费优化，就能获得接近"升级硬件"的体验提升。配置也很简单，只需在 llama.cpp 启动命令中添加 draft 模型参数。

以上为 AI 生成摘要，不代表原文完整观点

原始来源

🔗 查看原文 →

AI 摘要

原始来源

有疑问？问一下