AI 摘要
社区在 llama.cpp 上测试了用 Gemma 4 E2B(4.65B 参数)作为 draft 模型对 Gemma 4 31B 进行推测解码。结果远超预期:所有任务平均加速 29%,代码生成场景加速高达 50%。这意味着使用本地模型做编码 Agent 时,仅通过推测解码这一免费优化,就能获得接近"升级硬件"的体验提升。配置也很简单,只需在 llama.cpp 启动命令中添加 draft 模型参数。
以上为 AI 生成摘要,不代表原文完整观点
社区在 llama.cpp 上测试了用 Gemma 4 E2B(4.65B 参数)作为 draft 模型对 Gemma 4 31B 进行推测解码。结果远超预期:所有任务平均加速 29%,代码生成场景加速高达 50%。这意味着使用本地模型做编码 Agent 时,仅通过推测解码这一免费优化,就能获得接近"升级硬件"的体验提升。配置也很简单,只需在 llama.cpp 启动命令中添加 draft 模型参数。
以上为 AI 生成摘要,不代表原文完整观点