逐权重混合精度：单模型内 INT4-FP32 混合，推理加速 2 倍

AI 摘要

社区实验在同一个模型内对不同权重使用不同精度——对模型敏感的关键权重保留 FP32 高精度，对不重要的权重使用 INT4 极低精度。相比统一量化（所有权重相同位宽），这种逐权重混合精度方法在几乎不损失质量的前提下实现了约 2 倍推理加速。方法论上比 GPTQ/AWQ 等统一量化更精细，但实现复杂度也更高。

以上为 AI 生成摘要，不代表原文完整观点

原始来源

🔗 查看原文 →

AI 摘要

原始来源

有疑问？问一下