DeepSeek 70B(700亿参数)模型在 INT8 量化 下运行的最低显存要求如下:
1. 纯推理(Inference)
- INT8 量化 通常将模型显存占用降低至 ~70GB 左右(相比 FP16 的 ~140GB)。
- 最低显存要求:
- 单卡需要 ≥80GB 显存(如 NVIDIA A100 80GB 或 H100 80GB)。
- 如果使用 模型并行(如 Tensor Parallelism=2),可在 2 张 40GB 显存卡(如 2×A100 40GB)上运行,但通信开销可能影响性能。
2. 微调(Fine-tuning)
- INT8 训练的显存优化较少,通常仍需 FP16/BF16,显存需求与原始模型接近(单卡难以承载)。
- 若强制使用 INT8 微调(如通过 LoRA + INT8),显存需求可能降至 ~100GB,但仍需多卡并行。
3. 关键因素
- 上下文长度(Context Length):长序列(如 32k tokens)会显著增加显存占用。
- 框架优化:使用 vLLM、GPTQ 或 bitsandbytes 等库可进一步降低显存。
- 硬件支持:NVIDIA Ampere(如 A100)或 Hopper(H100)架构对 INT8 提速更高效。
推荐配置
- 单卡推理:A100/H100 80GB。
- 多卡推理:2×A100 40GB(Tensor Parallelism=2)。
- 低成本方案:使用 推理 API 或 云服务(如 AWS/Azure 的 A100 实例)。
如果需要更低显存方案,可考虑 4-bit 量化(GPTQ/AWQ),显存可降至 ~40GB,但可能损失部分精度。
CLOUD云枢