结论:在8卡A800(每卡80GB显存)上部署70B参数的模型时,理论支持的并发数取决于显存占用、计算效率和框架优化,通常为1-4个并发请求
,具体需通过实际测试调整。
关键因素分析
显存占用
- 模型参数存储:70B参数的FP16模型需约140GB显存(2字节/参数),8卡A800总显存为640GB,理论可容纳完整模型。
- KV缓存:每个并发请求需额外显存存储注意力机制的Key-Value缓存,长度越长占用越高。例如:
- 序列长度2048时,单请求KV缓存约占用
5-10GB
(依赖头数和维度)。 - 总显存需求 = 模型参数 + 并发数 × KV缓存 + 框架开销。
- 序列长度2048时,单请求KV缓存约占用
计算效率
- 张量并行:70B模型通常需8卡并行计算(如Megatron-LM的TP=8),单次推理即占用全部显卡,限制并发数。
- 动态批处理:若框架支持(如vLLM),可通过连续处理请求提升吞吐,但实际并发受延迟容忍度影响。
框架优化
- 显存共享技术:如PagedAttention(vLLM)可减少碎片化,提升显存利用率,支持更高并发。
- 量化:若模型可量化至INT8(显存减半),并发数可能X_X倍,但需权衡精度损失。
估算与建议
保守场景(无优化、长序列):
- 单请求显存 ≈ 140GB(模型) + 10GB(KV) ≈ 150GB
- 理论并发数 = 640GB / 150GB ≈ 4个(需预留系统显存)。
优化场景(动态批处理+显存共享):
- 显存利用率提升30%-50%,并发可达4-6个,但需实测延迟。
关键建议:
- 优先测试实际负载:使用推理框架(如TGI、vLLM)模拟请求,监控显存和计算瓶颈。
- 调整序列长度:缩短序列可显著减少KV缓存,提升并发(例如从2K降至1K可能X_X倍并发)。
结论重申
在未充分优化时,8卡A800部署70B模型的并发数通常为1-4个;通过框架优化和量化,可提升至4-6个,但需以实测为准。显存和计算并行是核心限制因素。