截至目前(2024年6月),通义千问(Qwen)系列中有一个参数规模约为320亿(32B)的模型,通常称为 Qwen-32B 或 Qwen1.5-32B。关于其本地化部署版本及硬件要求如下:
一、本地化部署版本
Qwen-32B 支持本地化部署,阿里云通过 ModelScope(魔搭)平台和 Hugging Face 开源了多个版本的 Qwen 模型,包括:
- Qwen-32B
- Qwen-32B-Chat(对话优化版)
- Qwen-32B-Base(基础语言模型)
这些模型支持通过以下方式本地部署:
- Hugging Face Transformers:使用
transformers
库加载模型进行推理。 - vLLM:高性能推理框架,支持连续批处理(continuous batching),提升吞吐。
- ModelScope:阿里官方平台,提供 SDK 和推理脚本。
- GGUF 量化版本(通过 llama.cpp 等):社区已将部分 Qwen 模型转换为 GGUF 格式,支持 CPU/GPU 混合推理。
注意:Qwen-32B 原生不支持 llama.cpp,但可通过转换工具(如 llama.cpp
的 convert_hf_to_gguf.py
)转为 GGUF 格式实现轻量化部署。
二、硬件要求(以 FP16 精度为例)
项目 | 要求 |
---|---|
显存(GPU) | 至少 64GB 显存(如 2× NVIDIA A100 40GB 或 1× H100 80GB) |
推荐 GPU | 单卡:H100 80GB;多卡:2× A100 40GB / 2× A6000 48GB |
内存(RAM) | ≥64GB(建议 128GB 以支持数据加载和缓存) |
存储空间 | ≥100GB(FP16 模型约 60GB,加上缓存和依赖) |
精度支持 | FP16、BF16(推荐),INT8/INT4 量化可降低资源需求 |
三、量化部署方案(降低硬件门槛)
若硬件有限,可通过量化方式部署:
量化方式 | 显存需求 | 推理速度 | 质量损失 |
---|---|---|---|
INT8 | ~35GB | 较快 | 轻微 |
INT4(GPTQ/AWQ) | ~20GB | 快 | 中等 |
GGUF(Q4_K_M) | ~22GB(CPU/GPU混合) | 中等 | 可接受 |
- 使用 AutoGPTQ 或 ExLlama 可部署 INT4 量化版 Qwen-32B,可在单张 24GB 显卡(如 RTX 3090/4090)上运行。
- 使用 llama.cpp + GGUF 可在 CPU 或 Apple Silicon(M1/M2/M3)上运行,但速度较慢。
四、部署建议
- 高性能场景:使用 vLLM + 多 A100/H100 集群,支持高并发 API 服务。
- 本地开发/测试:使用 GPTQ 量化版 + 单张 24GB 显卡。
- 边缘设备/低资源环境:考虑更小模型如 Qwen-7B 或 Qwen-1.8B。
五、获取方式
- ModelScope 模型库:https://modelscope.cn/models/qwen/Qwen-32B
- Hugging Face:https://huggingface.co/Qwen/Qwen-32B
六、注意事项
- Qwen-32B 为中文优化大模型,适合中文场景,英文能力略弱于 Llama 系列。
- 商业用途需遵守阿里云的《通义千问开源协议》(目前为 Tongyi Qwen License,允许商用,但需署名并遵守限制条款)。
总结:
部署方式 | 最低显存 | 推荐配置 |
---|---|---|
FP16 全精度 | 64GB | 2× A100 或 1× H100 |
INT8 量化 | 35GB | 1× A6000 / A100 |
INT4 量化 | 20GB | RTX 3090/4090 |
GGUF CPU 推理 | 32GB RAM | M2 Max / 高性能 x86 CPU |
如需进一步降低资源消耗,建议使用 Qwen-7B 或 Qwen-1.8B 等小模型。
如需具体部署脚本或 Docker 配置,可参考 ModelScope 官方文档或 GitHub 社区项目(如 vLLM
、text-generation-webui
)。