模型

Linux 用 vLLM 部署 Qwen2.5-72B(高并发)

查看模型详情 →
vLLM 难度:高级 耗时:2 小时 linux
前置条件:多卡 A100/H100、CUDA 12+

vLLM 部署 Qwen2.5-72B,高并发推理。