DeepSeek-R1 本地部署评测

① 部署方式与资源需求

DeepSeek-R1 官方不仅开源了 671B 参数的满血版，还同步开源了基于 Qwen 和 Llama 架构的多种参数量蒸馏版（涵盖 1.5B、7B、8B、14B、32B、70B）。对于本地部署而言，大多数开发者会选择使用 Ollama、vLLM 或 llama.cpp 等框架来运行这些蒸馏版本。资源需求方面，1.5B 和 7B/8B 版本可以在主流轻薄本或 8GB 显存的消费级显卡上运行；32B 版本则通常需要 24GB 显存（如 RTX 3090/4090）才能获得较好的体验。由于本次未在真实硬件上运行，具体在不同量化模式（如 Q4_K_M、Q8）下的精确显存占用、首字延迟（TTFT）以及生成速度（tokens/s）均为待实测。后续建议测试的指标包括：不同量化版本的显存峰值占用、64K上下文长度下的性能衰减情况、以及长思维链输出时的吞吐量。

② 与同类模型对比

在本地开源模型领域，我们可将 DeepSeek-R1 的蒸馏版与 Llama-3.3-70B 及 Qwen2.5-32B 进行对比。在逻辑推理与数学计算任务上，DeepSeek-R1 蒸馏版继承了原版的强化学习推理特性，能够输出详细的思维链，其表现显著优于同等参数量的原生 Llama 或 Qwen 模型。在常规对话与创意写作方面，Qwen2.5 和 Llama-3.3 可能更加直接高效，因为 R1 的思维链机制可能会让简单的问答变得繁琐。由于未进行实际跑分，各模型在本地端侧的生成速度对比为待实测，建议测试指标包含相同硬件下的 tokens/s 输出速度以及内存带宽利用率。

③ 推荐理由

强烈推荐将 DeepSeek-R1 的蒸馏版本部署在本地。首先，模型采用 MIT 开源协议，极大地降低了商业落地的法律门槛。其次，它将过去只有闭源顶级模型（如 OpenAI o1）才具备的深度推理能力带到了开源社区，通过明确的“思考过程”输出，在处理复杂代码架构设计、数学证明和严密逻辑推导时表现出类拔萃。丰富的参数规格选择让从边缘设备到工作站的不同用户都能找到合适的版本，是目前本地化部署推理型大模型的最佳选择之一。

如何进行显存占用测试？思维链输出速度如何测试？有没有更详细的测试方法？