Deepseek本地部署

Catalogue

一、DeepSeek的主要版本
二、本地部署方法
三、硬件配置建议
四、优势和局限性
五、效果总结

出于对数据隐私与安全、延迟和实时性要求、根据业务灵活定制、以及企业级需求(对数据安全、业务连续型要求高的金融、医疗等)的考量，大模型本地化部署是各个公司和个人的必要的选择。那不同的大模型如何部署呢，在这里以deepseek模型为例，详细介绍大模型的本地部署方法。
首先，deepseek有多个系列：R1、V3， R1指的是”Reasoning Models”（推理模型），指能够模拟人类推理能力的计算系统。而V3作为基础模型，是通用型NLP预训练模型，是混合专家（MoE）架构，支持智能路由和动态负载均衡，优化不同专家的协作与分配。R1是基于 V3 的 MoE 架构，强化动态门控机制，选择性激活专家以适配推理任务；并且支持“深度思考模式”，展示了推理过程，提升透明度和可信度。

由于V3仅提供满血版671B参数的模型，对硬件要求较高，我们本文主要讲R1的本地部署和蒸馏版本地实践。

一、DeepSeek的主要版本

「标准版（蒸馏版）」

1.5B/7B/8B/14B/32B/70B参数模型：通过量化技术压缩的轻量级版本，适合个人用户和普通硬件部署。例如：

1.5B：适合显存≥4GB的显卡，16GB内存。
7B/8B：需显存≥8GB，如RTX 3060以上显卡。
14B/32B：需显存≥16GB，如RTX 4090显卡。

适用场景：日常问答、简单文本生成、低算力需求任务。

「满血版（原始版）」

DeepSeek-R1 671B：完整未压缩的版本，参数高达671B，需显存≥320GB，仅适合企业级服务器或高性能计算集群

二、本地部署方法

1. 基于Ollama的部署（推荐）

步骤：

1.安装Ollama框架：访问官网（https://ollama.com/) 下载并安装对应操作系统的客户端。

下载ollam的坑. 命令行下载总是因为访问github.com失败导致下载不成功。
解决：采用手动下载 https://github.com/ollama/ollama/blob/main/docs/linux.md

2.下载模型：打开命令行工具（Windows为CMD/PowerShell，Mac/Linux为Terminal），输入命令：

1	ollama run deepseek-r1:8b # 以8B模型为例，可替换为1.5b/14b等

重点(在run模型前执行)：

# 设置环境变量（开启listen的ip，默认是127.0.0.1，即只有本地才能访问）
export OLLAMA_HOST=0.0.0.0:11434
# 启动server
ollama serve > ollam.log 2>&1 &

3.启动Web交互界面：推荐安装Open-WebUI插件，通过Docker运行：

1	docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

优势：支持多平台，操作流程标准化，适合开发者410。

2. 基于LM Studio的部署（适合小白）

步骤：

下载LM Studio：访问官网（https://lmstudio.ai/）安装软件。
搜索并下载模型：在软件内搜索“DeepSeek”，选择适合的模型版本（如7B）并下载。
加载模型：下载完成后，在软件主界面选择模型并加载，即可本地使用。

优势：零代码操作，界面友好，适合非技术用户5。

3. 企业级私有化部署

适用场景：企业自有智算环境，需集成行业大模型（如医疗、政务）。

步骤：

下载开源版本：获取DeepSeek开源代码和模型权重。
硬件适配：根据需求配置GPU集群（如NVIDIA A100、RTX 5090D）。
集成到业务系统：通过API或SDK接入企业应用（如万达信息的数字智脑平台）79。

三、硬件配置建议

模型参数	推荐配置	适用场景
1.5B-8B	显存≥4GB，内存≥16GB（如RTX 3060）	个人办公、轻度生成任务
14B-32B	显存≥16GB，内存≥32GB（如RTX 4090）	创意写作、代码生成
70B+	显存≥24GB，服务器级硬件（如A100）	企业级数据分析、科研计算

1.5B的模型大小为1.1G，7b的为4.7G，满血版671b的为404G。参考：https://ollama.com/library/deepseek-r1:7b

四、优势和局限性

优势：

数据隐私：敏感数据无需上传云端，符合GDPR等法规19。
低延迟：本地计算无网络延迟，适合实时任务（如语音识别）8。
离线使用：无网络环境下仍可运行（如飞机、远程地区）10。

局限性：

硬件成本高：高性能模型需高端显卡（如RTX 5090D）4。
生成质量受限：蒸馏版模型性能弱于云端满血版510。
技术门槛：需掌握命令行工具、Docker等基础技能
安全注意：权限管控、物理安全(避免物理入侵)

五、效果总结

相比较671b的原始模型，泛化能力和准确性上有些不足。例如1b的模型会把规培理解为规则，应该属于对下一次生成的概率问题，8b的模型在回答上没有原始模型全面。处理长文本或多轮对话时没有原始模型强，不能记住之前的对话内容。