Deepseek本地部署
出于对数据隐私与安全、延迟和实时性要求、根据业务灵活定制、以及企业级需求(对数据安全、业务连续型要求高的金融、医疗等)的考量,大模型本地化部署是各个公司和个人的必要的选择。那不同的大模型如何部署呢,在这里以deepseek模型为例,详细介绍大模型的本地部署方法。
首先,deepseek有多个系列:R1、V3, R1指的是”Reasoning Models”(推理模型),指能够模拟人类推理能力的计算系统。而V3作为基础模型,是通用型NLP预训练模型,是混合专家(MoE)架构,支持智能路由和动态负载均衡,优化不同专家的协作与分配。R1是基于 V3 的 MoE 架构,强化动态门控机制,选择性激活专家以适配推理任务;并且支持“深度思考模式”,展示了推理过程,提升透明度和可信度。
由于V3仅提供满血版671B参数的模型,对硬件要求较高,我们本文主要讲R1的本地部署和蒸馏版本地实践。
一、DeepSeek的主要版本
「标准版(蒸馏版)」
1.5B/7B/8B/14B/32B/70B参数模型:通过量化技术压缩的轻量级版本,适合个人用户和普通硬件部署。例如:
- 1.5B:适合显存≥4GB的显卡,16GB内存。
- 7B/8B:需显存≥8GB,如RTX 3060以上显卡。
- 14B/32B:需显存≥16GB,如RTX 4090显卡。
适用场景:日常问答、简单文本生成、低算力需求任务。
「满血版(原始版)」
DeepSeek-R1 671B:完整未压缩的版本,参数高达671B,需显存≥320GB,仅适合企业级服务器或高性能计算集群
二、本地部署方法
1. 基于Ollama的部署(推荐)
步骤:
1.安装Ollama框架:访问官网(https://ollama.com/) 下载并安装对应操作系统的客户端。
- 下载ollam的坑. 命令行下载 总是因为访问github.com失败导致下载不成功。
- 解决:采用手动下载 https://github.com/ollama/ollama/blob/main/docs/linux.md
2.下载模型:打开命令行工具(Windows为CMD/PowerShell,Mac/Linux为Terminal),输入命令:
1 | ollama run deepseek-r1:8b # 以8B模型为例,可替换为1.5b/14b等 |
重点(在run模型前执行):1
2
3
4# 设置环境变量(开启listen的ip,默认是127.0.0.1,即只有本地才能访问)
export OLLAMA_HOST=0.0.0.0:11434
# 启动server
ollama serve > ollam.log 2>&1 &
3.启动Web交互界面:推荐安装Open-WebUI插件,通过Docker运行:
1 | docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main |
优势:支持多平台,操作流程标准化,适合开发者410。
2. 基于LM Studio的部署(适合小白)
步骤:
下载LM Studio:访问官网(https://lmstudio.ai/)安装软件。
搜索并下载模型:在软件内搜索“DeepSeek”,选择适合的模型版本(如7B)并下载。
加载模型:下载完成后,在软件主界面选择模型并加载,即可本地使用。
优势:零代码操作,界面友好,适合非技术用户5。
3. 企业级私有化部署
适用场景:企业自有智算环境,需集成行业大模型(如医疗、政务)。
步骤:
下载开源版本:获取DeepSeek开源代码和模型权重。
硬件适配:根据需求配置GPU集群(如NVIDIA A100、RTX 5090D)。
集成到业务系统:通过API或SDK接入企业应用(如万达信息的数字智脑平台)79。
三、硬件配置建议
模型参数 | 推荐配置 | 适用场景 |
---|---|---|
1.5B-8B | 显存≥4GB,内存≥16GB(如RTX 3060) | 个人办公、轻度生成任务 |
14B-32B | 显存≥16GB,内存≥32GB(如RTX 4090) | 创意写作、代码生成 |
70B+ | 显存≥24GB,服务器级硬件(如A100) | 企业级数据分析、科研计算 |
1.5B的模型大小为1.1G,7b的为4.7G,满血版671b的为404G。 参考:https://ollama.com/library/deepseek-r1:7b
四、优势和局限性
优势:
数据隐私:敏感数据无需上传云端,符合GDPR等法规19。
低延迟:本地计算无网络延迟,适合实时任务(如语音识别)8。
离线使用:无网络环境下仍可运行(如飞机、远程地区)10。
局限性:
硬件成本高:高性能模型需高端显卡(如RTX 5090D)4。
生成质量受限:蒸馏版模型性能弱于云端满血版510。
技术门槛:需掌握命令行工具、Docker等基础技能
安全注意:权限管控、物理安全(避免物理入侵)
五、效果总结
相比较671b的原始模型,泛化能力和准确性上有些不足。例如1b的模型会把规培理解为规则,应该属于对下一次生成的概率问题,8b的模型在回答上没有原始模型全面。处理长文本或多轮对话时没有原始模型强,不能记住之前的对话内容。