Deepseek本地部署

Catalogue
  1. 一、DeepSeek的主要版本
  2. 二、本地部署方法
    1. 1. 基于Ollama的部署(推荐)
    2. 2. 基于LM Studio的部署(适合小白)
    3. 3. 企业级私有化部署
  3. 三、硬件配置建议
  4. 四、优势和局限性
  5. 五、效果总结

出于对数据隐私与安全、延迟和实时性要求、根据业务灵活定制、以及企业级需求(对数据安全、业务连续型要求高的金融、医疗等)的考量,大模型本地化部署是各个公司和个人的必要的选择。那不同的大模型如何部署呢,在这里以deepseek模型为例,详细介绍大模型的本地部署方法。
首先,deepseek有多个系列:R1、V3, R1指的是”Reasoning Models”(推理模型),指能够模拟人类推理能力的计算系统。而V3作为基础模型,是通用型NLP预训练模型,是混合专家(MoE)架构,支持智能路由和动态负载均衡,优化不同专家的协作与分配。R1是基于 V3 的 MoE 架构,强化动态门控机制,选择性激活专家以适配推理任务;并且支持“深度思考模式”,展示了推理过程,提升透明度和可信度。

由于V3仅提供满血版671B参数的模型,对硬件要求较高,我们本文主要讲R1的本地部署和蒸馏版本地实践。

一、DeepSeek的主要版本

「标准版(蒸馏版)」

1.5B/7B/8B/14B/32B/70B参数模型:通过量化技术压缩的轻量级版本,适合个人用户和普通硬件部署。例如:

  • 1.5B:适合显存≥4GB的显卡,16GB内存。
  • 7B/8B:需显存≥8GB,如RTX 3060以上显卡。
  • 14B/32B:需显存≥16GB,如RTX 4090显卡。

适用场景:日常问答、简单文本生成、低算力需求任务。

「满血版(原始版)」

DeepSeek-R1 671B:完整未压缩的版本,参数高达671B,需显存≥320GB,仅适合企业级服务器或高性能计算集群

二、本地部署方法

1. 基于Ollama的部署(推荐)

步骤:

1.安装Ollama框架:访问官网(https://ollama.com/) 下载并安装对应操作系统的客户端。

2.下载模型:打开命令行工具(Windows为CMD/PowerShell,Mac/Linux为Terminal),输入命令:

1
ollama run deepseek-r1:8b  # 以8B模型为例,可替换为1.5b/14b等

重点(在run模型前执行):

1
2
3
4
# 设置环境变量(开启listen的ip,默认是127.0.0.1,即只有本地才能访问)
export OLLAMA_HOST=0.0.0.0:11434
# 启动server
ollama serve > ollam.log 2>&1 &

3.启动Web交互界面:推荐安装Open-WebUI插件,通过Docker运行:

1
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

优势:支持多平台,操作流程标准化,适合开发者410。

2. 基于LM Studio的部署(适合小白)

步骤:

  1. 下载LM Studio:访问官网(https://lmstudio.ai/)安装软件。

  2. 搜索并下载模型:在软件内搜索“DeepSeek”,选择适合的模型版本(如7B)并下载。

  3. 加载模型:下载完成后,在软件主界面选择模型并加载,即可本地使用。

优势:零代码操作,界面友好,适合非技术用户5。

3. 企业级私有化部署

适用场景:企业自有智算环境,需集成行业大模型(如医疗、政务)。

步骤:

  1. 下载开源版本:获取DeepSeek开源代码和模型权重。

  2. 硬件适配:根据需求配置GPU集群(如NVIDIA A100、RTX 5090D)。

  3. 集成到业务系统:通过API或SDK接入企业应用(如万达信息的数字智脑平台)79。

三、硬件配置建议

模型参数 推荐配置 适用场景
1.5B-8B 显存≥4GB,内存≥16GB(如RTX 3060) 个人办公、轻度生成任务
14B-32B 显存≥16GB,内存≥32GB(如RTX 4090) 创意写作、代码生成
70B+ 显存≥24GB,服务器级硬件(如A100) 企业级数据分析、科研计算

1.5B的模型大小为1.1G,7b的为4.7G,满血版671b的为404G。 参考:https://ollama.com/library/deepseek-r1:7b

四、优势和局限性

优势:

  1. 数据隐私:敏感数据无需上传云端,符合GDPR等法规19。

  2. 低延迟:本地计算无网络延迟,适合实时任务(如语音识别)8。

  3. 离线使用:无网络环境下仍可运行(如飞机、远程地区)10。

局限性:

  1. 硬件成本高:高性能模型需高端显卡(如RTX 5090D)4。

  2. 生成质量受限:蒸馏版模型性能弱于云端满血版510。

  3. 技术门槛:需掌握命令行工具、Docker等基础技能

  4. 安全注意:权限管控、物理安全(避免物理入侵)

五、效果总结

相比较671b的原始模型,泛化能力和准确性上有些不足。例如1b的模型会把规培理解为规则,应该属于对下一次生成的概率问题,8b的模型在回答上没有原始模型全面。处理长文本或多轮对话时没有原始模型强,不能记住之前的对话内容。