CÏï'NTENT
S
DeepSee
DeepSee
DeepSee
DeepSee
*y•,
PART DeepSeek@ÿț@Șğźğ
,
什么是DeepSeek
- DeepSeek 公司:杭州深度求索人工智能基础技术研究有限公司。
-DeepSeek 大模型:DeepSeek 公司推出的一系列大模型的统称。
DeepSeek 的背景知识
DeepSeek 公司
-成立时间:2023年7月;
- 创始人: 梁文峰( 幻方量化的联合创始人
);
-所在城市:浙江省杭州市拱墅区;
-公司口号:探索未至之境;
技术的研发和应用;-公司业务方向:专注于通用人工智能
(AGI)
- “杭州六小龙”之一;
-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。
DeepSeek 的背景知识
梁文峰
- 出生年份:1985年;
-籍贯:广东省湛江市吴川市覃巴镇米历岭村;
-学历背景:
·2002年,考入浙江大学电子工程系电子信息工程专业;
·2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位;
-工作背景:
·2008年,开始带领团队使用机器学习等技术探索量化交易;
· 2015年,创立了幻方科技(杭州幻方科技有限公司);
·2019年,其资金管理规模突破百亿元;
·2023年7月,幻方量化宣布成立大模型公司DeepSeek, 进入通用人工智能 (AGI) 领域。
DeepSeek 的背景知识
DeepSeek 大模型发布时间表
-2024年01月05日,正式发布首个大模型DeepSeek LLM;
-2024年01月25日,正式发布DeepSeek-Coder, 由一系列代码语言模型组成;
-2024年02月05日,正式发布DeepSeek-Math, 以 DeepSeek-Coder 为基础;
-2024年03月11日,正式发布DeepSeek-VL, 是一个开源的视觉-语言 (VL) 模型;
-2024年05月07日,正式发布第二代开源MoE 模型DeepSeek-V2;
-2024年06月17日,正式发布DeepSeek-Coder-V2, 支持的编程语言从86种扩展到338种;
-2024年09月06日,合并DeepSeek-Coder-V2 和DeepSeek-V2-Chat 两个模型,升级推出;
-2024年11月20日,正式发布DeepSeek-R1-Lite预览版;
-2024年12月13日,正式发布DeepSeek-VL2, 用于高级多模态理解的专家混合视觉语言模型;
-2024年12月26日,正式发布DeepSeek-V3, 并同步开源模型权重;
-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero, 并同步开源模型权重。
DeepSeek 的背景知识
掀起本次DeepSeek热潮的,主要是——
DeepSeek-V3
DeepSeek-R1
DeepSeek-R1-Zero
DeepSeek的背景知识
PART DeepSeek@ț§IgțȘ„•<.
,
DeepSeek-V3 的基本情况
-DeepSeek-V3 是一款高性能、低成本的开源通用语言模型。
- 适 用 场 景 :高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。
- 设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。
-参 数 规 模 :共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。
- 训 练 成 本 :总计万H800 GPU小时 (Meta 的需要3080万GPU小时)。假设每小时2美元,
费
用约万美元(约为GPT-4的二十分之一)。
-价 格 费 用 :模型API服务定价为每百万输入tokens 元( 缓存命中) / 2 元( 缓存未命中) , 每百万输出
tokens 8元。在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。
DeepSeek 的技术特点
DeepSeek-V3 的性能表现
- 在数学推理 (GSM8K)、 代码生成 (HumanEval)、 常识推理 (MMLU) 等基准测试中达到领先水平。
-在公开评测集(如 MMLU、BBH、DROP) 中表现优异,尤其在复杂推理任务上接近或超越GPT-4 Turbo等顶
尖模型。
-多项评测成绩超越了-72B 和 -
405B
GPT-40 以及-Sonnet不相上下。
- 在知识类任务 ( MMLU, MMLU- Pro, GPQA, SimpleQA)
此前表现最好的模型-Sonnet-1022(Anthropic
等其它开源模型,并在性能上和世界顶尖的闭源模型
上的水平相比前代显著提升,接近
公司于2 0 2 4 年1 0 月发布) 。
-通过算法和工程上的创新,将生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅
提高至60TPS, 相比 模型实现了3倍的提升,可以带来更加流畅的使用体验。
DeepSeek 的技术特点
DeepSeek-V3 的技术特点
- 采 用 了多头潜在注意力 (MLA) 和DeepSeekMoE 架构,实现高效推理,提升成本效益。
-开创了 一 种无辅助损失 (auxiliary-loss-free) 策略用于负载平衡,并设置了多token预测训练目标,以提升性能。
-在训练效率上,运用了FP8 混合精度训练,让显存得到了优化,极大提升了计算性能与训练稳定性。
-支持千卡级训练,满足超大规模集群分布式训练需求。
- 采用DualPipe (双向流水线)算法和通信优化,实现计算-通信近乎完全重叠。
-训练分为三个阶段:预训练 (Pre-Training)、 长上下文扩展 (Long Context Extension) 和后训练 (Post-
Training)。
-推理环节通过独特的P/D分离策略和NanoFlow 的双流推理模式,提升了系统的资源利用率。
DeepSeek 的技术特点
■ DeepSeek@)gI)t¿¿„•*.,
o %@@?g Ï@,<,@@RÏjj (MoE)
OOOOOOOO
OutputÜddenh,
Router Top-fft
Routed Expert
Shared Expert
O O O O O O O O input Hidden u\
% @ : DeepSeekt Q
■ DeepSeek@}gI)t(g„•*.,
a %@@gt—@§$@]gfg@3g (MLA)
‹̂ 1.°.Iñ03tBZA (%B.°.i3dW'*iZ/3d7) ZPOIt4tIñB2iZtZ8IZA.
Output Hidden u, o o o o
@@ Cached During Inference
o o o o
IVtulti-Head Atténtion
Latent cK* @ @ - @i iOO OO Latent c,’
Input Hidden h‹ OOOO OOOO
@U @ : DeepSeekj @
a DeepSeek@ØI}č@,•ÿ
o % @ @ Ø @Ø@@@I} (MTP)
@ : DeepSeekìŚQ
关键技术——FP8 精度训练
-DeepSeek-V3 将大部分计算密集型操作(如矩阵乘法)使用FP8 精度进行,同时保留一些关键操
作(如嵌入层、输出头、归一化操作等)的高精度 (BF16 或 FP32), 以确保训练的数值稳定性。
-在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法,
成功实现了高效的 FP8 精度训练。
-FP8 精度训练不仅显著提高了训练速度和效率,还保持了模型的高性能。
DeepSeek 的技术特点
DeepSeek 的技术特点
关键技术——双向流水线 (DualPipe)
- 核 心 思 想 是 将 模 型 的 不 同 层 分 配 到 不 同 的GPU 上 进 行 并 行 训 练 , 并 通 过 双 向 流 水 线 调
度 来 同 时 处
理 正 向 传 播 和 反 向 传 播 。
-具 体 来 说 , 它 允 许 从 流 水 线 的 两 端 同 时 输 入 微 批 次 (micro-batches), 从 而 最 大 化 地 利 用 计 算
资 源 并 减 少 通 信 开 销 , 该 方 法 实 现 了 高 效 的 模 型 训 练 , 为 大 规 模 分 布 式 训 练 提 供 了 强
大 的 支 持 。
■ DeepSeek 的技术特点
关键技术——跨节点通信技术
-通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未
来硬件设计的建议,显著提高了跨节点通信的效率。
-不仅减少了通信开销,还提高了整体训练效率,为大规模分布式训练提供了强大的支持。
DeepSeek-R1 和DeepSeek-R1-Zero 的基本情况
-DeepSeek-R1 和DeepSeek-R1-Zero 都是开源推理大模型。
- 两者均基于DeepSeek-V3 的混合专家 (MoE) 架构,总参数量为6710亿,但每个推理请求仅激活约10 的参
数以降低计算成本。
- 主 要 区 别 :
· R1-Zero: 完全依赖强化学习 (Reinforcement Learning,RL)训练,跳过监督微调 (Supervised Fine-Tuning,
SFT), 通过组相对策略优化(Group Relative Policy Optimization,GRPO)算法和组内竞争机制优化推理能力,主
要目的是探索和验证纯RL 的可行性和潜力。R1-Zero除了证明纯强化学习的有效性,亦有“顿悟”现象的出现,即在模型
自发的推理策略博弈中学习到的新的、更有效的推理策略。
· R1: 在R1-Zero基础上引入冷启动数据和多阶段优化,结合监督微调 (SFT) 与强化学习 (RL), 提升输出的可读性和
稳定性,优化输出质量,对性能和实用性进行平衡,适用于实际场景。
DeepSeek 的技术特点
精调
(监督学习)
跳过了监督微调 (SFT) 的过程,直接将强化学习 (RL) 应用于基础模型,
从而发展出DeepSeek-R1-Zero (会推理,且出现“顿悟时刻”)
但R1 Zero有些"毛病",比如可读性差、语言混合等,所以团队开始探索R1
为了解决R1-Zero的“毛病”,DeepSeek 团队加了两招:
冷启动数据: 先给DeepSeek V3 Base模型看几千条人工写的高质量推理示例(比如详细的解题步骤),让它“开窍”;
多阶段训练:先用冷启动数据微调模型,再用强化学习进一步优化,最后结合其他任务的数据(比如写作、翻译)再训练,让模型既聪明
又“ 会说人话” 。
DeepSeek-R1 和DeepSeek-R1-Zero 的基本情况
DeepSeek V3 Base DeepSeek R1 Zero DeepSeek R1
DeepSeek 的技术特点
图片来源:《DeepSeek自学手册》
精调
(强化学习)
R1 R1-Zero
主要特点
在R1-Zero基础上引入冷启动数据和多阶
段优化,结合监督微调(SFT)与强化学
习( RL)
完全依赖强化学习(RL)训练,
跳过监督微调(SFT)
推理能力 稳定且全面 潜力大但波动性强
可读性 语言流畅、结构清晰 语言混杂、重复率高
泛化性 覆盖通用任务(问答、写作等) 局限于数学、代码等强验证领域
训练效率 冷启动加速训练,避免局部最优 收敛时间长(无先验引导)
应用场景 实际场景 技术验证
DeepSeek 的技术特点
DeepSeek-R1 和DeepSeek-R1-Zero 的对比
DeepSeek-R1 OpenAl o1
AIME 2024 % %
MATH-500 % %
Codeforces 2029 2061
MMLU % %
DeepSeek-R1 的性能表现
-DeepSeek-R1 作为开源模型,在数学、代码、自然语言推理等任务上,性能能够比肩OpenAl01 正式版。
-在国外大模型排名榜Chatbot Arena上 ,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与
OpenAl 的ChatGPT-40 最新版并列,并在风格控制类模型 (StyleCtrl) 分类中与OpenAl 的01模型并列第一。
DeepSeek 的技术特点
基准测试成绩对比
DeepSeek-R1 的技术特点
- 强 化 学 习 :DeepSeek-R1的训练方法是最大亮点。通过重新设计训练流程、以少量SFT数据+多轮RL强化学习的办法
(基础 模型 →RL→微调迭代),既提高了模型准确性,也显著降低了内存占用和计算开销。
-奖励机制设计: DeepSeek-R1采用了准确性奖励、格式奖励、语言一致性奖励等机制,确保了模型在推理任务中的高效性和
可读性。
- 训练模板与结构化输出:DeepSeek-R1 采用“思考-回答”双阶段训练模板,模型需先展示推理过程,再提供最终答案,推理
过程可追踪,为奖励计算提供了明确基准。
- 蒸馏技术:DeepSeek-R1 遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。 DeepSeek-R1 系列提供至
70B 参数蒸馏版本,其中7B模型经INT4 量化后仅需2-4GB 存储,完美适配终端设备内存限制。DeepSeek 在开源R1-Zero和
R1两个660B模型的同时,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上可以对标OpenAl 01-mini。
- 开 放 思 维 链(CoT,Chain of Thought) 输出:DeepSeek-R1 的动态思维链,支持数万字级内部推理过程,解决复杂问题
时能自主拆解步骤并验证逻辑,输出可解释性更强的结果。DeepSeek-R1 通过API对用户开放思维链输出。
DeepSeek 的技术特点
■ DeepSeek@@I)?@,•g
o %@@&—••@@@@ (Knowledge Distillation)
- \I'eZ&?—f4'8":/&5ñ+MIL (bib\ZE) as0i%Ys€'J•9tBI8rI9tL (?1tBB› BB:It.
* " J J •
DeepSeek 的技术特点
总结——DeepSeek大模型的核心特点
高性能+ 低成本+ 开源+ 国产
PART DeepSeekîËñŽ@åËśé
市场反馈
- 1月27日, DeepSeek 引发了股票市场的剧烈波动。Al概念股大跌,欧美科技股市值蒸发万
亿 美元,欧美芯片制造商以及为Al和数据中心供电的全产业链公司齐跌。其中,英伟达收盘暴
跌
,市值一个交易日蒸发亿美元(约合人民币万亿元),规模创美股史上最大。
- 截止1月31日, DeepSeek App上线仅21天,日活跃用户DAU2215万,达ChatGPT日活用户
的 41 . 6 , 超过豆包( 1695 万)。
- 截至2月2日, DeepSeek App迅速攀升至140个国家的苹果App Store下载排行榜首位,并在美国
的Android Play Store中同样占据榜首位置。
DeepSeek 造成的影响
大佬表态
-美国总统特朗普: DeepSeek给我们(科技)行业敲响了警钟,我们应为了赢得胜利而努力竞争。
- 微 软CEO 纳德拉:在财报电话会议上称DeepSeek “有一些真的创新”,并透露R1 模型已经可以通过
微 软的Al平台获取。
-MetaCEO 扎克伯格:Meta将DeepSeek视为竞争对手并正在学习。
-ASML CEO:DeepSeek这样的低成本模型将带来更多而非更少的Al芯片需求。
-Anthropic 创始人:DeepSeek-V3是真正的创新所在。
-人工智能专家吴恩达:中美AlI差距正在迅速缩小。
-OpenAI CEO 山姆奥特曼:“在开源上,OpenAl 站在了历史的错误一方”。
- 《黑神话:悟空》的制作人冯骥:这是一项“国运级别的科技成果”。
DeepSeek 造成的影响
重要影响1:改变了Al技术的发展方向
-DeepSeek 通过算法创新和系统工程优化,实现了与国际顶尖模型相当的性能,同时大幅降低了
训练成本。
-算力至上的传统认知被彻底打破。训练Al大模型,并不只有算力堆砌这一条路。
-算法创新的重要性提升,不再仅仅聚焦于算力创新和数据创新。
-通过算法的优化,可以实现AI平权。
DeepSeek 造成的影响
重要影响2:改变了全球Al进展的格局
-DeepSeek 大模型的出现,对美国的人工智能领导地位构成威胁,不仅引发了OpenAl 、Meta 、
谷 歌等众多大模型厂商恐慌,还引发了英伟达等Al芯片企业的股价大跌。
-DeepSeek 表明中国与美国在AI大模型领域的差距正在快速缩小,甚至在某些方面实现了超越。
-DeepSeek 大幅提升了国产AI产业链(芯片、终端、大模型、应用)的信心。
-DeepSeek
-DeepSeek
进一步引发了资本市场对中国科技力量的重新评估,也影响了对中概股的重新估值。
的成功,对其它发展中国家也有鼓舞作用,有助于Al全球化普及和应用。
DeepSeek 造成的影响
重要影响3:全面加速Al端侧应用的落地
-大模型的价格正在快速下降,极大推动了AI在端侧的应用普及。
-Al 推理首次真正突破硬件限制,部署成本从高端GPU 扩展至消费级GPU。
-大模型开始具有低参数量的特征,加上蒸馏技术的崛起,为本地化部署到Al终端运行提供了可能。
-本地部署为用户提供了更高的灵活性和隐私保护,尤其适合对数据安全有较高要求的场景,有利
于Al的进一步普及。
-算力需求会从预训练端转移到推理端。推理需求的持续增长,会带动端侧Al算力芯片、终端等产
业的增长浪潮。
-Al 端侧应用普及,会进一步推动各行各业的效率提升,加速催生了新的商业模式和产业形态。
-垂直行业模型有可能迎来一波发展高潮。
DeepSeek 造成的影响
重要影响4:对Al算力供给关系造成冲击
- 短期来看, 市场和公众普遍认为DeepSeek 的出现, 降低了Al大模型对智算算力的需求( 英伟
达 股价下跌的原因)。
- 但事实上, 从长期来看, 根据杰文斯Jevons悖论( 第一次工业革命期间, 蒸汽机效率的提升,
使 得市场上煤炭的消耗总量反而增加了),整个社会随着Al应用的加速普及,对算力的总需求
反而 会增加。
DeepSeek 造成的影响
DeepSeek造成的影响
重要影响5:引领开源力量的大跨步发展
-DeepSeek 是开源大模型的一次重大胜利。
-DeepSeek 的成功,吸引了大量开发者参与改进和研究,推动了开源社区的发展。
-DeekSeek 对闭源模型市场形成了冲击,迫使闭源厂商降低价格或提升性能以维持市场份额。
云厂商全面接入DeepSeek
-华为云:2月1日,华为云联合硅基流动首发并上线基于昇腾云服务的 DeepSeek R1N3推理服务。
-腾讯云:2月3日,腾讯云宣布 DeepSeek-R1 大模型一键部署至腾讯云 [HAI, 高性能应用服务」上。
- 阿里云:2月3日,阿里云宣布阿里云PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。
-百度智能云:2月3日,百度智能云宣布百度智能云千帆平台已正式上架 DeepSeek-R1 和 DeepSeek-V3 模型。
- 火山引擎:2月4日,支持V3/R1等不同尺寸的DeepSeek 开源模型,可在火山引擎机器学习平台veMLP 中部署,也可
在 火山方舟中调用。
-金山云:2月8日,已正式发布基于DeepSeek-R1 蒸馏模型的多种镜像服务,用户可在公有云 GPU 云服务器、GPU 裸金属
服务器分别搭建推理服务。
- 微 软Azure:1 月29日,,微软也宣布DeepSeek R1已 在Azure Al Foundry和 GitHub 上提供,开发者将很快就能在
Copilot+PC 上本地运行 DeepSeek 的 R1 精简模型,以及在Windows 上庞大的GPU 生态系统中运行。
- 亚 马 逊AWS:1 月30日,亚马逊表示, DeepSeek-R1 模型现在已可以在Amazon Web Services 上使用。
DeepSeek 造成的影响
运营商全面接入DeepSeek
- 中 国 电 信 :天翼云自研“息壤”智算平台完成国产算力与DeepSeek-R1N3 系列大模型的深度适配优化,成
为国内首家实现DeepSeek 模型全栈国产化推理服务落地的运营商级云平台;
- 中 国 移 动 :移动云全面上线DeepSeek, 全版本覆盖、全尺寸适配、全功能畅用。现已全面兼容DeepSeek 所
有主流版本,灵活应对多样化业务场景需求;
- 中 国 联 通 :联通云与DeepSeek 实现多场景深度对接。联通云已基于“星罗”平台实现多规格DeepSeek-
R1 模型适配,并在全国270多个骨干云池预部署,接入多种产品场景。
DeepSeek 造成的影响
生态链适配
- 目前已有多家国产Al算力厂商宣布适配DeepSeek, 比如华为昇腾、壁仞科技、天数智芯、摩尔线程、沐曦等。
-2月4日,天数智芯与Gitee Al联合发布消息,在双方的高效协作下,仅用时一天,便成功完成了与DeepSeek
R1的适配工作,并且已正式上线多款大模型服务。
-2月4日,华为表示,潞晨科技携手昇腾,联合发布基于昇腾算力的DeepSeek R1系列推理API及云镜像服务。
-2月6日,吉利汽车与DeepSeek完成模型融合,计划通过蒸馏训练优化车载Al功能(如意图理解、主动服务
等),并计划在智能座舱、自动驾驶等领域应用。
-2月7日,岚图汽车则宣布首款量产车型“知音”将搭载DeepSeek 模型,支持Al多语义指令识别等功能。
-2月16日,百度搜索和文心智能体平台宣布将全面接入DeepSeek 和文心大模型最新的深度搜索功能。
-2月17日,有媒体发现,微信已为搜索功能接入DeepSeek-R1 模型,处于小范围灰度测试中。
一 ....
DeepSeek 造成的影响
PART DeepSeek@@@ŒïŽ
DeepSeek 的使用入口
- 官 方
·官 网 :
· 官 方API平台:
- 第 三 方
· 各大应用商店,下载官方App
· 第三方工具接入
- 自己搭建部署
·私有化部署(本地部署)
DeepSeek 的使用方法
■ DeepSeek@@@/2@
o DeepSeek
- @@ : DeepSeek@AI@@@@, D R A G (@@@@ ) . @ DeepSeek @gg@ tEIi2 IIE
sa (xxezo24Y7» zêtass«nsa1sygrna2a«r°aa.
@@ DeepSeek, @@ gJ{ !
场景 细分场景 再细分场景
文本生成 文本创作 文章写作、诗歌创作,文案生成,剧本设计.....
摘要与改写 生成论文摘要,外文翻译,文本风格转换 …...
结构化生成 生成表格,代码注释 ….
自然语言处理 语义分析 意图识别,信息提取,情感分析 …...
文本分类 文章分类,标签生成,垃圾内容监测……
知识推理 回答问题,原因分析,知识推理 …....
代码编程 代码生产 代码生成,代码补全 ….
代码调试 代码错误分析,代码优化提示.....
图表绘制 图表绘制 生成SVG矢量图
DeepSeek 的使用方法
DeepSeek 的日常应用场景
DeepSeek-V3 与DeepSeek-R1 不是多模态模型,无图像生成能力。
但是可以生成SVG矢量图、绘制简单图表。
-推理模型:简洁指令,明确任务目标和需求,信任其内化能力,避免启发式提问。
-通用模型:需要进行推理步骤引导,需要补偿性引导,不能过度信任。
■ DeepSeek 的使用方法
提示语 (Prompt)
版本 参数量 CPU 内存 显卡 显存需求 特点 适用场景
任意四核处理器 8GB 无需GPU 通常4GB左右 轻量级模型,运行速度快,性能有限 简单任务
DeepSeek-R1-7B 7B Ryzen 7或更高 16GB RTX 3060(12GB)或更高 推荐8GB+ 平衡型模型,性能较好,硬件需求适中 多数常见任务
DeepSeek-R1-8B 8B 8核以上 16GB+
NVIDIA RTX 3060或AMD
Radeon RX6750 XT
正常8-10GB 性能略强于7B模型 需要更高精度的任务
DeepSeek-R1-14B 14B i9-13900K或更高 32GB RTX 4090(24GB)或更高
12GB以上,流畅运行建议
16GB及以上
高性能模型
复杂任务(数学推理、代码
生成等)
DeepSeek-R1-32B 32B
Xeon 8核+128GB或
更高
64GB
2-4张A10080GB或更高
NVIDIA RTX409024GB
16GB以上,实际测试约21GB 专业级模型,性能强大 研究、高精度任务
DeepSeek-R1-70B 70B
Xeon 8核+128GB或
更高
128GB 8+张A100/H100,显存≥80GB/卡
24GB以上,流畅运行至少
40GB以上
顶级模型,性能最强 大规模计算、高复杂度任
务
DeepSeek-R1-671B 671B
64核以上(服务器
集群)
512GB+
多节点分布式训练(如8x
A100/H100)
1342GB 超大规模模型,性能卓越,推理速度快
前沿科学研究、复杂商业
决策分析
DeepSeek 的使用方法
本地化部署配置要求