智库文档所有分类

DeepSeek基础知识.ppt

下载

来自星星的小胖子

42页 | 1.11MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

CÏï'NTENT S DeepSee DeepSee DeepSee DeepSee *y•, PART DeepSeek@ÿț@Șğźğ , 什么是DeepSeek - DeepSeek 公司：杭州深度求索人工智能基础技术研究有限公司。 -DeepSeek 大模型：DeepSeek 公司推出的一系列大模型的统称。 DeepSeek 的背景知识 DeepSeek 公司 -成立时间：2023年7月； - 创始人：梁文峰( 幻方量化的联合创始人 ); -所在城市：浙江省杭州市拱墅区； -公司口号：探索未至之境；技术的研发和应用；-公司业务方向：专注于通用人工智能 (AGI) - “杭州六小龙”之一； -团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。 DeepSeek 的背景知识梁文峰 - 出生年份：1985年； -籍贯：广东省湛江市吴川市覃巴镇米历岭村； -学历背景： ·2002年，考入浙江大学电子工程系电子信息工程专业； ·2007年，考上浙江大学信息与通信工程专业研究生；2010年，获得硕士学位； -工作背景： ·2008年，开始带领团队使用机器学习等技术探索量化交易； · 2015年，创立了幻方科技(杭州幻方科技有限公司); ·2019年，其资金管理规模突破百亿元； ·2023年7月，幻方量化宣布成立大模型公司DeepSeek, 进入通用人工智能 (AGI) 领域。 DeepSeek 的背景知识 DeepSeek 大模型发布时间表 -2024年01月05日，正式发布首个大模型DeepSeek LLM; -2024年01月25日，正式发布DeepSeek-Coder, 由一系列代码语言模型组成； -2024年02月05日，正式发布DeepSeek-Math, 以 DeepSeek-Coder 为基础； -2024年03月11日，正式发布DeepSeek-VL, 是一个开源的视觉-语言 (VL) 模型； -2024年05月07日，正式发布第二代开源MoE 模型DeepSeek-V2; -2024年06月17日，正式发布DeepSeek-Coder-V2, 支持的编程语言从86种扩展到338种； -2024年09月06日，合并DeepSeek-Coder-V2 和DeepSeek-V2-Chat 两个模型，升级推出; -2024年11月20日，正式发布DeepSeek-R1-Lite预览版； -2024年12月13日，正式发布DeepSeek-VL2, 用于高级多模态理解的专家混合视觉语言模型； -2024年12月26日，正式发布DeepSeek-V3, 并同步开源模型权重； -2025年01月20日，正式发布DeepSeek-R1、DeepSeek-R1-Zero, 并同步开源模型权重。 DeepSeek 的背景知识掀起本次DeepSeek热潮的，主要是—— DeepSeek-V3 DeepSeek-R1 DeepSeek-R1-Zero DeepSeek的背景知识 PART DeepSeek@ț§IgțȘ„•<. , DeepSeek-V3 的基本情况 -DeepSeek-V3 是一款高性能、低成本的开源通用语言模型。 - 适用场景：高性能对话、复杂任务处理和高精度场景，例如长文档分析、多模态推理、科研计算等。 - 设计目标：进一步提升开源模型的能力，缩小与闭源模型的差距，同时保持训练成本的经济性。 -参数规模：共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。 - 训练成本：总计万H800 GPU小时 (Meta 的需要3080万GPU小时)。假设每小时2美元，费用约万美元(约为GPT-4的二十分之一)。 -价格费用：模型API服务定价为每百万输入tokens 元( 缓存命中) / 2 元( 缓存未命中) , 每百万输出 tokens 8元。在性能实现领先的同时，定价大幅低于市面上所有模型，性价比优势明显。 DeepSeek 的技术特点 DeepSeek-V3 的性能表现 - 在数学推理 (GSM8K)、代码生成 (HumanEval)、常识推理 (MMLU) 等基准测试中达到领先水平。 -在公开评测集(如 MMLU、BBH、DROP) 中表现优异，尤其在复杂推理任务上接近或超越GPT-4 Turbo等顶尖模型。 -多项评测成绩超越了-72B 和 - 405B GPT-40 以及-Sonnet不相上下。 - 在知识类任务 ( MMLU, MMLU- Pro, GPQA, SimpleQA) 此前表现最好的模型-Sonnet-1022(Anthropic 等其它开源模型，并在性能上和世界顶尖的闭源模型上的水平相比前代显著提升，接近公司于2 0 2 4 年1 0 月发布) 。 -通过算法和工程上的创新，将生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS, 相比模型实现了3倍的提升，可以带来更加流畅的使用体验。 DeepSeek 的技术特点 DeepSeek-V3 的技术特点 - 采用了多头潜在注意力 (MLA) 和DeepSeekMoE 架构，实现高效推理，提升成本效益。 -开创了一种无辅助损失 (auxiliary-loss-free) 策略用于负载平衡，并设置了多token预测训练目标，以提升性能。 -在训练效率上，运用了FP8 混合精度训练，让显存得到了优化，极大提升了计算性能与训练稳定性。 -支持千卡级训练，满足超大规模集群分布式训练需求。 - 采用DualPipe (双向流水线)算法和通信优化，实现计算-通信近乎完全重叠。 -训练分为三个阶段：预训练 (Pre-Training)、长上下文扩展 (Long Context Extension) 和后训练 (Post- Training)。 -推理环节通过独特的P/D分离策略和NanoFlow 的双流推理模式，提升了系统的资源利用率。 DeepSeek 的技术特点 ■ DeepSeek@)gI)t¿¿„•*., o %@@?g Ï@,<,@@RÏjj (MoE) OOOOOOOO OutputÜddenh, Router Top-fft Routed Expert Shared Expert O O O O O O O O input Hidden u\ % @ : DeepSeekt Q ■ DeepSeek@}gI)t(g„•*., a %@@gt—@§$@]gfg@3g (MLA) ‹̂ 1.°.Iñ03tBZA (%B.°.i3dW'*iZ/3d7) ZPOIt4tIñB2iZtZ8IZA. Output Hidden u, o o o o @@ Cached During Inference o o o o IVtulti-Head Atténtion Latent cK* @ @ - @i iOO OO Latent c,’ Input Hidden h‹ OOOO OOOO @U @ : DeepSeekj @ a DeepSeek@ØI}č@,•ÿ o % @ @ Ø @Ø@@@I} (MTP) @ : DeepSeekìŚQ 关键技术——FP8 精度训练 -DeepSeek-V3 将大部分计算密集型操作(如矩阵乘法)使用FP8 精度进行，同时保留一些关键操作(如嵌入层、输出头、归一化操作等)的高精度 (BF16 或 FP32), 以确保训练的数值稳定性。 -在此基础上，进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法，成功实现了高效的 FP8 精度训练。 -FP8 精度训练不仅显著提高了训练速度和效率，还保持了模型的高性能。 DeepSeek 的技术特点 DeepSeek 的技术特点关键技术——双向流水线 (DualPipe) - 核心思想是将模型的不同层分配到不同的GPU 上进行并行训练，并通过双向流水线调度来同时处理正向传播和反向传播。 -具体来说，它允许从流水线的两端同时输入微批次 (micro-batches), 从而最大化地利用计算资源并减少通信开销，该方法实现了高效的模型训练，为大规模分布式训练提供了强大的支持。 ■ DeepSeek 的技术特点关键技术——跨节点通信技术 -通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未来硬件设计的建议，显著提高了跨节点通信的效率。 -不仅减少了通信开销，还提高了整体训练效率，为大规模分布式训练提供了强大的支持。 DeepSeek-R1 和DeepSeek-R1-Zero 的基本情况 -DeepSeek-R1 和DeepSeek-R1-Zero 都是开源推理大模型。 - 两者均基于DeepSeek-V3 的混合专家 (MoE) 架构，总参数量为6710亿，但每个推理请求仅激活约10 的参数以降低计算成本。 - 主要区别： · R1-Zero: 完全依赖强化学习 (Reinforcement Learning,RL)训练，跳过监督微调 (Supervised Fine-Tuning, SFT), 通过组相对策略优化(Group Relative Policy Optimization,GRPO)算法和组内竞争机制优化推理能力，主要目的是探索和验证纯RL 的可行性和潜力。R1-Zero除了证明纯强化学习的有效性，亦有“顿悟”现象的出现，即在模型自发的推理策略博弈中学习到的新的、更有效的推理策略。 · R1: 在R1-Zero基础上引入冷启动数据和多阶段优化，结合监督微调 (SFT) 与强化学习 (RL), 提升输出的可读性和稳定性，优化输出质量，对性能和实用性进行平衡，适用于实际场景。 DeepSeek 的技术特点精调 (监督学习) 跳过了监督微调 (SFT) 的过程，直接将强化学习 (RL) 应用于基础模型，从而发展出DeepSeek-R1-Zero (会推理，且出现“顿悟时刻”) 但R1 Zero有些"毛病",比如可读性差、语言混合等，所以团队开始探索R1 为了解决R1-Zero的“毛病”,DeepSeek 团队加了两招：冷启动数据：先给DeepSeek V3 Base模型看几千条人工写的高质量推理示例(比如详细的解题步骤),让它“开窍”; 多阶段训练：先用冷启动数据微调模型，再用强化学习进一步优化，最后结合其他任务的数据(比如写作、翻译)再训练，让模型既聪明又“ 会说人话” 。 DeepSeek-R1 和DeepSeek-R1-Zero 的基本情况 DeepSeek V3 Base DeepSeek R1 Zero DeepSeek R1 DeepSeek 的技术特点图片来源：《DeepSeek自学手册》精调 (强化学习) R1 R1-Zero 主要特点在R1-Zero基础上引入冷启动数据和多阶段优化，结合监督微调(SFT)与强化学习( RL) 完全依赖强化学习(RL)训练，跳过监督微调(SFT) 推理能力稳定且全面潜力大但波动性强可读性语言流畅、结构清晰语言混杂、重复率高泛化性覆盖通用任务(问答、写作等) 局限于数学、代码等强验证领域训练效率冷启动加速训练，避免局部最优收敛时间长(无先验引导) 应用场景实际场景技术验证 DeepSeek 的技术特点 DeepSeek-R1 和DeepSeek-R1-Zero 的对比 DeepSeek-R1 OpenAl o1 AIME 2024 % % MATH-500 % % Codeforces 2029 2061 MMLU % % DeepSeek-R1 的性能表现 -DeepSeek-R1 作为开源模型，在数学、代码、自然语言推理等任务上，性能能够比肩OpenAl01 正式版。 -在国外大模型排名榜Chatbot Arena上，DeepSeek-R1的基准测试排名已经升至全类别大模型第三，与 OpenAl 的ChatGPT-40 最新版并列，并在风格控制类模型 (StyleCtrl) 分类中与OpenAl 的01模型并列第一。 DeepSeek 的技术特点基准测试成绩对比 DeepSeek-R1 的技术特点 - 强化学习：DeepSeek-R1的训练方法是最大亮点。通过重新设计训练流程、以少量SFT数据+多轮RL强化学习的办法 (基础模型 →RL→微调迭代),既提高了模型准确性，也显著降低了内存占用和计算开销。 -奖励机制设计： DeepSeek-R1采用了准确性奖励、格式奖励、语言一致性奖励等机制，确保了模型在推理任务中的高效性和可读性。 - 训练模板与结构化输出：DeepSeek-R1 采用“思考-回答”双阶段训练模板，模型需先展示推理过程，再提供最终答案，推理过程可追踪，为奖励计算提供了明确基准。 - 蒸馏技术：DeepSeek-R1 遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。 DeepSeek-R1 系列提供至 70B 参数蒸馏版本，其中7B模型经INT4 量化后仅需2-4GB 存储，完美适配终端设备内存限制。DeepSeek 在开源R1-Zero和 R1两个660B模型的同时，蒸馏了6个小模型开源给社区，其中32B和70B模型在多项能力上可以对标OpenAl 01-mini。 - 开放思维链(CoT,Chain of Thought) 输出：DeepSeek-R1 的动态思维链，支持数万字级内部推理过程，解决复杂问题时能自主拆解步骤并验证逻辑，输出可解释性更强的结果。DeepSeek-R1 通过API对用户开放思维链输出。 DeepSeek 的技术特点 ■ DeepSeek@@I)?@,•g o %@@&—••@@@@ (Knowledge Distillation) - \I'eZ&?—f4'8":/&5ñ+MIL (bib\ZE) as0i%Ys€'J•9tBI8rI9tL (?1tBB› BB:It. * " J J • DeepSeek 的技术特点总结——DeepSeek大模型的核心特点高性能+ 低成本+ 开源+ 国产 PART DeepSeekîËñŽ@åËśé 市场反馈 - 1月27日， DeepSeek 引发了股票市场的剧烈波动。Al概念股大跌，欧美科技股市值蒸发万亿美元，欧美芯片制造商以及为Al和数据中心供电的全产业链公司齐跌。其中，英伟达收盘暴跌 ,市值一个交易日蒸发亿美元(约合人民币万亿元),规模创美股史上最大。 - 截止1月31日， DeepSeek App上线仅21天，日活跃用户DAU2215万，达ChatGPT日活用户的 41 . 6 , 超过豆包( 1695 万)。 - 截至2月2日， DeepSeek App迅速攀升至140个国家的苹果App Store下载排行榜首位，并在美国的Android Play Store中同样占据榜首位置。 DeepSeek 造成的影响大佬表态 -美国总统特朗普： DeepSeek给我们(科技)行业敲响了警钟，我们应为了赢得胜利而努力竞争。 - 微软CEO 纳德拉：在财报电话会议上称DeepSeek “有一些真的创新”,并透露R1 模型已经可以通过微软的Al平台获取。 -MetaCEO 扎克伯格：Meta将DeepSeek视为竞争对手并正在学习。 -ASML CEO:DeepSeek这样的低成本模型将带来更多而非更少的Al芯片需求。 -Anthropic 创始人：DeepSeek-V3是真正的创新所在。 -人工智能专家吴恩达：中美AlI差距正在迅速缩小。 -OpenAI CEO 山姆奥特曼：“在开源上，OpenAl 站在了历史的错误一方”。 - 《黑神话：悟空》的制作人冯骥：这是一项“国运级别的科技成果”。 DeepSeek 造成的影响重要影响1:改变了Al技术的发展方向 -DeepSeek 通过算法创新和系统工程优化，实现了与国际顶尖模型相当的性能，同时大幅降低了训练成本。 -算力至上的传统认知被彻底打破。训练Al大模型，并不只有算力堆砌这一条路。 -算法创新的重要性提升，不再仅仅聚焦于算力创新和数据创新。 -通过算法的优化，可以实现AI平权。 DeepSeek 造成的影响重要影响2:改变了全球Al进展的格局 -DeepSeek 大模型的出现，对美国的人工智能领导地位构成威胁，不仅引发了OpenAl 、Meta 、谷歌等众多大模型厂商恐慌，还引发了英伟达等Al芯片企业的股价大跌。 -DeepSeek 表明中国与美国在AI大模型领域的差距正在快速缩小，甚至在某些方面实现了超越。 -DeepSeek 大幅提升了国产AI产业链(芯片、终端、大模型、应用)的信心。 -DeepSeek -DeepSeek 进一步引发了资本市场对中国科技力量的重新评估，也影响了对中概股的重新估值。的成功，对其它发展中国家也有鼓舞作用，有助于Al全球化普及和应用。 DeepSeek 造成的影响重要影响3:全面加速Al端侧应用的落地 -大模型的价格正在快速下降，极大推动了AI在端侧的应用普及。 -Al 推理首次真正突破硬件限制，部署成本从高端GPU 扩展至消费级GPU。 -大模型开始具有低参数量的特征，加上蒸馏技术的崛起，为本地化部署到Al终端运行提供了可能。 -本地部署为用户提供了更高的灵活性和隐私保护，尤其适合对数据安全有较高要求的场景，有利于Al的进一步普及。 -算力需求会从预训练端转移到推理端。推理需求的持续增长，会带动端侧Al算力芯片、终端等产业的增长浪潮。 -Al 端侧应用普及，会进一步推动各行各业的效率提升，加速催生了新的商业模式和产业形态。 -垂直行业模型有可能迎来一波发展高潮。 DeepSeek 造成的影响重要影响4:对Al算力供给关系造成冲击 - 短期来看，市场和公众普遍认为DeepSeek 的出现，降低了Al大模型对智算算力的需求( 英伟达股价下跌的原因)。 - 但事实上，从长期来看，根据杰文斯Jevons悖论( 第一次工业革命期间，蒸汽机效率的提升，使得市场上煤炭的消耗总量反而增加了),整个社会随着Al应用的加速普及，对算力的总需求反而会增加。 DeepSeek 造成的影响 DeepSeek造成的影响重要影响5:引领开源力量的大跨步发展 -DeepSeek 是开源大模型的一次重大胜利。 -DeepSeek 的成功，吸引了大量开发者参与改进和研究，推动了开源社区的发展。 -DeekSeek 对闭源模型市场形成了冲击，迫使闭源厂商降低价格或提升性能以维持市场份额。云厂商全面接入DeepSeek -华为云：2月1日，华为云联合硅基流动首发并上线基于昇腾云服务的 DeepSeek R1N3推理服务。 -腾讯云：2月3日，腾讯云宣布 DeepSeek-R1 大模型一键部署至腾讯云 [HAI, 高性能应用服务」上。 - 阿里云：2月3日，阿里云宣布阿里云PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。 -百度智能云：2月3日，百度智能云宣布百度智能云千帆平台已正式上架 DeepSeek-R1 和 DeepSeek-V3 模型。 - 火山引擎：2月4日，支持V3/R1等不同尺寸的DeepSeek 开源模型，可在火山引擎机器学习平台veMLP 中部署，也可在火山方舟中调用。 -金山云：2月8日，已正式发布基于DeepSeek-R1 蒸馏模型的多种镜像服务，用户可在公有云 GPU 云服务器、GPU 裸金属服务器分别搭建推理服务。 - 微软Azure:1 月29日，,微软也宣布DeepSeek R1已在Azure Al Foundry和 GitHub 上提供，开发者将很快就能在 Copilot+PC 上本地运行 DeepSeek 的 R1 精简模型，以及在Windows 上庞大的GPU 生态系统中运行。 - 亚马逊AWS:1 月30日，亚马逊表示， DeepSeek-R1 模型现在已可以在Amazon Web Services 上使用。 DeepSeek 造成的影响运营商全面接入DeepSeek - 中国电信：天翼云自研“息壤”智算平台完成国产算力与DeepSeek-R1N3 系列大模型的深度适配优化，成为国内首家实现DeepSeek 模型全栈国产化推理服务落地的运营商级云平台； - 中国移动：移动云全面上线DeepSeek, 全版本覆盖、全尺寸适配、全功能畅用。现已全面兼容DeepSeek 所有主流版本，灵活应对多样化业务场景需求； - 中国联通：联通云与DeepSeek 实现多场景深度对接。联通云已基于“星罗”平台实现多规格DeepSeek- R1 模型适配，并在全国270多个骨干云池预部署，接入多种产品场景。 DeepSeek 造成的影响生态链适配 - 目前已有多家国产Al算力厂商宣布适配DeepSeek, 比如华为昇腾、壁仞科技、天数智芯、摩尔线程、沐曦等。 -2月4日，天数智芯与Gitee Al联合发布消息，在双方的高效协作下，仅用时一天，便成功完成了与DeepSeek R1的适配工作，并且已正式上线多款大模型服务。 -2月4日，华为表示，潞晨科技携手昇腾，联合发布基于昇腾算力的DeepSeek R1系列推理API及云镜像服务。 -2月6日，吉利汽车与DeepSeek完成模型融合，计划通过蒸馏训练优化车载Al功能(如意图理解、主动服务等),并计划在智能座舱、自动驾驶等领域应用。 -2月7日，岚图汽车则宣布首款量产车型“知音”将搭载DeepSeek 模型，支持Al多语义指令识别等功能。 -2月16日，百度搜索和文心智能体平台宣布将全面接入DeepSeek 和文心大模型最新的深度搜索功能。 -2月17日，有媒体发现，微信已为搜索功能接入DeepSeek-R1 模型，处于小范围灰度测试中。一 .... DeepSeek 造成的影响 PART DeepSeek@@@ŒïŽ DeepSeek 的使用入口 - 官方 ·官网： · 官方API平台： - 第三方 · 各大应用商店，下载官方App · 第三方工具接入 - 自己搭建部署 ·私有化部署(本地部署) DeepSeek 的使用方法 ■ DeepSeek@@@/2@ o DeepSeek - @@ : DeepSeek@AI@@@@, D R A G (@@@@ ) . @ DeepSeek @gg@ tEIi2 IIE sa (xxezo24Y7» zêtass«nsa1sygrna2a«r°aa. @@ DeepSeek, @@ gJ{ ! 场景细分场景再细分场景文本生成文本创作文章写作、诗歌创作，文案生成，剧本设计..... 摘要与改写生成论文摘要，外文翻译，文本风格转换 …... 结构化生成生成表格，代码注释 …. 自然语言处理语义分析意图识别，信息提取，情感分析 …... 文本分类文章分类，标签生成，垃圾内容监测…… 知识推理回答问题，原因分析，知识推理 ….... 代码编程代码生产代码生成，代码补全 …. 代码调试代码错误分析，代码优化提示..... 图表绘制图表绘制生成SVG矢量图 DeepSeek 的使用方法 DeepSeek 的日常应用场景 DeepSeek-V3 与DeepSeek-R1 不是多模态模型，无图像生成能力。但是可以生成SVG矢量图、绘制简单图表。 -推理模型：简洁指令，明确任务目标和需求，信任其内化能力，避免启发式提问。 -通用模型：需要进行推理步骤引导，需要补偿性引导，不能过度信任。 ■ DeepSeek 的使用方法提示语 (Prompt) 版本参数量 CPU 内存显卡显存需求特点适用场景任意四核处理器 8GB 无需GPU 通常4GB左右轻量级模型，运行速度快，性能有限简单任务 DeepSeek-R1-7B 7B Ryzen 7或更高 16GB RTX 3060(12GB)或更高推荐8GB+ 平衡型模型，性能较好，硬件需求适中多数常见任务 DeepSeek-R1-8B 8B 8核以上 16GB+ NVIDIA RTX 3060或AMD Radeon RX6750 XT 正常8-10GB 性能略强于7B模型需要更高精度的任务 DeepSeek-R1-14B 14B i9-13900K或更高 32GB RTX 4090(24GB)或更高 12GB以上，流畅运行建议 16GB及以上高性能模型复杂任务(数学推理、代码生成等) DeepSeek-R1-32B 32B Xeon 8核+128GB或更高 64GB 2-4张A10080GB或更高 NVIDIA RTX409024GB 16GB以上，实际测试约21GB 专业级模型，性能强大研究、高精度任务 DeepSeek-R1-70B 70B Xeon 8核+128GB或更高 128GB 8+张A100/H100,显存≥80GB/卡 24GB以上，流畅运行至少 40GB以上顶级模型，性能最强大规模计算、高复杂度任务 DeepSeek-R1-671B 671B 64核以上(服务器集群) 512GB+ 多节点分布式训练(如8x A100/H100) 1342GB 超大规模模型，性能卓越，推理速度快前沿科学研究、复杂商业决策分析 DeepSeek 的使用方法本地化部署配置要求

合作伙伴

来自星星的小胖子

关注进入主页

联系我们

智库文档公众号

客服微信

合作伙伴

来自星星的小胖子

标签

联系我们

意见反馈