DeepSeek洞察与大模型应用
人工智能技术发展与应用实践
某某著名企业
史树明
2025年
-1-
主流大模型与
大慎型的应用场景
01
02
03
04
05
目录
Contents
• DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业 ,成立于2023
年5月份。
• 幻方量化营收: 作为中国头部量化对冲基金 , 曾管理资金规模超160亿美
元(2019年) ,年管理费收入超过3亿美元。
DeepSeek公司概况
-2-
DeepSeek-V3(对标GPT-4o) 于2024年12月
26日推出 , 因其显著的性能 , 用户迅速开始增长
• Deepseek-V3仍是基于Transformer架构的模型 ,是
一个强大的混合专家( MoE) 模型 ,总共有 671B 个
参数 ,生成每个token时激活 37B 参数
• 训练成本比 Llama 405B 低一个量级
• DeepSeek-V3所采用的技术:
• MLA多头潜在注意力机制(降低显存占用)
• MTP多token预测(提升效果、 提升推理速度)
• FP8混合精度训练、 Dual Pipe流水线、 MoE负载
均衡(提升训练效率 , 降低训练成本)
DeepSeek-V3多项评测成绩超越了-72B和-405B等其他开源模型,并在性能上和
世界顶尖的闭源模型GPT-4o以及-Sonnet不分伯仲。
DeepSeek-V3
。
。
。
。
。
。
-3-
DeepSeek-R1(对标GPT-o1) 于2025年1月
20日推出 , 随后DeepSeek进一步出圈
• R1推出后 ,追平GPT-o1 ,迅速出圈海外。从
DeepSeek在美国下载排名从1月22日的201名 ,迅速
在1月27日登顶第一名;截止1月30日, DeepSeek在
168个国家位居下载榜第一名
• DeepSeek-R1-Zero:一种通过大规模强化学习( RL )
训练的模型 ,没有监督微调( SFT)作为初步步骤 ,
展示了卓越的推理能力。通过强化学习, R1-Zero自然
而然地出现了大而有趣的推理行为;但是 ,遇到 了可
读性差和语言混合等挑战
• DeepSeek-R1:为了解决这些问题并进一步提高推理
性能, DeepSeek团队引入了 R1 ,它在RL之前结合了
多阶段训练和少量冷启动数据。 R1在推理任务上实现
了与OpenAI-o1-1217相当的性能
DeepSeek-R1
-4-
5
大模型竞技场 (Chatbot Arena LLM Leaderboard,
更新日期 :2025-2-11
DeepSeek-V3和R1进入到国际顶尖模型行列
DeepSeek-R1是综合效果最好的开源模型 ,
排在众多优秀的开源和闭源模型前面
-Max、 GLM-4-Plus、 Step-2-
16K-Exp等国产模型也有不俗的表现
DeepSeek模型效果 (1/2): 世界最顶尖模型的对比
DeepSeek-V3和R1相对于700亿以下开源模型(以千问720亿
为代表) ,多项能力明显提升,扩充了其能力边界
DeepSeek-R1引入深度推理能力 ,在代码、 数学、 复杂规划
等
方面的能力显著增强 ,使得对于新场景的支持成为可能
DeepSeek模型效果 (2/2)
-6-
模型
AIME
2024
MATH-
500
GPQA
Diamond
LiveCode
Bench
CodeForces
rating
R1的15亿蒸馏版 (基于千问) 954
R1的70亿蒸馏版 (基于千问) 1189
R1的140亿蒸馏版 (基于千问) 1481
R1的320亿蒸馏版 (基于千问) 1691
R1的80亿蒸馏版 (基于Llama) 1205
R1的700亿的蒸馏版 (基于Llama) 1633
DeepSeek-R1 2029
DeepSeek-V3 1134
V3 vs. R1 : R1在普通的中文和英文任务上性能小幅领先 ,在数学和代码等需要深度推理的场景下明显胜出
R1蒸馏版 vs. R1满血版: 在数学、 代码等场景下的性能有明显差距 ,蒸馏版参数量越小 , 与满血版差距越大
R1蒸馏版 vs. V3满血版: 140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版; 低参数量R1蒸馏版能力落后
于V3
模型 架构 参数量 激活参数
R1的15亿蒸馏版 稠密
R1的70亿蒸馏版 稠密 7B 7B
R1的140亿蒸馏版 稠密 14B 14B
R1的320亿蒸馏版 稠密 32B 32B
R1的80亿蒸馏版 稠密 8B 8B
R1的700亿的蒸馏版 稠密 70B 70B
DeepSeek-R1 MoE 671B 37B
DeepSeek-V3 MoE 671B 37B
DeepSeek不同版本对比
模型参数量:显存占用
激活参数:推理速度
-7-
8
o1/o3 首次提出
开源复现Deep k-R1
ChatGPT
Llama
OpenAI奥特曼:“ DeepSeek是一个令人印象深刻的模型 ,但我们相信我们会继续开拓前
沿并推出出色的产品 ,所以很高兴能有另一个竞争对手。”
Meta扎克伯格:“DeepSeek技术非常先进。这是一场差距很小的竞争。” 虽然
DeepSeek已证明研发AI所需的资金和算力比之前预想的要少 ,但Meta不会因此减少AI支
出:“我仍然认为 ,从长远来看 ,大力投入资本支出和基础设施建设将成为一种战略优势。”
卷积神经网络之父Yann LeCun: “与其说中国AI正在追赶美国 ,不如说开源模型正在超越
闭源”。
Anthropic CEO达里奥·阿莫迪:我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-
10 个月前美国模型的性能 ,成本要低得多(但远不及人们建议的比例) ”
Scale AI创始人亚历山大·王:“ DeepSeek可能改变中美在人工智能竞赛中的格局”
游戏科学创始人冯骥:”DeepSeek ,可能是个国运级别的科技成果。”“如果有一个AI大 模型
做到以下任何一条 ,都是超级了不起的成就 ,但DeepSeek全部同时做到了:强大、便 宜、
开源、免费、联网、本土”
面壁智能首席科学家:“DeepSeek的意义更像Llama。 DeepSeek R1相当于是像 2023年
初的OpenAI ChatGPT一样 ,让所有人真正地感受到了震撼”
DeepSeek出圈原因分析
1. DeepSeek-R1的卓越性能表现
2. DeepSeek-V3的超低训练开销
DeepSeek V3效果对标顶级闭源模型 ,训练成本比LLaMA低一个量级
训练耗时
90 DeepSeek-V3
86 -72B
-405B
★ Claude Sonnet
模
型
性
能
/价
格
比
最
优
区
间
V3训练开销&R1效果引发全球热议
单元:万GPU小时
下降一个量级
10 (对数坐标)100
Llama 405B
DeepSeekV3 671B
82
API价格¥/M tokens
40
20
0
-72B
GPT-4o mini
GPT-4o
MMLU 得分
省份
广东
要求
集中发力人工智能和机器人领域
浙江 加快建设创新浙江、因地制宜发展新质生产力
广西 不能妄自菲薄、行动迟缓
江西 强化企业科技创新主体地位 ,推动科研成果向现实生产力转化
安徽 在抢占科技制高点上奋勇争先
江苏 找准“一中心一基地一枢纽”
着力提升科技创新效能 ,深入实施研产融合科技攻关赋能计划
重庆 部署实施“人工智能+”行动
山东 建立科技创新和产业创新融合机制
湖北 到2030年 ,具有全国影响力的科技创新高地加快形成
DS作为一款现象级应用 ,对全社会开展了一次人工智能科普再教育 , DS C端应用人人装 ,人人感受人
工 智能 ,政府、 企业管理者认识到人工智能战略意义 , 由探索尝试 , 升级为战略布局某省市场进入爆发
期
DeepSeek影响: 门槛全面降低 , 千行百业加速融
AI
DS上线20日 , 日活超4000万 , 已达到ChatGPT 74% ,成为
C端现象级应用。微信、某著名企业等头部应用纷纷接入
截至2月15日 ,全某省市省委书记将人工智能作为
新春第一会重点部署 , B端大模型应用进一步加速
-9-
• 某机构接国家FGW通知 ,全面评估DS影响 ,组织专
题论证会 ,重新评估基础模型选型, 由原某公司大
模型为主 ,转为吸纳多家模型 ,重点引入DS
• 某省市委书记于开年第一天工作会上 ,明某省市 数
据局研究DS ,研究人工智能
• 某某著名企业董事长在开年第一天即召集全管理层会议,
开展 AI 全面赋能生产运营工作部署
• 中石油、 中石化、某著名企业、星网、 中广核、 中铝等央
某著名企业均在拥抱对接或重新研判
DS开源策略全面冲击基础模型商业模式 ,将大厂在C端、 B端过去一年构建的技术优势拉回同一起跑
线 某省市场竞争从一阶段比拼模型能力 ,进入比拼应用、 数据、 工程化交付能力的第二阶段
DS国内登顶、全球仅次于GPT ,月均活跃用户数跃居第一,
全球全端DAU近亿;纳米AI搜索(原360)将其核心模
型换为DS 1月web端访问量登顶、APP端增速位列第2
DeepSeek影响: 格局被打乱 ,AI竞争进入第二阶
段
C端A某省市场格局重构 ,新入局者迎来机遇 B端客户全面评估DS影响 ,重新论证基础模型选
型
-10-
主流大模型与
大慎型的应用场景
01
02
03
04
05
目录
Contents
-11-
我国高端人才的数量和密度跟美国有明显差距
我国AI领域重大原创性成果的数量落后于美国
中美在AI领域的对比: 人才与技
术
人工智能领域被引用最多的100篇论文(2020~2022)
-12-
中美在AI领域的对比: 企业
中美头部高科技某省市值差距非常显著
我国AI独角兽的数量和估值落后于美国
头部高科技企业
美国7大科某省市值: 均在万亿美元以上 ,合计约18
万亿美元
中国7大科某省市值: 第一名5600亿美元 ,合计约
万亿美元
AI独角兽
-13-
中
华为:昇腾系列芯片 ,产品性能和销量国内领先,
910B性能对标A100
其它国产芯片厂商:海光、寒武纪、燧原科技、沐
曦、天数智芯、摩尔线程、壁仞科技、昆仑芯科技
、阿里平头哥等
英伟达:拥有A100、 H100、 B200等GPU芯片 ,性
能和稳定性遥遥领先 ,又有CUDA生态加持 ,在AI芯
某省市场牢牢占据主导地位
AMD: MI300系列
Google: TPU
Groq:高性能AI推理芯片
博通:在ASIC(专用集成电路)定制芯片领域表现
突出 ,20某省市值突破万亿美元
美某著名企业业在GPU芯片领域占据绝对优势 , 尤其英伟达芯片性能高、 生态
成熟
国产芯片近几年进步很快 ,但在性能、 产能、 软件适配和生态方面还有显著差
距
中美在AI领域的对比: GPU芯
片
美
vs.
-14-
模型厂商 国家 代表性模型及竞技场排名
是否开放
模型权重
谷歌(Google) 美国 -Flash-Thinking-Exp-01-21, #1
-Pro-Exp-02-05, #1
不开放
OpenAI 美国 ChatGPT-4o-latest (2025-01-29), #1
o1-2024-12-17, #4
不开放
DeepSeek 中国
DeepSeek-R1, #4
DeepSeek-V3, #9
-1210, #17
开放
阿里巴巴 中国
-Max, #7
-plus-1127, #16
-72B-Instruct, #33
不开放
不开放
开放
智谱 中国 GLM-4-Plus-0111, #9 不开放
阶跃星辰 中国 Step-2-16K-Exp, #9 不开放
xAI 美国 Grok-2-08-13, #16 不开放
零一万物 中国 Yi-Lightning, #16 不开放
Anthropic 美国 Claude Sonnet (20241022), #16
Claude Sonnet (20240620), #23
不开放
Meta 美国 -405B-Instruct-bf16, #21
-70B-Instruct, #33
开放
Mistral AI 法国 Mistral-Large-2407, #37
Mistral-Small-24B-Instruct-2501, #50
开放
中美在AI领域的对比: 头部大模型
在模型效果上 , 中国大大缩小了与美国的
差 距 , 呈现与美国平分秋色的格局
模型开源领域: DeepSeek超越Meta ,成
为效果最好的开源模型 , 阿里巴巴千问系
列 模型下载量超过Meta的Llama系列
-15-
-16-
• 特朗普:“ DeepSeek的技术进步为美国敲响了警钟”
• 美国新任白宫新闻秘书卡罗琳·莱维特:“ 白宫正在努力确保美国人工智能
的主导地位 ,美国国家安全委员会正对DeepSeek开展国家安全调查”
• 美国商务部长提名人霍华德·卢特尼克:指责 DeepSeek 抄袭美国科技公司
并违反美国芯片出口禁令来建立其模型。“我们需要停止帮助他们。 Meta
的开放平台(开源模型Llama)让 DeepSeek 依赖它。他们购买了大量英
伟达的芯片 ,并找到了自己的方法 ,推动了他们的 DeepSeek 模型。这种
情况必须结束。”
• 美国商务部工业与安全局BIS启动对新加坡芯片转口贸 ,核查
HS8542类目芯片是否违规流向DeepSeek ,拟议对华禁售H20芯片
• 美国国会、得州、 NASA、美国海军、美国国防部已禁止使用 deepseek。
• Anthropic CEO达里奥·阿莫迪:对于 DeepSeek 的崛起 ,美国应该加强
管制
2025 年 1 月 29 日 ,美国参议员 Josh Hawley 提出 《2025年美国与中国人工智
能能力脱钩法案》, 旨在全面切断中美在人工智能(AI)领域的技术合作、资本流
动 ,以遏制中国在AI领域的竞争力 ,保护美国技术优势
① AI技术与流动禁令:法案禁止从中国进口或向中国出口任何与AI相关的 技术或
,包括芯片( GPU、CPU等)、存储设备、操作系统、云计算服务等 核心硬件和软
件 ,以及、专利、等。
② AI研发合作全面禁止:美国公民、绿卡持有者及机构不得在中国境内从事AI研发,
也不得与中国的“受关注实体”(包括高校、企业、政府机构等)及其海外子公司合 作。
③ 对华AI投资彻底切断:禁止美国个人或机构投资中国AI企业的公开股票和证券,
防止资金间接支持中国AI发展。
④ 处罚措施:刑事处罚:个人最高罚款100万美元、监禁20年;企业罚款1亿美元 ,
并取消联邦合同及。民事赔偿:违规者需支付三倍损失赔偿及诉讼费用 ,并可 能被
禁止获得联邦资助5年。驱逐出境:违者可能被驱逐出境(非美国公民)或面临 高
额罚款
⑤ 针对DeepSeek的特别禁令 ,使用或下载中国AI公司DeepSeek的产品将被视为犯
罪 ,最高判20年监禁。
中 :突破技术封锁 ,在大模型这个关键赛道上与美国的差距无限缩小 ,信心增强 ,科技股崛起
美 :发现在模型的技术创新上已经被中国追赶并部分超越 ,危机感和压力陡然增加 ,预计会加大对华技术封锁(更严格的芯片禁令等)
DeepSeek对中美科技竞争产生深刻影响
美参议员提出《2025年美国与中国人工智能能力脱钩法案》 ,有脱钩风险美国上升到影响国家安全 ,拟进一步收紧对华芯片政
策
主流大模型与
大慎型的应用场景
01
02
03
04
05
目录
Contents
-17-
公司 模型
OpenAI
ChatGPT系列
GPT-4o系列
o1系列
o3系列
Google Gemini系列Gemma系列
xAI Grok系列
Anthropic Claude系列
Meta Llama系列
Mistral AI Mistral系列
Mixtral系列
公司 模型
深度求索 DeepSeek-V3/R1等
智谱 GLM系列
Mini Max Mini Max-Text-01等
月之暗面 Kimi大模型
阶跃星辰 Step系列
百川智能 Baichuan系列
零一万物 Yi系列
公司 模型
阿里巴巴 千问 (Qwen) 系列
字节跳动 豆包大模型
百度 文心大模型
腾讯 混元大模型
华为 盘古大模型
公司 模型
某著名企业 元景大模型
某著名企业 星辰大模型
某著名企业 九天大模型
国内主流大模型
国内大模型七小虎: 国内互联网公司: 国外大模型:
国内运营商:
-18-
工具名称 类型 所属公司 备注
夸克 AI搜索 阿里巴巴
秘塔AI搜索 AI搜索 秘塔科技
纳米AI搜索 AI搜索 360
星野 情感陪伴 Mini Max
猫箱 情感陪伴 字节跳动
可灵AI AI图片/视频生成 快手
海螺AI AI图片/视频生成 Mini Max
即梦AI AI图片/视频生成 字节跳动
Perplexity AI搜索 Perplexity AI
Pika AI图片/视频生成 Pika
MidJourney AI图片/视频生成 MidJourney
Stable
Diffusion
AI图片/视频生成 Stability AI
工具名称 所属公司 备注
DeepSeek 深度求索
豆包 字节跳动
Kimi智能助手 月之暗面
文小言 百度
通义 阿里巴巴
智谱清言 智谱
讯飞星火 科大讯飞
元宝 腾讯
ChatGPT OpenAI
Gemini Google
Claude Anthropic
国内外主流大模型工具/应用
通用AI助手: 其它类型:
-19-
主流大模型与
大慎型的应用场景
01
02
03
04
05
目录
Contents
-20-
政务热线大模型
全面上某省市热线平台:服务80+坐席人员 , 工
单填单时间由186s/单下降到133s/单;工单 记
录完整度提升30%
在热点事件分析场景:处理90余万 ,完 成12万
个小区数据抽取 ,形成供水、供电、供 热等6
类单位画像
热线数据报告: 围绕投诉、求助、建议与举报信
息开展时空定位、问题萃取、颗粒缩放、精细诊
断等多维度分析 ,输出告和专题报告
某著名企业数智公司联合辽宁产互等打造政务热线大模型 , 已落地辽宁、 北某省市市
12345项目
大模型赋能政务热线应用
-21-
广东政数局 ”粤经济“平台
“粤经济”全面打通了横向30多个厅局和纵向2某省市的 经济
运行相关数据 ,某省市经济发展分析”一屏总览”;
元景—经济大模型在“粤经济”上部署实施 ,发挥某著名企业多
源 大数据的独特优势 ,基于全国高质量经济语料 ,打造经
济垂 直领域大模型 ,模型在查数据、问知识、做推理、快
分析等 经济领域任务中都表现良好。
2023年10月 ,服务北京发改委面向经济领域数据查询及分
析、报告撰写、经济领域知识问答等业务场景 ,实施经济大
模型, 打造“学文件、读数据、出观点、快呈现”的高效 AI
工具 ,赋能经济运行调度工作 ,人工智能辅助经济决策;
打造国内首个经济数据分析智能体和区域经济分析智能体。
经济运行大模型落地北京发改委、 广东政数某省市市项目
大模型辅助政府经济决策
北京发改委 AI经济运行监测分析应用
-22-
在北京西城区公安局试点 ,提供以特征搜特征的大模型视觉分析能力 ,解决小模型无法识
别的复杂场景
7月 ,该试点实验室进展收到了公安部领导的肯定 ,对取得的成果进行充分肯定 ,希望在中
国某著名企业元景大模型的加持下 ,探索视频侦查新技术提高案件查办效率
利用以图搜图、以文搜图提升检索效率 ,可服务某省市、雪亮工程、平安乡村等场景
某著名企业数智公司联合北京某著名企业等打造元景公安大模型 ,在北京西城、某省市某省市市视侦智能化升级项
目试点应用
利用以图搜图、以文搜图 ,检索监控内容 ,提升办案效率
大模型赋能公安智能化
-23-
私域GPT应用和服务平台
私域GPT应用:集医教研管全方位智能助手于一体的应用 ,整合了业务文件1500+、医学教材指南1800+、管理报表100+ ,为医 护
人员提升信息获取效率 ,为精准医疗提供有力保障。
大模型医疗应用服务平台:提供模型微调、测评、推理加速等全链路工具箱 ,为医院管理、临床、教学、科研等工作提供新范式。
某著名企业数智公司支撑广东产互/医疗军团打造多款智慧医疗应用 ,助力中山三院智能
化升级
中山三院私域GPT应用
-24-
大模型赋能医疗智能应用
大模型医疗应用服务平台
针对2D船舶设计图纸中不同标尺参数 ,运用元景多模态大模型进行
识别 ,精准输出设计参数信息 ,为设计师精准建模提供必要参考;
面向不同船厂的设计规范、图纸中不同类型的线材 ,运用元景视觉
大模型进行分割检测 ,有效提取船舶轮廓、不同船舱的设计要素 ,
输出3D建模所需的信息要素 ,提高设计师看图建模的工作效率。
造船规范知识问答
针对大模型处理公式计算和图表理解的不准确问题 ,使用5万条增量
数据对元景70B大模型微调训练 ,提升基础大模型计算的准确率;
针对上万页造船规范知识中的复杂问题 ,运用元景RAG技术中级联
切分手段、 自适应表格拆分与整合技术、多路检索融合方式进行解
析 ,提升元景大模型对相关内容的召回率。
某著名企业数智公司、 上海某著名企业与中船海舟联合挂牌成立联合实验室 ,探索大模型落地中船海舟船舶
设计等应用场景
线条类型
位置参数
大模型赋能船舶设计
翻模设计
-25-
针对多模态装备文档做精准
查询和智能问答 ,重点解决
长文本、复杂表格、数字序
列、OCR解析、网页资源解
析、统计类问答等挑战并快
速迭代 ,问答效果优于头部
竞品。业界首创RAG中的富
文本知识问答、来源出处定
位、数据飞轮等独有能力。
支持OCR 支持富文本知识 支持答案出处 支持统计类
解析能力 问答能力 定位至原文 问答能力
某著名企业数智公司支撑装备军团和上海产互打造大模型应用 ,赋能大飞机
装备运维
大模型赋能国产大飞机装备运维
基于RAG的装备运维 级联切分
增强长文本召回匹配度
多路检索融合
增强检索能力多样性
自适应拆分
增强知识理解完整性
-26-
在生动呈现文化内容 ,创新文博场馆观展体验方面 ,凭借在大模型、数字人、
虚拟空间建设等方面的核心优势 ,对中国国家博物馆古代中国展部分精品文
物 活化展示 ,以某著名企业元景大模型实现国博数字人线上讲解和互动问答
,生动呈现
中华文明优秀成果。
文物活化大模型 ,助力国家博物馆:《中华文明云展》文创大模型 ,助力外文局/文联发展数字文创产业
某著名企业数智公司联合在线公司等团队打造元景文博文创大模型 ,助力国博、 外文局等文物
创新应用
通过文物元素属性创
作, 生成民族服饰
; 传播与创作中华
文化
。
大模型赋能文博文创
成汉服 、 游戏 、
卡 牌等数字文创
产品 , 并 实 现 自
定 义 换脸 , 支持商业化
互 动内容与应用。
基于大模型创作生
-27-
B端生产场景多数重复使用模型某一重复能力,
大量百亿级参数模型即可适用
• DS -V3/R1满血版推理需16-32张910B , LORA微 调
需512张910B。大量客户无支持微调的算力。单 任
务算力消耗与百亿级参数模型不在同一量级
• DS 最惊艳的R1版 ,一次推理多在10-20秒 ,更适合
代码、数学、复杂规划等场景 ,很难响应B端高实时
业务应用场景
• 让DS高效学会私域知识 ,尚未明显突破 ,利用DS 蒸馏得
到百亿参数模型 ,对于从头预训练模型优势还有待观测
1、安全监管增强+灌入企业价值观
2、灌入企业独有数据
3、推理算力消耗、效果等方面优化
….
1、多模态、语音、视觉模型联动
2、挂RAG知识库、联网搜索优化等
3、接入智能体平台
…..
DS优势在6000亿级语言大模型 ,在R1版惊艳的推理效果 ,在应用侧落地仍需要多模型组合、 多外
挂 工具 , 以及大量工程化配合
DS很好纠结各应用需要一个超强大脑需求
各单位应用DS落地需要
工程化
套壳
多模型
协同
, 与
外挂
AI工具
DS应用落地同样面临挑战
B端应用需要专才 , 需要超高性价比的产线工
人
C端AI应用需要通才 , 需要百晓
生
-28-
主流大模型与
大慎型的应用场景
01
02
03
04
05
目录
Contents
-29-
幻觉问题
知识实时更新能力差
算力消耗仍然很高
偏见、 隐私与安全
认识大模型的局限性
-30-
什么是大模型的幻觉?
生成式语言模型在生成文本或者回答问题时 ,产生与事实不符或者逻辑
错误的内容 , 即 “一本正经地道”
示例1 :一篇根本不存在的参考文献(右图)
大模型幻觉产生的原因
目前的大模型结构和训练机制 :基于概率的生成模型 ,本质上没有理
解 自己所学习的内容
缺乏对真实世界的有效建模方式和全息感知能力
训练数据的局限性 :数据质量、 重要数据的缺失、 不同类型数据的比
例
如何应对(用户角度)
建议1 :建立“大模型结果不一定可信”的认知 ,根据自己的需要 ,对
于模型的输出进行不同层次的验证(享受便利 ,控制风险)
建议2 :通过大量使用而加深对一款大模型能力边界的理解 :知道什么
情况下模型输出更可靠 ,什么情况下更容幻觉
认识大模型的局限性: 幻
觉
-31-
模型训练:算力消耗大
大模型庞大的参数量: 通常包含数十亿到数千亿个参数
训练数据 :通常包含数万亿到十几万亿token
训练时间 :通常几个月
模型推理:算力消耗大 ,实时性差 ,支持的并发低
大模型庞大的参数量: 通常包含数十亿到数千亿个参数
当前神经网络推理方式的特点 :大量的矩阵乘法操作
Transformer推理阶段的“按token依次输出”机制 :生成每个
token的算力和时间消耗 * token数
用户可感知的结果: DeepSeek投入大量算力提供服务 ,仍然频
繁出现“服务器繁忙” ;硅基流动等部署DeepSeek模型服务的第
三方厂商亦无法有效承接流量
建议3: 学会接受大模型的输出速度 ,效果越好的模型 ,速度可能越
慢
认识大模型的局限性: 算力消耗
大
-32-
实时知识更新
必要性: 引入新知识 ,保证与时俱进
大模型参数量大 ,知识更新速度慢 ,无法实时将最
新 事件、 社会动态、 研究成果加入到模型
轻量级的知识更新方法不能保证效果
DeepSeek最新版模型的知识截止日期是2024年7月
(7个月前)
缓解手段:联网搜索 + 检索增强生成( RAG)
不改变模型 ,在外部建立索引 ,严格意义上不属于
模 型更新的范畴
建议4 :对于时效性较强的问题 ,确保AI助手的联网
搜索功能是开启的
认识大模型的局限性: 知识实时更新能力
差
-33-
偏见
大模型的输出结果可能包含性别、 种族、 年龄、 价值观、 文化等偏
见
核心原因: 训练数据中包含了偏见信息(比如西方的数据中反映西
方价值观的信息占比更大)
隐私与安全
难以避免生成有害内容: 可能会输出虚假信息、 脏黄反信息、 宣扬
暴 力和仇恨的内容等
安全评估与防范难度大 :大模型结构复杂、 参数量众多、 可解释性
差 , 给安全评估和防范带来了挑战
有毒数据的攻击: 多项研究表明 ,少量的有毒数据就可以显著 提高
模型输出错误或有害内容的可能性
建议5: 问大模型的问题不要涉及政治敏感、 黄赌毒、 暴力、 歧视等(
有 法律风险和被封禁的风险)
建议6: 问大模型的问题中不要包含国家或者机构的(有信 息风险和法
律风险)
认识大模型的局限性: 偏见、 隐私与安
全
-34-
认识大模型的优势和特色
建议7 :熟悉大模型的回复特点 , 掌握提问技巧(提
示 词技巧) ,激发模型的创造力
-35-
谢谢!