行业评级:看好
2023年3月25日
ChatGPT:AI模型框架研究
——AI行业深度报告
证券研究报告
分析师 刘雯蜀
邮箱 liuwenshu03@
证书编号 s1230523020002
摘要
2
一、AI框架重要性日益突显,框架技术发展进入繁荣期,国内AI框架技术加速发展:
1、AI框架作为衔接数据和模型的重要桥梁,发展进入繁荣期,国内外框架功能及性能加速迭代;
2、Pytorch、Tensorflow占据AI框架市场主导地位,国内大厂加速布局AI框架技术;
3、AI框架技术从工具逐步走向社区,生态加速形成,未来围绕安全可信、场景落等维度呈现显著发展趋势;
二、GPT开启AI大模型时代,国内外大厂发力布局,商业化空间加速打开:
1、数据、算法、模型三轮驱动AI发展,大模型优势显著,成为AI主流方向;
2、GPT开启千亿参数级AI大模型时代,语言、视觉、科学计算等大模型快速发展;
3、微软加速AI商用化进程,国内大厂发力布局,看好在细分场景下的应用落地;
三、建议关注标的:
1、基础层:AI算力:中科曙光;大模型:360,科大讯飞
2、应用层:AI+工具:金山办公; AI+建筑:广联达;AI+法律:通达海; AI+医疗:创业慧康,久远银海;AI+教育:
科大讯飞; AI+网安:安恒信息、奇安信;AI+金融:同花顺; AI+交通:佳都科技
风险提示:1、AI技术发展不及预期;2、版权、伦理和监管风险;
nMnOnNmOvNrRnRoMrRpQxP9PdN8OpNmMtRpMfQmMtQkPsQvN9PqRmQNZsOsPxNmRsO
3
AI框架
深度学习框架:人工智能时代的操作系统
4
人工智能开发
链条长且复杂
训练 数据准备 算法实现环境安装 模型训练 模型验证
推理 数据准备 算法实现环境安装 模型训练
数据
使用深度学习框
架工具进行开发
深度学习框架
人工智能基础设施
分布式硬件资源
物理资源调度、
I/O设备管理
通用模型架构
支持计算机视觉应用
使用主流编程语言
GPU加速拓展包
模型
使用深度学习框
架工具进行开发
开发者使用简单
支持AI领域的快速变化
资料来源:北京日报,认知计算与云安全公众号,华为云,浙商证券研究所
人工智能框架技术发展进入繁荣期01
5
2000年~ 萌芽阶段 2015-2018年 稳定阶段2012年~ 成长阶段 2019-2020年~ 深化阶段
API复杂
无GPU支持
手动实现网络
使用简单
多GPU支持
复杂网络支撑
指令式 声明式
生态友好
分布式支持
效率优化可拓展 编译层优化
多场景任务支持
丰富套件支持
算子优化
统一标准
端云一体
大模型
大任务
全场景
隐私与公平
……
未来
资料来源:中国信息通信研究院《2022年AI框架技术白皮书》,浙商证券研究所
国际主流深度学习框架:互联网巨头主导开发01
6
国内外深度学习框架
发布时间
2013
2014
2015
2016
2017
2020
2020
202x
开发公司 深度学习框架 语言
Python
Lua,Python
(new)
C++
Python
C++
Lua,Python(new
)
Python
C++、CUDA、
Python
是否开源
√
√
√
√
√
√
√
√
计算图
静态
静态
动态
动静兼容
静态
基于源码转换自动微
分,不依赖计算图
动静合一
是否是分布式框架
√
√
√
√
√
特点/优点
速度快、使用
方便、社区好
性能高、适合
做语音任务
高效灵活、易用
容易上手
简单清晰
移动端高性能、
通用轻便
高效灵活、易用
灵活高效
资料来源:机器之心,CSDN,浙商证券研究所
01 TensorFlow+Pytorch占据市场主导地位
7
2022年中国开发者人工智能框架使用率2018-2022年全球论文发表数量(按使用框架分)
Pytorch
TensorFlow
资料来源:Papers with Code,Omedia,浙商证券研究所
Pytorch:Meta开源的主流学习框架01
8
Pytorch版本平均每3~4个月更新一次,功能服务持续扩充
2017年,Pytorch
正式发布
2018年4月,版
支持Windows,
并入caffe2
2019年5月,版
支持TensorBoard,
增强可视化
2019年10月,版
支持移动设备部署,
更多功能工具
2020年1月,版
支持分布式模型
并行训练
2020年4月,版
与Amazon合作,提升
开发者模型部署效率
2020年11月,版
支持Windows上的分布式
训练,提供更多API
2021年3月,版
支持AMD GPU
2022年11月,版
Transformer模型
训练速度提升倍
多维优势支持Pytorch实现对TensorFlow的反超
门槛低
只需要Numpy和基本
深度学习概念
代码简洁灵活
基于动态图机制,网
络搭建更方便
文档规范
官方社区可查看各版
本文档
资源丰富
arXiv新算法大多基于
Pytorch实现
开发者多
Github上贡献者1100+
大厂支撑
Meta维护开发
适用人群广泛
深度学习初学者:快速实现模型算法,加深深度学习概念认识;
机器学习爱好者:快速实现人脸识别、目标检测、图像生成等AI功能及实验;
算法研究员:最新arXiv论文算法快速复现及开发;
资料来源:CSDN,浙商证券研究所
Open AI:从多种框架的使用到专注于Pytroch01
9
2015年
Pytroch成为统一的深度学习框架
深度模型框
架转变
• 便于调试:对 Python生态的良好支持;
大多数情况使用
TensorFlow
特殊情况使用
Theano
2020年
• 简单易懂:PyTorch具有用户友好的 API;
原因
核心
功能
支持GPU加速
的张量计算
方便优化模型的
自动微分机制
• 强大高效:Pytorch提供了非常丰富的模型组件。
极大缩短
研究周期
资料来源:OpenAI官网,浙商证券研究所
Tensorflow:谷歌开源的向更加易用发展的主流学习框架01
10
2017年 2019年
开源Tensorflow
版本
2015年
采用CPU+GPU计
算模型
使得神经网络能够
有效计算
Tensorflow从到的发展历程
202x年
发布
添加两种新机制,解决输入管
道瓶颈并节约资源
发布
缺点:调试困难、API混
乱、入门困难
运用更简单的模型进行构建、简化
PI
优点:简化的模型开发流程、强大
的跨平台能力、强大的研究发现
缺乏调度能力,需手动配置
发布,
稳定版诞生
优点:更快、更灵活、
随时就绪
引入更高级的API,可在
移动设备上运行
发布版
本
改进之
处
优点
缺点
资料来源:腾讯云,CSDN,helloword,城市经济网,浙商证券研究所
AI框架技术呈现三层次结构,从工具走向社区生态
11
基础层
组件层
生态层
编程开发 编程接口API 编码语言
训练
开发
推理
部署编译优化
分布式并行 自动微分 动静转换 模型轻量化
图算融合 算子生成内存优化
计算图中间表示
计算算子 通信算子硬件使能
自动并行
高阶优化器
…
并行及优化组件
科学计算(数值方法)
科学计算(AI方法)
…
科学计算组件
模型可解释
数据-模型安全
…
安全可信组件
训练可视化
调试器
…
工具组件
套件-模型库
(CV、NLP…)
AI领域扩展库
(GAN、强化学习…)
AI+科学计算
(电磁仿真、视频生成…)
社区
文档
AI
框
架
资料来源:中国信息通信研究院《2022年AI框架技术白皮书》,浙商证券研究所
百度PaddlePaddle飞桨平台01
12
资料来源:CSDN、中国日报中文网、浙商证券研究所
飞桨企业版
零门槛AI开发平台 全功能AI开发平台
飞桨产业级深度学习开源开放平台
工具与
组件
自动化
深度学习
低代码开发工具
强化学习 联邦学习 图学习 科学计算 量子机器学习 生物计算
核心
框架
端到端
开发套件
基础
模型库
预训练模型应用工具 可视化分析工具 安全与隐私工具 云上部署编排工具资源管理与调度工具
语义理解 文字识别 图像分类 目标检测 图像分割 图像生成 大模型训推一体
自然语言处理 计算机视觉 语音 推荐 文心大模型时间序列
动态图 静态图
大规模
分布式训练
产业级
数据处理
模型
压缩
服务器
推理引擎
边缘与移动
端推理引擎
开发 训练 推理部署
前端
推理引擎
服务化
部署
全场景
统一部署
学习
与实训
社区
未来AI框架技术将呈现六大发展趋势01
13
资料来源:中国信息通信研究院《2022年AI框架技术白皮书》 、浙商证券研究所
泛开发
全场景
超大规模
科学计算
安全可信
工程化
发展趋势
泛开发 前端便捷化 后端高效化
全场景标准化互通
混合并行 分布式处理
自动微分 统一加速引擎
鲁棒性检测 模型可解释
模型自适应 框架精细化
前景展望
多种开发语言无缝衔接
动静图转换能力提升
后端运行效率
AI框架与硬件平台解耦,通过标准接口实现跨设备平台快速部署
突破五堵墙:内存墙+算力墙+通信墙+调优墙+部署墙
丰富编程接口 内置专业领域科学计算套件
提供丰富的 AI 鲁棒性检测工具
AI 模型的压缩和端侧推理框架的轻量化
14
AI大模型
算力+数据支撑AI大模型加速发展02
15
计算和存储
能力增长
数据爆炸
1991年
万维网开放
2005年
全球互联网用户超10亿
2007年
iPhone发布
2010年
全球智能手机
销量超3亿部
算法迭代
1958年
神经网络提出
1965年
专家系统诞生
1989年,CNN算法
应用于图像识别
1997年
网页评级算法
2006年
深度学习兴起
2009年
引入Spark算法
处理大数据
1997年,IBM
战胜卡斯帕罗夫
2002年
云存储、云计算诞生
2004年
分布式技术
2005年
1G磁盘存储成
本降至2美元
1965年
摩尔定律
2006年
Hadoop技术
2010年
开始使用GPU
训练AI模型
2012年
深度学习算法
在图像分类任务
取得突破
2013年 谷歌AI
学会策略类游戏
2016年
谷歌推出TPU
加速机器学习
过程
2017年
AlphaZero
2018年
GPT大模型
2021年
Alphafold实现
蛋白质结构预测
2022年
ChatGPT
资料来源:CSDN、腾讯网、新浪网、浙商证券研究所
大模型为基底,AI大模型发展为场景应用奠定重要基础02
16
AI大模型优势
泛化性+通用性 开发门槛低
大模型意义
AI应用通用化 AI开发工程化
项目建设集约
化
资料来源:IDC《2022中国大模型发展白皮书》、浙商证券研究所
按照目标不同,AI大模型可分为四类,多模态为未来方向02
17
利用计算机模拟、延伸及
拓展人类语言能力
NLP大模型 CV大模型 科学计算大模型
定义
现状
挑战
未来发展
在语言理解与生成、智能创
作、机器翻译、智能对话、
知识图谱和定制化语言解决
方案落地应用发展顺利
语言的歧义、文化差异及
多样化、情感分析困难
以多个数据信息维度约束
来验证情感分析及文本分
析的准确性
计算机模拟生物视觉,理
解数字图像和视频,并提
取目标信息
2D数据工业质检、智慧城市
落地完善,应用场景多;人
脸、OCR识别发展较为成熟
3D/4D数据识别面临变形、
光照、遮挡等问题;数字人、
数字孪生的数据获取困难,
算法处理复杂
打通数据融合以突破
3D/4D获取瓶颈
高效率完成再现、预测和
发现客观世界运动规律及
演化特征的全过程
“AI+科学计算”(科学智能)
引发科研方式的大变革,如
生物制药、气象预报、地震
探测等科研领域逐渐成熟
科学计算大模型对开发者专
业知识要求严苛,高质量训
练数据的获取成本高,导致
模型整体研发成本昂贵
科技大厂与科研院校加强
合作
融合
多模态大模型
理解能力
应用场景
计算性能
资料来源:IDC《2022中国大模型发展白皮书》、浙商证券研究所
AI迈入大模型时代,参数量过千亿02
18
2018
Google BERT-base()
Google BERT-Large()
OpenAi GPT-1 ()
百度
Facebook XLM
百度
Facebook BART
Google ALBERT()
OpenAi GPT-2 ()
Facebook RobertTa()
NIVIDIA Megatron-LM (83)
Google T5 (110)
Google ELECTRA()
Micrasoft Truning-NLG(172)
Facebook M2m-100(150)
Google BigBird(1750)
OpenAi GPT-3(1758)
Eleuther AI GPT-j(60)
GLM(1300)
百度 (100)
Google FLAN(1370)
Naver Corp HyperCLOVA
(2040)
Google Gopher(2800)
百度 ERNIE Titan(2600)
OpenAi InstructGBT(13)
Meta AI OPT(1750)
EleutherAI GPT-NeoX
(200)
Google LaMDA(2800)
BigScience BLOOM(1760)
Google PaLM(5400)
微软和英伟达 Megatron-
Turing NLG(5300)
2019 2020 2021 2022
资料来源:电子工程世界、微软官网、OpenAI官网、Github、Meta AI官网,浙商证券研究所,单位:亿
GPT-1 GPT-2 GPT-3 GPT-4
推出年份 2018 2019 2020 2023
Transformer
层数
12 48 96 -
参数量 亿 亿 1750亿 -
预训练数据量 5GB 40GB 45TB -
国内外大厂相继布局各模态AI模型02
19
Transformer
GPT-3
InstructGPT/
ChatGPT
资料来源:澎湃网、CSDN、百度、OpenAI官网、Meta,浙商证券研究所
时间 提出者 模型名称 功能 意义
2021年1月 OpenAI CLIP-DALL·E 以文搜图,按照文字描述生成对应图片
CLIP的zero-shot learning技术在各种数据集上的
表现都很好
2021年5月 Google MUM 多功能统一模型
可从 75 种不同语言中挖掘出的上下文信息对用户搜
索结果进行优先排序
2021年9月 百度 DocVQA 跨模态文档理解 登顶DocVQA榜首
2021年11月 NVIDA GauGAN2
根据输入的文本/简笔画生成对应逼真的风景图、输入图
像并编辑部分内容
可用文字和图画混合创造逼真的艺术
2021年11月
Microsoft
&北大
NvWa女娲
实现文本/草图转图像、图像补全、文字指示修改图像视
频、文字/草图转视频、视频预测等
在8种图像和视频处理的视觉任务上具有出色的合成
效果
2021年12月 NVIDA PoE GAN
文字描述、图像分割、草图都可以转化为图片,还可同时
接受以上几种输入模态的任意两种组合
可以在单模态、多模态输入甚至无输入时生成图片。
2022年1月 百度 ERNIE-ViLG 图文双向生成
刷新文本生成图像、图像描述等多个跨模态生成任
务最好效果
2022年1月 Meta Au-HuBERT 通过输入语音音频和唇语视频内容,输出对应文本
在嘈杂的环境下,通过读唇可以将语言识别的准确
性最高提升6倍。
2022年7月 Meta Make-a-Scene 文本生成图像,并允许文本输入进行有针对性创作
用户获得更丰富的个人理念定制,从而生成更加具
有针对性的画作
2022年9月 OpenAI Whisper
语音生成文本,支持语音转录和翻译两项功能并接受各种
语音格式
多模态AI模型有望进入商用时代
2022年9月 Meta Make-a-Video
文本、图片生成短视频,根据输入的自然语言文本生成一
段5秒钟左右的短视频。
AIGC进入视频创作领域
2022年11月 NVIDA Magic3D
根据文字描述生成 3D 模型,可将低分辨率生成的粗略模
型优化为高分辨率的精细模型
3D建模效率更高,且成本更低
OpenAI以GPT为基石,深度布局各模态AI及各类应用02
20
Transformer
GPT-3
GPT-1 GPT-2 GPT-3
Instruct
GPT
论文年份 2018 2019 2020 2022
Transformer层数 12 48 96 —
参数量 亿 亿 1750亿 13亿
预训练数据量 5GB 40GB 45TB —
Whisper 语音-文本模型 DALL-E2 文本-图像模型 ChatGPT
类别 名称 参数量
基础版本
Davinci 1750亿
Curie 67亿
Babbage 10亿
代码生成 Code-Cushman-001 120亿
关联分析
Text-similarity-davinci-001 1750亿
Text-similarity-curie-001 60亿
GPT模型迭代
多样的模型调用接口
来源:CSDN,电子工程世界,腾讯网,浙商证券研究所
ChatGPT实现路径:算力与框架支持,应用百花齐放02
21
资料来源:CSDN、机器学习算法与自然语言处理、电子工程世界等、浙商证券研究所
微软云Azure
PyTorch
Transformer
GPT-3
InstructGPT/
ChatGPT
OpenAI的独家云提供商
算力资源
深度学习框架
API 迭代更稳定易于使用
模型
Attention机制
大模型
参数少 速度快 效果好
模型
人类反馈强化学习RLHF
对话AI模型
人类反馈强化学习RLHF 人工监督微调
连续多轮对话 承认自身错误
质疑不正确的问题 承认自身的无知
Transfomer的Decoder 分支
1750 亿个参数 小样本学习能力
无代码
编程 对话类搜索引擎
小说生成 语音陪伴
语音工作助手对话虚拟人 机器翻译人工智能客服
基于InstructGPT形成ChatGPT对话系统02
22
Chat
GPT
Instruct
GPT
GPT-3
代码训练
指令微调(instruction tuning)
基于人类反馈的强化学习(RLHF)
参数数量降低了100倍
(1750亿->13亿)
增加Chat属性
网页公众测试入口
略微降低参数量
资料来源:CSDN、电子工程世界、新智元、浙商证券研究所
搜索引擎Bing集成ChatGPT,即时生成个性化规划与建议
新版Bing搜索引擎
四大技术突破
将ChatGPT整合进Bing和Edge
搜索
模型
搜索
性能
答案
相关
用户
体验
Bing在OpenAI的下一代LLM模型
上运行,该模型专门为搜索定制,
比ChatGPT更强大
普罗米修斯(Prometheus )模
型:可以提高搜索结果相关性,并
对答案进行注释
搜索与聊天相结合,除了传统的搜
索结果外,还提供了聊天界面
通过将人工智能模型应用于核心搜
索算法,改进了核心搜索指数,使
得搜索结果相关性实现飞跃
资料来源:微软、The Verge,浙商证券研究所
新增聊天窗口
传统信息搜索框
新版Bing功能展示
能动的提供解决方案:
创建菜谱、制定旅行
计划、诗歌创作等
02
23
微软发布Microsoft 365 Copilot,引领下一代AI大模型02
24
Microsoft 365 Copilot
Copilot工作方式 Copilot工作原理
• Copilot旨在协助用户生成文档、电
子邮件、演示文稿和更多内容
• Copilot主要由OpenAI的GPT-4驱动
,会与微软365应用程序一起,作
为聊天机器人的模式,出现在侧边
栏
数据来源: 微软官网,浙商证券研究所
• Copilot嵌入到人们每天使用的
Microsoft 365 应用中
• 商务聊天 Business Chat。
Business Chat 将汇总电子邮件、
文件、文档、会议、聊天记录、日
历等资料,并归纳总结
• 自动汇集个人已有的数据和
资料生成内容,上传到
Microsoft Graph
• Copilot成为智能个人数字助
理 &实用的内容生成工具
Copilot AI 功能的应用场景,大幅提高办公效率02
25
应用场景 Copilot in PowerPoint
应用场景 Copilot in Excel Copilot in Teams
Copilot in Word
• Copilot 可以跨应用程序生成内
容。例如,根据Word文档,可
以生成一个10张幻灯片的PPT
• 提升演讲效果,增加字体大小和
间距,在演讲稿中添加演讲提醒
• 一键压缩冗长的演示文稿,调整
布局、重新格式化文本和完美的
时间动画。
• Copilot可以根据需求
创建初稿
• 对文本内容进行提炼、
改写、简化,查漏补缺
• 用户还可以根据需求调
整AI的语气,包括严肃
、热情、感谢等
数据来源: 微软官网,浙商证券研究所
• 在短时间内识别趋势或创建
数据可视化
• 数据归纳处理,分析或格式
化Excel数据,生成直观图像
• Excel用户可以通过Copilot即
时创建SWOT分析或基于数
据的PivotTable
• 在对话上下文中提供实
时摘要和操作项,进行
会议内容总结,提醒可
能错过的东西
• 如果参加会议时间较晚
,copilot会提供一份错
过的内容摘要,从而提
高会议效率
Google在各模态领域布局AI模型,并提供多项功能服务模块02
26
GPT-3
ChatGPT
Flamingo 图像-文本
LOLNerf 2D图像-3D图像
Parti 文本-图像
Phenaki 文本-视频
类别 模型 功能
计算机视觉 Pix2Seq 用于对象检测的语言建模框架
多模式模型
DeViSE 视觉语义嵌入
LiT 将语义理解添加到图像模型
PaLI 多语种语言图像学习
FindIt 基于自然语言的通用对象定位
VDTTS 视觉驱动的文本到语音
音频生成 AudioLM 基于语言建模的音频生成
官方开源多个多模态模型
来源:CSDN,新浪,Google Parti,浙商证券研究所
国内AI大模型,大厂+高校将主导未来02
27
大模型的主要玩家有科技大厂、高校和新型研发机构,形成了四种合作模式
(1)大厂独立完成(2)机构+高校(3)大厂+高校(4)大厂+机构+高校。大厂通过资金优势、数据优势往往可以独
立完成或主导合作。机构凭借行业领袖的团队和政府的资金支持,可以主导合作。而高校凭借行业领袖的团队提供科
研能力支持。
过去来看,由于大厂受到商业任务限制,资金和数据优势未能充分发挥。而未来,在ChatGPT之后,经过验证的模式
铺平商业决策之路,将逐步成为未来大模型的主导力量。
科研能力优势
无商业任务
资金优势
科研能力优势
无商业任务
资金优势
数据优势
高校 大厂
新型研发机构
资金优势:算力、数据
数据优势:数据
科研能力:模型
数据来源: CSDN、电子工程世界、新智元,浙商证券研究所
添加标题
百度:文心大模型02
28
坐拥大模型+训练框架+数据+社区多重优势,百度有望成为AIGC领域率先实现商业化的领头羊。
自2019年发布ERNIE ,百度持续投入大模型的技术创新与产业应用,布局了NLP、CV、跨模态等大模型,率先提
出行业大模型,成了支撑大模型产业落地的关键路径,构建文心大模型层、工具平台层、产品与社区三层体系。
根据IDC的大模型评分,在产品能力、生态能力和应用能力三个维度上百度均位于第一梯队,且在生态维度远高于平均
水平,这得益于百度的大模型框架“飞桨”、旸谷社区。
百度于2023年3月发布“文心一言”,成为首款中文生成式对话大模型产品。
文心大模型与产品框架 文心大模型评分
数据来源:文心官网,IDC,浙商证券研究所。
产
品
与
社
区
文心一格
AI艺术和创意辅助平台
文心百中
大模型驱动的产业级搜索系统
旸谷社区
大模型创意与探索社区
工
具
与
平
台
EasyDL-大模型
零门槛AI开发平台
BML-大模型
全功能AI开发平台
大模型API
文
心
大
模
型
大模型套件
数据标注与处理 大模型精调 大模型压缩 高性能部署 场景化工具
行业大模型
国网-百度·文心 浦发-百度·文心 航天-百度·文心 人民网-百度·文心 冰城-百度·文心
深燃-百度·文心 吉利-百度·文心 泰康-百度·文心 TCL-百度·文心 辞海-百度·文心
电影频道-百度·文心
行业大模型
医疗 ERNIE-Health
行业大模型 行业大模型
金融 ERNIE-Finance
对话PLATO 搜索 ERNIE-Search 信息抽取 ERNIE-UIE
跨语言 ERNIE-M 代码 ERNIE-Code 图网络 ERNIE-Sage
语言理解与生成
ERNIE Tiny ERNIE
鹏城-百
度·文心
ERNIE Zeus
商品图文搜索表征学习 VIMER-UMS
OCR图像表征学习 VIMER-StrucText
多任务视觉表征学习 VIMER-UFO
视觉处理多任
务学习
VIMER-TCIR
自监督视觉表
征学习
VIMER-CAE
文图生成
ERNIE-ViLG
文档智能
ERNIE-Layout
视觉-
语言
ERNI
E-ViL
语音-
语言
ERNI
E-ViL
地理-
语言
ERNI
E-
GeoL
生物计算大模型
化合物表征学习
HelixGEM
蛋白质结构预测
HelixFold
单序列蛋白质结构预测
HelixFold-Single
基于BERT衍生百度文心大模型,料将推出对话系统文心一言02
29
注:ERNIE(Enhanced language Representation with Informative Entities)
ERNIE 架构:改进了MLM任务 ERNIE :+持续学习框架 ERNIE 、:+参数量
ERNIE版本 TITAN
推出
年份
2019 2020 2021 2022
参数量 参考bert base(亿)
参考bert base(亿),
bert large(亿)
100亿 2608亿
预训练数据量
Wiki,baike,
news,tieba
wiki,news,dialogue,IR,
discourse relation
4TB -
数据来源:CSDN,电子工程世界,浙商证券研究所。
阿里巴巴:通义大模型训练策略和框架上领先行业02
30
阿里巴巴率先构建大模型统一底座、通过训练策略大幅提升稀疏参数大模型框架训练效率,在大模型框架上具备领先地位。
阿里巴巴2021年3月发布M6,成为国内最早提出千亿模型的厂商,同年发布十万亿模型M6-10T,通过expert
prototyping训练策略成功实施MoE稀疏参数模型,使模型达到10万亿参数级别。
2022年9月发布通义大模型,通过统一学习范式M6-OFA和模块化的设计,提升大模型跨模态能力和效率。
2023年报电话会上,集团CEO张勇表示针对生成式AI趋势,将全力构建预训练大模型。
阿里通义大模型架构 Dense模型与MoE模型
添加标题FFN
SA
FFN
1
FFN
2
FFN
3
SA
路由
Dense模型 MoE模型
数据来源:机器之心,浙商证券研究所
华为:盘古大模型聚焦实业02
31
华为盘古大模型深耕实业,拥有更广泛的行业大模型,具备更强的落地能力。
基于ModelArts AI工作平台的盘古大模型2021年4月发布,目前已应用于10+行业的100+应用场景。
根据信通院模型开发和模型能力两方面测评,均为优异水平。
盘古预训练大模型架构及Offering
数据来源:36氪,浙商证券研究所。
盘古大模型(根技术:架构,泛化性,精度,训练成本)
盘古行业大模型(行业know-how:行业数据预训练,无监督训练)
煤矿 小语种/英语 金融风控 时尚 气象
生产线质检 数字人大脑 销量预测 电商搜索 海浪
电力巡检 司法 工业耗能/参数预测 图文搜索 智慧育种
视觉大模型 NLP大模型 图网络大模型 多模态大模型 科学计算大模型
皮带质检
PCBA缺陷识别
电力缺陷识别
案件关键词抽取
电商情感分析
多轮对话
企业财务异常检测
空气质量检测
工业参数检测
时尚版权保护
时尚辅助设计
图文搜索
短缺天气预报
近海养殖,台风预测
智慧育种
ModelArts Studio
PRO工作流 并行推理框架 预处理算法
L2
细分场
景模型
L2
行业大
模型
L0
基础大
模型
合作伙伴交付 盘古工作流(快速交付:工作流,
增量学习,小样本标注)
L0 →L1 行
业大模型
定制费
L0基础大
模型使用
授权费
工作流订阅
及基于下游
任务微调
大
企
业
或
政
府
方
案
(
混
合
云
或
公
有
云
)
中
国
企
业
方
案
(
云
边
协
同
)
Offering 1
(千万级)
Offering 2
(百万级)
数据集管理器
图像标注工具 标注任务 特征存储
自定义算法
预置工作流
AI应用 评估
推理
数据采集
其他数据来源渠道 本地训练
ModelArts平台工作流
重点关注标的03
32
• 基础层:
AI算力:中科曙光
大模型:360,科大讯飞
• 应用层:
AI+工具:金山办公; AI+建筑:广联达
AI+法律:通达海; AI+医疗:创业慧康,久远银海
AI+教育:科大讯飞; AI+网安:安恒信息、奇安信
AI+金融:同花顺; AI+交通:佳都科技
点击此处添加标题添加标题点击此处添
加标题点击此处添加标题点击此处添加
标题点击此处添加标题点击此处添加标
题添加标题点击此处添加标题点击此处
添加标题添加标题点击此处添加标题
添加标题
95%
风险提示
33
1、AI技术发展不及预期:当前以ChatGPT为代表的AI模型以及其他多模态AI模型发展仍不成熟,存在一定缺陷;
2、版权、伦理和监管风险:AIGC生成的内容依赖现有版权素材,另外不当使用或模型自身问题可能导致不良后
果;
点击此处添加标题添加标题点击此处添
加标题点击此处添加标题点击此处添加
标题点击此处添加标题点击此处添加标
题添加标题点击此处添加标题点击此处
添加标题添加标题点击此处添加标题
添加标题
95%
行业评级与免责声明
34
行业的投资评级
以报告日后的6个月内,行业指数相对于沪深300指数的涨跌幅为标准,定义如下:
1、看好 :行业指数相对于沪深300指数表现+10%以上;
2、中性 :行业指数相对于沪深300指数表现-10%~+10%以上;
3、看淡 :行业指数相对于沪深300指数表现-10%以下。
我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重。
建议:投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者不应
仅仅依靠投资评级来推断结论
行业评级与免责声明
35
法律声明及风险提示
本报告由浙商证券股份有限公司(已具备中国证监会批复的证券投资咨询业务资格,经营许可证编号为:Z39833000)制作。本
报告中的信息均来源于我们认为可靠的已公开资料,但浙商证券股份有限公司及其关联机构(以下统称“本公司”)对这些信息
的真实性、准确性及完整性不作任何保证,也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建议向报
告所有接收者进行更新的义务。
本报告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。
本报告仅反映报告作者的出具日的观点和判断,在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议,
投资者应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求。对依据或者使用本报
告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。
本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不
一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理公司、自营部
门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。
本报告版权均归本公司所有,未经本公司事先书面授权,任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分
内容。经授权刊载、转发本报告或者摘要的,应当注明本报告发布人和发布日期,并提示使用本报告的风险。未经授权或未按要
求刊载、转发本报告的,应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。
联系方式
36
浙商证券研究所
上海总部地址:杨高南路729号陆家嘴世纪金融广场1号楼25层
北京地址:北京市东城区朝阳门北大街8号富华大厦E座4层
深圳地址:广东省深圳市福田区广电金融中心33层
邮政编码:200127
电话:(8621)80108518
传真:(8621)80106010
浙商证券研究所:
起点财经,网罗天下报告
Start Your Finance