长期模型优先,看好coding商业化价值
日期:2026年5月11日
LLM专题研究(一)
姓 名 项雯倩(证券分析师)
邮 箱 xiangwenqian@
电 话 021-63325888
执业证书编号 S0860517020003
香港证监会牌照 BQP120
姓 名 金沐阳(证券分析师)
邮 箱 jinmuyang@
电 话 021-63325888
执业证书编号 S0860525030001
香港证监会牌照 BXO329
行业研究 | 深度报告
传媒
行业评级:看好(维持)
国家/地区:中国
下载日志已记录,仅供内部参考
核心观点
LLM技术发展从预训练架构创新向后训练和推理驱动演绎。我们复盘LLM (Large Language Model)的技术路径发展,2025年以前模型
厂商通过堆算力、数据,做大模型参数,从而发挥预训练scaling law,打造底模的智能基础,以此锁定继续在AI牌桌上角逐的入场券,即
我们认为预训练是大模型竞赛的首要核心壁垒。2025年后以DeepSeek R1为代表的推理模型,发挥RL阶段Scaling Law,使其成为提升
大模型能力的核心手段。展望26年,LLM主流架构基本确定,但行业仍在探索更高效架构,最大化利用算力提升建模效率的路径;此外模
型性能改进的核心动能转向后训练和推理阶段,包括RLVR向其他领域拓展、以及推理时的inference-time scaling等,后者仍对计算资
源有较高要求。
行业CapEX高投入趋势确定,投入领先的厂商更有可能拉开技术代差。从25~28年CapEX投入量级的3年CAGR增速看,基数和增速均较
快的包括OpenAI(147%)/Anthropic(96%)/谷歌(39%)/Meta(35%)。模型厂商的投入量级有所分化,如海外互联网厂商谷歌和Meta
的CapEX投入量级在千亿美元以上,国内互联网厂商(阿里、腾讯、字节)和海外AI模型大厂(OpenAI、Anthropic)投入量级在百亿美元,
国内AI模型独立厂商智谱和MiniMax的研发投入均在百亿美元以内。我们认为投入量级的差距主要是研发的试错成本,更多的算力和人才,
可以支撑不同技术路线的同时探索,或是此前拉开技术代差的原因之一。因此我们判断大模型赛道的竞争或是两阶段的往复出现,本质是
由技术进步决定,拥有更高CapEX投入和人才密度的厂商更有可能推动技术范式突破,由此直接提升其竞争优势;而在技术发展平台期,
各家模型智力差距收窄,更关注快速迭代harness、形成更好产品体验,由此带来强爆发的商业化增长。
Coding成为现阶段LLM商业化价值最高的场景,技术特性与闭环迭代能力推动其率先爆发。Coding场景的先发优势源于两大技术支撑:
内生思维链让模型可自发完成推理与思考过程,Coding的可验证性则通过反馈循环实现能力持续提升,二者形成完整迭代闭环。我们梳理
当前头部AI coding产品ARR,测算当前全球Coding市场规模约80亿美元,CR4达86%,行业集中度高。长期来看,基于人力成本替代
逻辑,远期中美两国Coding的TAM有望达4000亿美元。整体来看,国内厂商尚未形成海外头部厂商的技术绝对优势,随着技术迭代与场
景深耕,聚焦核心技术、贴合本土需求的模型厂商有望实现突破,挖掘Coding市场红利。
下载日志已记录,仅供内部参考
长期模型优先,厂商差异化带来非对称竞争
下载日志已记录,仅供内部参考
LLM架构趋于收敛,26年关注①更高效的架构最大化算力利用/②后训练范式演进/③推理scaling
数据来源:Ahead of AI,Founder Park,东方证券研究所
2022
RLHF + PPO
2023
LoRA SFT
2024
Mid-training
2025
RLVR + GRPO
重点挖掘预训练潜力 更侧重于中期和后期训练以
及推理Scaling能力
2026
RLVR extensions
inference-time scaling
2027
Continual learning
…
LatencyCost
Response
accuracy
Trade off
图表:大语言模型技术研发重点变化
LLM架构趋于收敛,各家建立scaling law,以扎实基模能力锁定AI竞赛席位。大模型的预训练是一个数据、算法、infra高度交织的复杂系统,每家模型
厂商都需要从小的参数模型起步,逐步摸索并建立属于自身的scaling law,同步构建配套infra,筛选适配当前模型阶段的训练数据与任务数据集,持续调
试,再逐步将模型参数规模迭代升级到下一个量级。无论是海外还是国内,LLM赛道已经过大浪淘沙的竞赛,底模能力扎实、持续保持技术迭代的厂商以此
锁定下半场的竞赛席位,预训练是大模型竞赛的首要核心壁垒。
复盘LLM发展技术脉络,模型性能改进动能从架构设计转向后训练和推理阶段,26年重点关注后训练阶段挖掘RLVR向其他领域拓展、以及推理时的
inference-time scaling等。模型性能改进的核心动能从架构设计转向后训练,大的架构路线上仍以Transformer为核心,伴随线性注意力、MoE等组
件的精简和效率优化。后训练的范式持续演进,22年RLHF+PPO实现从GPT到ChatGPT的蜕变,25年RLVR+GRPO则让模型开始具备逻辑推理能力。展望
26年,一方面关注更高效的架构出现,用更少的算力实现更高的建模性能;另一方面关注RLVR在更多通用领域的扩展、Inference-time Scaling(在推理
阶段投入更多Token和计算资源)等进一步提升模型表现。
典型代表:
ChatGPT
Llama 2 DeepSeek R1
LLaMA
PaLM
Qwen-7B
OpenAI 7月成立专门Mid-
training团队,贡献于
GPT-4 Turbo和GPT-4o
下载日志已记录,仅供内部参考
数据来源:公司公告,Bloomberg,ResearchGate,InforCapital,TrendForce,VnExpress,东方证券研究所
注:OpenAI和Anthropic数据为估算值;阿里数据非财报口径,为按照自然年的季度加总;字节经营现金流数据为假设占收比10%测算。
单位:亿美元,% 2020 2021 2022 2023 2024 2025 2026E 2027E 2028E
谷歌
CapEX 223 246 315 323 525 914 1838 2302 2440
经营现金流 651 917 915 1017 1253 1647 2083 2543 3119
CapEX/经营现金流 34% 27% 34% 32% 42% 56% 88% 91% 78%
Meta
CapEX 151 186 313 272 373 697 1331 1588 1706
经营现金流 387 577 505 711 913 1158 1367 1752 2068
CapEX/经营现金流 39% 32% 62% 38% 41% 60% 97% 91% 83%
OpenAI AI大模型训练成本 30 80 310 640 1210
Anthropic AI大模型训练成本 10 40 120 220 300
单位:亿美元,% 2020 2021 2022 2023 2024 2025 2026E 2027E 2028E
阿里巴巴
CapEX 62 71 61 35 104 177 196 230 278
经营现金流 300 249 230 272 228 135 175 251 326
CapEX/经营现金流 21% 28% 26% 13% 46% 131% 112% 92% 85%
腾讯
CapEX 49 48 26 34 110 113 139 141 146
经营现金流 277 250 209 317 369 433 453 512 596
CapEX/经营现金流 17% 19% 12% 11% 30% 26% 31% 28% 24%
字节跳动
CapEX 50 61 86 126 214 229
经营现金流 90 110 120 155 186
CapEX/经营现金流 56% 56% 71% 81% 115%
智谱
研发开支
资本开支
MiniMax
研发开支
资本开支
图表:2020~2028E模型厂商资本开支、模型训练研发投入、经营现金流情况
CapEX高投入仍具有确定性,海内外厂商增速趋势有分化
海内外模型厂商的CapEX投入对比来看(因厂商数据披露差异,OpenAI和Anthropic为大模型训练成本、智谱和MiniMax为研发投入):
(1)海外vs国内,按照25-28年投入量级的3年CAGR增速来看,OpenAI和Anthropic增长最快为147%和96%。其次是国内独立模型厂商因基数较小,
MiniMax和智谱的研发投入增速分别为59%和38%。传统互联网厂商看,海外谷歌、Meta 以35%+的高增速,高于国内阿里的16%和腾讯的9%。
(2)量级维度大致分为3类:①26~28年CapEX预测投入量级均在千亿美元以上【海外谷歌、Meta】;②CapEX预测投入量级在百亿美元,如国内传统互
联网厂商【阿里、腾讯、字节】等,包括海外独立模型厂商【OpenAI、Anthropic】;③研发成本在百亿美元以内,如国内独立模型厂商【智谱、MiniMax
等】。
①CapEx
投入达千亿
美元
②CapEx/
模型训练投
入在百亿美
元
③研发投入
在百亿美元
以内
下载日志已记录,仅供内部参考
数据来源:公司公告,Bloomberg,ResearchGate,InforCapital,TrendForce,VnExpress,,东方证券研究所
注:OpenAI和Anthropic数据为估算值;阿里数据非财报口径,为按照自然年的季度加总;字节经营现金流数据为假设占收比10%测算。
单位:亿美元,% 2020 2021 2022 2023 2024 2025 2026E 2027E 2028E
谷歌
CapEX 223 246 315 323 525 914 1838 2302 2440
经营现金流 651 917 915 1017 1253 1647 2083 2543 3119
CapEX/经营现金流 34% 27% 34% 32% 42% 56% 88% 91% 78%
Meta
CapEX 151 186 313 272 373 697 1331 1588 1706
经营现金流 387 577 505 711 913 1158 1367 1752 2068
CapEX/经营现金流 39% 32% 62% 38% 41% 60% 97% 91% 83%
OpenAI AI大模型训练成本 30 80 310 640 1210
Anthropic AI大模型训练成本 10 40 120 220 300
单位:亿美元,% 2020 2021 2022 2023 2024 2025 2026E 2027E 2028E
阿里巴巴
CapEX 62 71 61 35 104 177 196 230 278
经营现金流 300 249 230 272 228 135 175 251 326
CapEX/经营现金流 21% 28% 26% 13% 46% 131% 112% 92% 85%
腾讯
CapEX 49 48 26 34 110 113 139 141 146
经营现金流 277 250 209 317 369 433 453 512 596
CapEX/经营现金流 17% 19% 12% 11% 30% 26% 31% 28% 24%
字节跳动
CapEX 50 61 86 126 214 229
经营现金流 90 110 120 155 194
CapEX/经营现金流 56% 56% 71% 81% 111%
智谱
研发开支
资本开支
MiniMax
研发开支
资本开支
AI研发投入存在大量“试错成本”→算力、人才密度是决定能否拉开技术代差的核心因素
怎么理解CapEX投入量级的差距?
以24年OpenAI在计算资源上的分配为例,总支出70亿美元=研发50亿美元+推理20亿美元,其中研发50亿美元=45亿实验性运行(用于最佳参数、架构或训练策
略等)+5亿模型最终训练运行(生成可发布、可使用的最终模型版本),探索性实验活动占研发计算资源的90%。
我们认为,对于AI前沿探索者来说,由于技术方向的不确定性和缺乏现成案例参考,需要投入大量的资源在不同架构、训练策略的探索上,通过研发试错和多技术路
径并举,将巨额投入转化成技术代差式领先;对于AI追赶者来说,可以通过学习领先模型的技术、蒸馏等方式,规避大量无效投入,实现资源投入的最优效率形成后
发优势。因此研发投入量级一定程度上体现了模型厂商的技术探索投入程度,在计算资源优先前提下,我们更看好具备极强经营现金流支撑的谷歌、Meta、阿里、
腾讯、字节,以及头部模型厂商OpenAI、Anthropic在技术领先性上的高胜率。
图表:2020~2028E模型厂商资本开支、模型训练研发投入、经营现金流情况
图表:OpenAI 24年约90%的研发算力用于研究探
索和实验性运行
下载日志已记录,仅供内部参考
数据来源:极客公园,凤凰网财经,东方证券研究所 注:粉色色块表示更具相对优势。
大模型竞争两阶段重复,大厂和独立AI模型厂商的相对优势在不同阶段会发生强弱变化
产品生态
模型需要服务于原有多业务条线,AI商业化新场景挖掘动力不足,更多是强化
原有业务用户生态
灵活性更强,无传统业务负担,更容易和特定产业客户展开合作,形成新的目标用户生态
图表:传统互联网大厂和独立AI模型厂商相对优势比较
1、技术侧的范式突破更看好拥有更高CapEX投入和人才密度的厂商(大厂如谷歌、阿里,独立AI模型厂商如OpenAI),一旦技术范式突破,
这类厂商的竞争优势将显著变强。
2、而在技术发展平台期,各家模型智力差距收窄,聚焦特定场景、组织敏捷性更强的独立AI模型厂商,能通过快速迭代harness,达到更高
的执行有效率,拉高AI增量收入增长斜率,爆发性更强。
3、整体而言,传统互联网大厂和独立AI模型厂商更偏差异化竞争的状态。因传统互联网大厂更focus在C端大流量市场,提供的模型和服务
场景需要有更强的普适性,独立AI模型厂商侧重于卖特定场景下token的有效率,从而形成AI新场景的用户生态。
26~28年CapEX预测投入量级均在千亿美元+
【谷歌、Meta】
26~28年CapEX预测投入量级在百亿美元
【阿里、字节、腾讯、OpenAI、Anthropic】
26~28年研发成本在百亿美元以内
【智谱、Minimax】
算力和CapEX CapEX高举高打,如谷歌和阿里有芯片、云、模型全栈式整合能力 CapEX量级相对小,依赖于外部计算资源合作,侧重于模型效率优化
现金充裕度 传统互联网企业的主业造血能力强,提供AI投入的资源来源 依赖于外部融资,现金流压力相对较大
人才密度 相对高,可同时支持多条技术路线的探索 依赖于核心人物的技术嗅觉和前瞻判断,确定后执行
组织敏捷性 传统互联网大厂组织架构有一定效率限制 灵活扁平,传达和执行高效
AI定位和路线选
择
延续互联网时代C端思路,抢夺AI流量入口,重视技术和产品用户触达面的广
泛程度
围绕模型能力、B端市场、Agent,战略聚焦
训练数据堆 多样性更强,围绕C端用户需求 专业性更强,聚焦特定领域和场景(如coding等)
下载日志已记录,仅供内部参考
早期对技术判断和路线选择的差异化,结合商业化成为复杂系统 *大模型赛道很难赢家通吃
数据来源:EPOCH AI,CNBC,Yahoo Finance,Newcomer,公司公告,acquinox,Sacra等,东方证券研究所
注:智谱ARR为API收入。单元格标灰指押注单一语言模态,标黄指押注全模态。
对技术前瞻判断 核心人物和背景 代表模型和技术亮点 商业化情况
海外
OpenAI
AGI第一,坚定押注scaling law,内部规划L1-L5路线图,
最早系统化推动RLHF和推理模型
Sam Altman (CEO)
Greg Brockman (联创&总裁)
Jakub Pachocki (首席科学家)
GPT-4/5、o系列推理模型
RLHF、RLVR、多模态
【ARR】
16()→55()→190()→
250()→2800(2030年),亿美元
【结构】 60%C端+40%企业()
Google 强调原生多模态,AI必须与硬件和搜索生态深度融合
Demis Hassabis (Deepmind CEO)
Jeff Dean (Deepmind 首席科学家)
Koray Kavukcuoglu (Deepmind 首席技术官)
Gemini系列: 多模态输入
Nano Banana/Veo: 多模态生
成
无AI单独拆分
【主业】25年收入4028亿美元,结构上广告73%+
订阅及设备12%+云15%
Anthropic
AI安全与对齐(Constitutional AI)。押注编程和B2B,模
型不仅要强,更要可解释且安全,走企业级专业路线。
Dario Amodei (CEO)
Claude系列:极致的编程能力与
指令遵循
【ARR】
10()→90()→300()→
440()→2240(2031年),亿美元
【结构】 80%来自企业客户()
Grok 押注算力+数据(X平台)+实时性,强调真实世界数据与推理 Elon Musk (CEO) Grok系列:实时接入X平台数据 【ARR】5(25E)→20+(26E)
Meta 坚定开源路线,认为模型能力将商品化,重点在生态和分发
Mark Zuckerberg (CEO)
Alexander Wang (首席AI官)
Muse Spark:视觉思维链和多
智能体协同
无AI单独拆分
【主业】25年收入2010亿美元,主要是广告
国内
DeepSeek
构建一种更接近人类思维的推理模型,关键突破点放在推理、
规划和自我反思上
梁文锋
DeepSeek-V2/V3/R1:MoE极
致优化、推理成本大幅下降
-
阿里 强调云+AI一体化,认为模型是云服务的核心驱动力
吴泳铭 (ATH事业群负责人)
周靖人 (技术委员会首席AI架构师)
Qwen-3:长文和编程能力
Qwen-VL系列:多模态理解
无AI单独拆分
【主业】25Q4收入407亿美元,中国电商56%+国
际电商14%+云智能15%+所有其他及抵消15%
字节 AGI为核心战略,提升模型智能 吴永辉 (Seed负责人) Seedream/Seedance系列
无AI单独拆分
【主业】25年收入1860亿美元
智谱
聚焦认知智能,模型处理问题能力的提升,强调训练效率、
数据利用率、推理成本控制
张鹏 (CEO)
唐杰 (首席科学家)
智谱
框架,代码和智能体能力
【ARR】 ()→10(),亿美元
【结构】 25年收入:26%云端+74%本地化部署
Kimi
押注超长上下文,认为处理超长上下文是通向AGI的关键瓶
颈,主打超长无损上下文窗口
杨植麟 (创始人&CEO) Kimi K2/:超长上下文 【ARR】1亿美元()
MiniMax 押注全模态,聚焦跨模态融合带来的智能飞跃 闫俊杰 (创始人&CEO&CTO)
M2: 极速推理,低成本
Hailuo/Speech: 视频/语音生成
【ARR】 () ,亿美元
【结构】
25年收入:67%AI原生产品+33%开放平
台;27%中国内地+73%海外
下载日志已记录,仅供内部参考
Coding大爆发,看好国产模型跑通Anthropic模式
下载日志已记录,仅供内部参考
Coding的可验证性,CoT和RLVR推动编程能力形成自我迭代闭环
数据来源:Artificial Analysis,东方证券研究所
图表:Artificial Analysis Intelligence Index(上图)、 Coding Index(下图)
CoT和RLVR,助推客观可验证的模型编程能力提升。传统的RLHF因人类反馈标注带有主观偏见,而在编程领域代码是确定可被客观验证的,
正确通过、失败则报错。CoT和RLVR允许模型在代码沙盒里进行成千上万的自我对弈和试错,而编程的可验证性能构建自动化闭环反馈,从
而推动模型编程能力的自我进化,向生产力工具迭代。我们认为,Coding能力的提升,一方面来自于扎实的底模能力,另一方面垂类领域数
据量、多模态理解能力、harness工程等都能为coding能力的提升助力,目前海外Anthropic显著领先,国内仍有黑马杀出可能性。
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
图表:Claude历次版本发布情况,战略聚焦押注编程
大版本 具体型号 发布时间 特点
Claude 1 Claude/Claude Instant 2023年3月
Claude 2 2023年7月 可处理10万token上下文,编程能力大幅提升
Claude 2023年11月可处理20万token上下文,幻觉率降低两倍,新增工具使用功能
Claude 3 Opus/Sonnet/Haiku 2024年3月
提供性能最强、主力旗舰、速度最快三个版本;提供20万上下文
窗口,能处理超100万token的输入内容
Claude Sonnet 2024年6月
推出Artifacts新功能;以Claude 3 Opus两倍的运行速度实现前
沿智能,是最强大的视觉模型
Claude Haiku 2024年10月以Claude 3 Opus两倍的运行速度,能力优于Claude 3 Opus
Claude Sonnet(Reasoning) 2025年2月
首款混合推理模型,在编程和前端网页开发方面展现出尤为显著的
提升
Claude 4 Opus/Sonnet 2025年5月 提供即时响应和用于深度推理的扩展思考功能,支持并行使用工具
Claude Opus 2025年8月 重点优化了智能体任务、实际编码和推理能力
Claude Sonnet 2025年9月
构建复杂智能体的最强模型,也是使用计算机的最佳模型,并且在
推理和数学计算方面展现出显著的优势
Claude Haiku 2025年10月提供与Sonnet 4相当的编码性能(成本仅其1/3、速度是其2倍多)
Claude Opus 2025年11月
是目前全球在软件工程、长周期自主智能体(Agents)及计算机
使用能力上最强的模型
Claude Opus 2026年2月
优化了前代版本的编码能力,提供100万token的上下文窗口,在
智能体代码评估Terminal-Bench 中取得最高分
Claude Sonnet 2026年2月
对模型在编码、计算机操作、长上下文推理、智能体规划、知识工
作和设计等方面的能力进行了全面升级
Anthropic的优势在于,前瞻性的技术判断押注正确,战略极致聚焦,率先形成技术-用户生态闭环。Anthropic从成立初就押注编程和B2B,
历次模型迭代重视编程和智能体能力优化,前瞻的技术选择(先发优势)+ harness层功能同步迭代(Claude团队在2026年2月1日至3月
24日这52天内迭代了30多项harness层功能)更早拿到海量数据的正向反馈,比如用户的上文数据、被用户采纳的模型生成数据等,包括像
cursor这类AI coding产品把Anthropic的Claude系列模型深度集成进IDE作为分发渠道,都使得Anthropic积累到大量数据,作用于模型能
力迭代。
Anthropic:押注编程和B端市场,先发优势积累数据飞轮
图表:Anthropic用户使用反馈和数据对模型能力提升的飞轮效应
模型能力领先
积累coding口碑
前瞻技术判断
形成先发优势
自身API调用
和订阅服务
第三方平台和应用
层强化分发
数据积累
模型能力迭代
下载日志已记录,仅供内部参考
数据来源:Menlo ventures,EPOCH AI,OfficeChai,东方证券研究所
Coding市场份额第一,5月ARR突破440亿美金,增长斜率陡峭。根据Menlo Ventures数据,Anthropic在LLM企业API市场份额逐年攀
升,25年达到40%,Coding市场份额则达到54%。而随着模型智能体能力在25年末有显著突破,harness层同步迭代,帮助模型更好在实
际生产力侧可靠、可控完成交付,Anthropic在4月ARR环比增长110亿美金达300亿美金的基础上,5月环比增长140亿美金达440亿美金。
12%
24%
40%
50%
34%
27%
7%
12%
21%16% 16%
8%15% 14%
4%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2023 2024 2025
Anthropic OpenAI Google Meta 其他
Anthrop
ic, 54%
OpenAI
, 21%
Google,
11%
其他,
14%
图表:按用量计的LLM企业API市场份额 图表:2025年Coding市场份额
2月1日-3月24日
Claude团队共发布了30
多项harness层面功能
图表:OpenAI和Anthropic ARR趋势图(亿美元)
Anthropic:押注编程和B端市场,先发优势积累数据飞轮
0
50
100
150
200
250
300
350
400
450
500
OpenAI Anthropic
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
Google押注多模态的学习和训练,超强理解能力满足复杂编程需求。Google Gemini系列模型在编程能力上同样有优异表现(Artificial
Analysis coding index排位第三),与Anthropic押注单一语言模态不同的是,Gemini系列从day1底层设计就是多模态模型,通过大量跨
模态数据的学习和对齐,强大的基模推理能力给编程水平也带来质的飞跃。
多模态推理能力为代码和可视素材的对应提供支撑,结果上体现为最终呈现的前端视觉效果极强,通过差异化的视觉对应路线,弱化数据量
级不足的短板。Coding能力训练的3个层级,从入门到中级到高级,分别是带注释的代码、项目代码、产品设计文档作为训练语料,多模态
输入和推理能力对高级编程水平的训练助益显著,从纯代码的文本学习,到产品设计文档的可视化素材和代码的跨模态学习,基模推理能力
作用下满足更高阶的编程需求。
Google:输入多模态和强推理,另辟蹊径提升编程能力
图表:Gemini历次版本发布情况,注重跨模态训练和理解能力
大版本 具体型号 发布时间 特点
Gemini Ultra/Pro/Nano 2023年12月
从底层设计为多模态模型,理解文本、图像、音频等多种形式,领
先的编码基础模型之一
Gemini Flash/Pro 2024年2月
全新MoE架构,推出100万token的上下文窗口,不同模态执行高
度复杂的理解与推理任务
Gemini Flash 2024年12月
同时支持多模态输入和输出,原生调用Google搜索、代码执行工
具以及第三方用户自定义函数等工具,为智能体能力奠定基础
Gemini Pro 2025年3月
Thinking模型,基于大幅优化的基础模型与后训练,在一系列需
要高级推理能力的基准测试中处于领先地位,具备高级编程能力
Gemini Flash/Flash-Lite 2025年6月 针对成本和速度进行了优化
Gemini Pro 2025年11月
最先进的推理能力和多模态功能,体验最佳的vibe coding与智能
体编程模型
Gemini Pro 2026年1月 用于解决复杂问题的更智能、更强大的基础模型
图表:模型提升Coding能力的3个训练层级
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
时间 具体型号 特点
输入单价
(元/百万token)
输出单价
(元/百万token)
缓存命中
(元/百万token)
2024年1月 GLM-4
专为智能体应用打造的基础模型,在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实
代码智能体的人工对比评测中,实测国内最佳
2025年7月
代码Coding较提升27%,对齐Claude Sonnet 4;上下文窗口由128K→200K,适应
更长的代码和智能体任务
2025年9月 面向Coding场景强化了编码能力、长程任务规划与工具协同
2025年12月
在Coding与Agent 能力上取得开源SOTA表现,真实编程场景的使用体感逼近 Claude Opus
,擅长复杂系统工程与长程 Agent 任务
2/3 8/14
2026年2月 GLM-5
针对长程任务(Long Horizon Task)场景深度优化,支持持续多轮自主执行,单次任务最长可
达 8 小时,能够独立完成代码编写、方案设计、系统搭建等工程级交付物。
4 18 1
2026年3月 GLM-5-Turbo 专为视觉编程打造的多模态Coding基座模型 5 22
2026年4月
专为智能体应用打造的基础模型,在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实
代码智能体的人工对比评测中,实测国内最佳
6 24
2025年4月 GLM-Z1 相对于基础模型显著提升了数理能力和解决复杂任务的能力
2025年4月
GLM-Z1-
Rumination
通过更长时间的深度思考来解决更开放和更复杂的问题,在研究型写作和复杂检索任务上的能力得
到了显著提升。
2024年7月 CogVideoX
2024年10月 GLM-4-Voice
2025年8月 在41个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能 2 6
2025年12月
在视觉理解精度上达到同参数规模SOTA首次融入工具调用能力,为多模态Agent提供统一技术底
座
1 3
2026年4月 GLM-5V-Turbo 面向视觉编程打造的多模态Coding基座模型 5 22
2025年3月 AutoGLM 集深度研究与实际操作能力于一体的Agent
2025年8月 AutoGLM
在Device Use基准测试中,AutoGLM表现优于ChatGPT Agent、和Claude
Sonnet 4,处于主流Agent的SOTA水平
图表:智谱历个模型发布情况
基
础
模
型
推理
模型
多模
态模
型
智能
体模
型
平均涨价125%
平均涨价22%
平均涨价12%
先降后涨
智谱:类Anthropic战略聚焦编程,私有化部署服务经验提供科学的模型迭代方向。智谱的技术迭代始终以智力进化为核心,模型即产品,
底模、推理增强、多模态能力结合,让通用模型拥有处理复杂任务的各项能力,我们理解更类似于智力提升+将harness层面功能封装在模型
里,从而形成MaaS的强竞争力。从市场买单程度看,26年以来公司基模持续涨价,4月发布的相较25年底的涨价接近200%。
公司表示26Q1 API价格综合涨幅83%,使用量同涨400%,实现量价齐升。
26年预计是国产模型coding发展大年
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
DeepSeek:底模技术领先,注重模型数理推理能力迭代,认为Coding是大语言模型的重要分支,单独发布了多个Coding相关版本;同
时在视觉语言模型上也有深厚布局。
26年预计是国产模型coding发展大年
图表:DeepSeek历次版本发布情况:注重计算效率和模型性能平衡,技术贡献者
时间 具体版本 特点
2024年1月 DeepSeek LLM 经典Transformer架构,引入分组查询注意力(GQA)机制,保持性能的同时提升推理效率
2024年5月 DeepSeek V2
MoE并引入多头潜在注意力(MLA),训练成本显著下降(与 67B 相比节省约 %)、KV 缓存压缩(减少约 %)、生成吞吐量
提升等关键优化
2024年12月 DeepSeek V3 引入无辅助损失的负载均衡策略、多 token 预测(MTP)等创新,优化训练稳定性与生成效率,增强长上下文处理与推理能力
2025年1月 DeepSeek R1
采用强化学习主导的训练流程(无 SFT),结合冷启动数据和多阶段训练采用强化学习主导的训练流程(无 SFT),结合冷启动数据和多
阶段训练,在数学、代码与自然语言推理等任务上与 OpenAI o1 正式版相当
2025年8月 DeepSeek 混合推理架构,更高的思考效率和Agent能力
2025年12月 DeepSeek 强化Agent能力,融入思考推理
2026年4月 DeepSeek V4 原生支持100万token超长上下文,首创CSA(压缩稀疏注意力)+ HCA(高度压缩注意力)交替叠加架构,大幅降低算力消耗和显存需求
2024年1月 DeepSeek-Coder 专为代码生成、调试和优化而设计
2024年2月 DeepSeek-Math 自研GRPO高效强化学习,在竞赛级MATH基准上以小参量实现
2024年6月 DeepSeek-Coder-v2 最强开源编码模型
2025年11月 DeepSeek-Math-V2 验证器-生成器协同的双向改进循环,显著提升数学推理能力,大幅减少了大模型幻觉
2024年3月 DeepSeek-VL 混合视觉编码器的设计
2024年12月 DeepSeek-VL2 动态分块策略和DeepSeek MoE语言模型,重点攻克高分辨率图像处理和复杂视觉任务两大难题
2025年10月 DeepSeek-OCR 将文本内容转换为图像形式,能用比原来少得多的视觉token来表示相同的信息量,从而实现对文本信息的高效压缩
基
础
模
型
数学
推理
模型
视觉
语言
模型
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
Kimi:顶尖长上下文,底模能力扎实、VL和agent harness强
26年预计是国产模型coding发展大年
图表:Kimi历次版本发布情况
时间 具体型号 特点
输入:缓存命中
(元/百万token)
输入:缓存未命中
(元/百万token)
输出价格
(元/百万token)
2025年1月 Kimi 发布多模态思考模型,引入思维链能力,提升长文本理解和推理能力
2025年7月 Kimi K2 万亿参数MoE架构,强化代码生成、工具调用与数学推理能力 1 4 16
2026年1月 Kimi
引入原生多模态架构、Agent Swarm机制,支持视觉理解、代码生成、多智能体协作等
能力
4 21
2026年4月 Kimi 长程编码能力提升,Agent集群规模与协作能力升级 27
2025年4月 Kimi-VL MoE架构,推理时仅激活参数,具备强大多模态推理和agent能力
基
础
模
型
视觉理解
模型
下载日志已记录,仅供内部参考
数据来源:公司官网,东方证券研究所
MiniMax:全模态布局稀缺卡位,视频、声音合成业内认可度高,大语言模型优势在于推理的低成本和高速。
26年预计是国产模型coding发展大年
图表:MiniMax历次版本发布情况:稀缺全模态卡位
时间 具体型号 特点
输入单价
(元/百万token)
输出单价
(元/百万token)
缓存读取
(元/百万token)
缓存写入
(元/百万token)
2022年4月 abab 1 首款文本模型
2022年6月 abab 2 具备对话与问答能力,能实现流畅连贯的智能对话
2022年10月 abab 3 在语言理解、多轮对话及内容生成等核心能力上显著超越上一代模型
2023年5月 abab 在写作、聊天、问答等场景中达到了 的水平
2024年1月 abab 国内首个MoE架构模型,处理复杂任务能力、计算效率大幅提升
2025年1月 Text-01 采用了混合架构,融合了线性注意力、softmax注意力和MoE
2025年6月 MiniMax M1 MoE架构,结合闪电注意力机制,支持输入/输出100/8万个token
2025年10月 MiniMax M2 专为代码和agent相关应用设计,在智能、速度、成本效益之间实现最佳平衡
2025年12月 MiniMax 重点聚焦更多编程语言和办公场景的可用性
2026年2月 MiniMax 编程场景表现尤为突出,1美金/小时经济可行性高
2026年3月 MiniMax 第一个模型深度参与迭代自己的模型,能自行构建harness完成高度复杂的生产力任务
2024年8月 Hailuo-01 首个视频生成模型
2025年6月 Hailuo-02 高度复杂场景表现出色,NCR架构使训练和推理效率提升了倍
2025年10月 进一步升级动态表现力,在肢体动作呈现、风格化、人物微表情上显著提升
2022年10月 Speech-01 零样本语音合成,在公开的 TTS 领域排行榜上占据首位
2024年8月 Music-01 合成纯音乐为制作人快速构建歌曲的基本结构
2025年4月 Speech-02 全新自回归TTS提供最先进的语言克隆
2025年10月 Music-02 对人声的细腻情绪、器乐的动态张力都精准捕捉与还原
语
言
模
型
多模
态生
成模
型
音频
模型
下载日志已记录,仅供内部参考
数据来源:公司官网,Sacra,TechCrunch,东方证券研究所
注:Codex ARR根据Claude code占比Anthropic整体ARR比例假设。由于产品ARR披露时点差异,当前规模仅为估计。
当前Coding市场规模在80亿美元左右。我们收集目
前Coding赛道头部产品(包括Copilot类和Agentic
类),加总得到目前Coding市场规模合计接近80亿
美元,CR4达86%。
当前Coding市场规模接近80亿美元
Claude code cursor OpenAI Codex Github Copilot
发布时间 2025年5月 2023年3月 2025年6月 2022年6月
ARR
(亿美元)
10()→25 ()
1()→2()→5()→
10()→20()
12(预测数据) 10(预测数据)
用户规模 26年初以来周活用户翻倍 25年DAU超100万、付费用户36万 26年2/4月周活用户达160/300万 截至26年1月付费用户数470万
收入结构
26年初以来企业订阅量增长3倍,企业收入
占比超过50%
- - -
订阅价格
Pro $17/mo
Max 5x $100/mo
Max 20x $200/mo
Pro $20/mo
Pro+ 3x $60/mo
Ultra 20x $200/mo
Go $8/mo
Plus $20/mo
Pro 5x $100/mo
Pro 20x $200/mo
Pro $10/mo
Pro+ 5x $39/mo
Team standard $20-25/mo
Team premium $100-125/mo
Enterprise $20/seat+API
Team $40/user/mo
Enterprise按用量付费
Enterprise按用量付费
Business $19/user/mo
Enterprise $39/user/mo
图表: Coding赛道头部产品收入、用户、定价情况
图表:加总AI coding native产品最新ARR,目前Coding市场规模接近80亿美元
25
20
12
10
4
0
10
20
30
40
50
60
70
80
90
Claude
code
Cursor Codex Github
Copilot
Lovable Replit Poolside Windsurf Devin Supabase Vercel VO
下载日志已记录,仅供内部参考
数据来源:. Bureau of Labor Statistics,中华人民共和国工业和信息化部,东方证券研究所
长期Coding市场规模测算:中美两国AI coding TAM达4000亿美元
训练数据 模型能力 对应岗位 国家 岗位数量(个) 年薪(美元) 人力成本规模(亿美元) AI替代深度 市场规模(亿美元)
入门 注释代码训练
代码自动补全、简单
逻辑和代码模板生成、
基础测试用例生成等
初级软件开发工程师、初
级测试工程师、外包代码
实现员等
美国 1549900 76683 1189
60%
(深度替代)
713
中国 3227742 28571 922 553
中级 项目的部分完整代码
理解项目结构,具备
模块化思维
中级全栈/前后端开发工程
师、应用集成工程师等
美国 2744300 125321 3439
40%
(部分替代)
1376
中国 5715138 57143 3266 1306
高级 产品设计全套材料
具备工程化与产品化
思维,理解复杂需求
并生成系统级架构
高级/资深开发工程师、系
统架构师、技术型产品经
理、技术负责人
美国 219500 132322 290
20%
(辅助提效为主)
58
中国 457119 85714 392 78
美国合计:
2147亿美元
中国合计:
1938亿美元
从替代程序员和产品开发工程师人力成本的角度,远期AI coding市场TAM达4000亿美元的空间。我们延续模型coding能力训练具有不
同层级的思路,训练层级从入门到中级到高级,分别是带注释的代码、项目代码、产品设计文档作为训练语料,对应到程序员和工程师的能
力要求。例如,对于入门级别的AI coding能力,基于带注释的零散代码段训练,模型能力更多是支持代码自动补全和基础代码模板生成,更
多对应的是初级软件开发工程师、初级测试工程师等,对于这类岗位AI的替代程度较深;而中级的coding训练,使用项目代码,如单个APP
的多页面代码,模型学习页面和代码之间的对应关系,模块思维下更多支持的是中级全栈/前后端开发工程师、应用集成工程师等工作,可以
起到部分替代;而对于更高阶的以产品全套设计资料训练的模型来说,模型同时具备工程化与产品思维,对高级开发工程师、架构师等岗位
的工作能起到辅助作用。因此我们统计中美两国三个级别的程序员岗位和薪酬情况,测算中美两国AI coding的TAM分别为1938/2147亿美
元,合计达4000亿美元以上。
图表: Coding赛道中美市场规模测算
下载日志已记录,仅供内部参考
投资建议和风险提示
投资建议:我们认为应重视现有模型厂商稀缺性价值,相关标的:阿里巴巴-W(09988,买入)、谷歌(ALPHABET)-A(,未评级)、
智谱(02513,未评级)、MINIMAX-W(00100,未评级)。此外关注多模态技术领先且商业化闭环的公司。相关标的: 谷歌(ALPHABET)-
A(,未评级)、快手-W(01024,买入)、MINIMAX-WP(00100,未评级)、美图公司(01357,买入)。
风险提示:
AI技术迭代不及预期。AI周期的发展进程取决于底层模型技术能力的演进趋势,若技术推进不及预期会影响AI产业发展表现和速度。
AI应用落地不及预期。技术嫁接到应用侧存在一定的落地风险
AI商业化变现不及预期。因技术持续变化,产品应用形态和商业化路径都尚不清晰,加之算力成本还较为昂贵,以及国内用户付费习惯在
培养中,AI商业模式存在不确定性
测算误差风险。因数据披露口径差异等因素,或导致测算存在误差。
下载日志已记录,仅供内部参考
有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明
分析师申明
每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明:
分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断;分析师薪酬的任何组成部分无论是在过去、现在及将来,均
与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。
投资评级和相关定义
报告发布日后的12个月内行业或公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500
指数);
公司投资评级的量化标准
买入:相对强于市场基准指数收益率15%以上;
增持:相对强于市场基准指数收益率5%~15%;
中性:相对于市场基准指数收益率在-5%~+5%之间波动;
减持:相对弱于市场基准指数收益率在-5%以下。
未评级——由于在报告发出之时该股票不在本公司研究覆盖范围内,分析师基于当时对该股票的研究状况,未给予投资评级相关信息。
暂停评级——根据监管制度及本公司相关规定,研究报告发布之时该投资对象可能与本公司存在潜在的利益冲突情形;亦或是研究报告发布当时该股票的价值和价格分析存在重大
不确定性,缺乏足够的研究依据支持分析师给出明确投资评级;分析师在上述情况下暂停对该股票给予投资评级等信息,投资者需要注意在此报告发布之前曾给予该股票的投资评
级、盈利预测及目标价格等信息不再有效。
行业投资评级的量化标准:
看好:相对强于市场基准指数收益率5%以上;
中性:相对于市场基准指数收益率在-5%~+5%之间波动;
看淡:相对于市场基准指数收益率在-5%以下。
未评级:由于在报告发出之时该行业不在本公司研究覆盖范围内,分析师基于当时对该行业的研究状况,未给予投资评级等相关信息。
暂停评级:由于研究报告发布当时该行业的投资价值分析存在重大不确定性,缺乏足够的研究依据支持分析师给出明确行业投资评级;分析师在上述情况下暂停对该行业给予投资
评级信息,投资者需要注意在此报告发布之前曾给予该行业的投资评级信息不再有效。
下载日志已记录,仅供内部参考
免责声明
本证券研究报告(以下简称“本报告”)由东方证券股份有限公司(以下简称“本公司”)制作及发布。
本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告的全体接收人应当采取必要措施防止本报告被转发给他人。
本报告是基于本公司认为可靠的且目前已公开的信息撰写,本公司力求但不保证该信息的准确性和完整性,客户也不应该认为该信息是准确和完整的。同时,本公司不保证文中观点或
陈述不会发生任何变更,在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的证券研究报告。本公司会适时更新我们的研究,但可能会因某些规定而无法做到。除了一
些定期出版的证券研究报告之外,绝大多数证券研究报告是在分析师认为适当的时候不定期地发布。
在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议,也没有考虑到个别客户特殊的投资目标、财务状况或需求。客户应考虑本报告中的任何意见或建议是否
符合其特定状况,若有必要应寻求专家意见。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀
请。
本报告中提及的投资价格和价值以及这些投资带来的收入可能会波动。过去的表现并不代表未来的表现,未来的回报也无法保证,投资者可能会损失本金。外汇汇率波动有可能对某些
投资的价值或价格或来自这一投资的收入产生不良影响。那些涉及期货、期权及其它衍生工具的交易,因其包括重大的市场风险,因此并不适合所有投资者。
在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任,投资者自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证
券投资损失的书面或口头承诺均为无效。
本报告主要以电子版形式分发,间或也会辅以印刷品形式分发,所有报告版权均归本公司所有。未经本公司事先书面协议授权,任何机构或个人不得以任何形式复制、转发或公开传播
本报告的全部或部分内容。不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。
经本公司事先书面协议授权刊载或转发的,被授权机构承担相关刊载或者转发责任。不得对本报告进行任何有悖原意的引用、删节和修改。
提示客户及公众投资者慎重使用未经授权刊载或者转发的本公司证券研究报告,慎重使用公众媒体刊载的证券研究报告。
东方证券研究所
地址:上海市中山南路318 号东方国际金融广场26 楼
电话: 021-63325888
传真: 021-63326786
网址:
下载日志已记录,仅供内部参考
下载日志已记录,仅供内部参考