智库文档所有分类

算力重构：从模型训练迈向推理主导的新时代.pdf

下载

He Wangmin

16页 | 945KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。计算机行业行业研究 | 深度报告 ⚫ 算力从训练走向推理，步入增长新周期。当前大模型训练数据量增长放缓、边际效益递减，训练算力逐步转向 “精耕细作”。随着大模型能力全面超越人类基准，应用边界持续拓展，叠加推理成本因技术优化出现断崖式下跌，进一步刺激了推理需求爆发，算力结构已开始向推理侧倾斜。展望未来，多模态交互带来推理密度指数级提升，Agent 的普及引发推理任务爆发增长，二者将成为推动推理算力非线性爆发的核心引擎，推理算力占比将持续攀升，成为算力增长的主要驱动力。 ⚫ Agent 时代，底层算力架构与云服务模式迎来重塑。硬件层面，CPU迎来价值重估，逐步从幕后的调度角色转向前台核心承载，成为处理高度分支化任务、承载海量 KV-Cache 的最优载体，直接推动服务器向多核化、大内存规格迭代升级；与此同时，GPU的性能瓶颈已从算力峰值转向显存带宽。云服务层面，商业模式从传统的资源租赁模式，加速向“MaaS（模型即服务）与 Agent编排”的全新范式跃迁；行业竞争核心也从单纯的算力规模比拼，转向工具链生态的综合构建。阿里云、百度云等头部厂商也纷纷开启涨价。云厂商正从基础资源提供商，加速转变为智能体生态的集成商与综合承包商。 ⚫ 存储架构创新成为新趋势。在推理 AI 时代，算力中心核心挑战从之前的算力为主逐步转向存储与带宽效率，KV 缓存对存储架构提出新要求，存储架构的创新带来新机会。英伟达在 2026 CES 推出 ICMS AI 原生存储平台，新增闪存层优化 KV 缓存管理，依托 BlueField-4 DPU 实现大容量与高速传输，多家存储厂商参与构建；其还推进 SCADA 计划提升存储效率，cuDF、cuVS 数据加速库获国外主流云平台采用，而国内星环科技也与英伟达合作研发 GPU 数据库，共同推动 AI 推理与数据处理降本增效。。算力进入推理时代，算力链各个环节有望不断受益，我们建议投资者关注芯片、云服务、IDC 等等领域标的。 ⚫ 芯片端（GPU&CPU）：相关公司包括海光信息(688041，买入)、寒武纪 (688256，未评级)、禾盛新材(002290，未评级)； ⚫ 云服务&IDC：相关标的为首都在线(300846，未评级)、东阳光(600673，未评级)、豫能控股(001896，未评级)、网宿科技(300017，未评级)、优刻得- W(688158，未评级)等； ⚫ 服务器：相关标的为浪潮信息(000977，未评级)、中科曙光(603019，买入)、华勤技术(603296，买入)等； ⚫ 数据库：相关标的为达梦数据(688692，未评级)、星环科技-U(688031，未评级) 风险提示 AI应用推进不及预期风险；行业竞争加剧风险；投资建议与投资标的核心观点国家/地区中国行业计算机行业报告发布日期 2026年 04月 20日浦俊懿执业证书编号：S0860514050004 pujunyi@ 021-63326320 陈超执业证书编号：S0860521050002 chenchao3@ 021-63326320 算力重构：从模型训练迈向推理主导的新时代看好（维持）计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目录一、从训练走向推理，算力步入增长新周期 ................................................... 4 训练算力渐到瓶颈，推理算力崭露峥嵘 ........................................................................ 4 大模型提质降本，应用侧爆发在即 ............................................................................... 5 二、推理时代，Agent爆发重构核心算力 ....................................................... 7 CPU：从“幕后调度”到“前台执行” ................................................................................. 7 GPU：推理需求结构化增长，显存带宽成新的性能边界 .............................................. 8 云服务：Agent场景下商业模式迎来转型 ..................................................................... 9 三、AI存储架构发生革新，数据处理迎来新范式 ......................................... 10 投资建议 ...................................................................................................... 14 风险提示 ...................................................................................................... 14 计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 3 图表目录图 1：近年来模型训练数据量增量逐渐放缓 .................................................................................. 4 图 2：大模型训练成本逐步抬升 .................................................................................................... 4 图 3：全球人工智能（AI）全球市场规模及预测（亿元） ............................................................. 5 图 4：选定的人工智能指数技术性能比较基准与人类表现对比（基本赶超） ................................ 5 图 5：2022–2024 年典型大模型的推理成本断崖降低 ................................................................. 6 图 6：中国企业未来智能体关键数量预测 ..................................................................................... 7 图 7：不同 Agent框架下 CPU与 GPU的运行时延分析 ............................................................... 8 图 8： OpenClaw的大模型调用量月榜 ........................................................................................ 8 图 9：阿里云部分产品调价 ......................................................................................................... 10 图 10：KV缓存从 HBM卸载到 CPU内存、本地 SSD或远程网络存储 ..................................... 11 图 11： KV缓存分为从 GPU HBM到共享存储的 4层架构 ......................................................... 11 图 12：英伟达推出推理上下文内存平台（ICMS），提升推理性能和效率 ................................... 12 图 13：英伟达与 Dell、HPE等十余家合作伙伴构建下一代 AI存储平台 .................................... 13 图 14：英伟达推出数据加速库 cuDF、cuVS加速结构化、非结构化数据处理 ........................... 13 图 15：星环科技 GPU数据库产品大幅提升数据处理效率 .......................................................... 14 计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 4 一、从训练走向推理，算力步入增长新周期训练算力渐到瓶颈，推理算力崭露峥嵘模型训练数据量增长放缓，训练算力迈向“精耕细作”。自 2020 年 GPT-3 以 1750 亿参数开启大模型时代后，大模型参数数量快速攀升至万亿规模，训练数据量也相应攀升，对应训练算力投入也随之快速增长。尽管大模型训练数据量和训练算力的绝对投入仍在不断增加，但训练的边际效益却在递减。这一方面受限于互联网高质量人类数据的逐渐耗尽，导致模型面临“数据墙”挑战；另一方面，动辄数亿甚至数十亿美元的训练成本与性能提升不成比例，一味提升训练数据量规模的经济性变弱，大模型训练更加注重成效比，使得训练算力投入的增长逐渐放缓。由于训练算力增长逐渐趋缓，整体算力重心开始转移。图 1：近年来模型训练数据量增量逐渐放缓图 2：大模型训练成本逐步抬升数据来源：《人工智能产业发展研究报告》，东方证券研究所数据来源：《2025年人工智能指数报告》，东方证券研究所全球人工智能总投入仍在快速上升。随着生成式 AI 在千行百业的深度渗透，底层基础设施建设进入白热化，Gartner 预测，2026 年全球人工智能（AI）总支出将达到万亿美元，同比增长 44%，预计 27 年支出增长 31%。另外根据 Precedence Research 市场预测，2023 年至 2030 年全球人工智能（AI）市场有望实现超过 35%的复合增长率，全球 AI算力规模也处于增长快车道。算力结构向推理侧逐渐倾斜。随着大模型从实验室走向消费市场，支撑数亿用户实时交互、生成内容的推理算力需求迎来井喷，算力消耗已迈入“推理时代”。根据德勤报告预测，算力推理端工作负债 2026年占所有计算量约三分之二，2025年约占一半，2023年约占三分之一，推理算力占比呈现逐年上升趋势。我们认为当前 AI 正加速向应用侧渗透，在整体算力需求量快速增长的背景下，推理端算力占比有望不断提升。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 5 图 3：全球人工智能（AI）全球市场规模及预测（亿元）数据来源：《智算中心基础设施演进白皮书》，东方证券研究所大模型提质降本，应用侧爆发在即大模型能力不断跃升，较人类基准实现全面跨越。过去大模型的进步主要体现在图像分类、基础文本理解等通用任务上。然而，2024 至 2026 年间的质变在于极端复杂认知基准的突破。斯坦福《2025 年人工智能指数报告》显示，人工智能系统相对于人类基线在 8 类比较基准（如图像分类、基础阅读理解等）基本实现了超越。我们认为大模型能力的跃升，拓展了 AI 应用的边界，从而进一步增加推理算力的需求。图 4：选定的人工智能指数技术性能比较基准与人类表现对比（基本赶超）数据来源：《2025年人工智能指数报告》，东方证券研究所计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 6 推理成本断崖下跌，大模型应用进入普惠时代。现有技术范式的精进直接拉低了 AI 的门槛。随着蒸馏技术、量化算法以及类似 MoE（混合专家模型）架构的成熟，大模型已不再单纯依赖参数规模的暴力堆叠。通过更高效率的训练与推理，百万 Token 的调用成本已从美元时代跨入“分厘时代”。Epoch AI 估计，根据任务不同，大语言模型的推理成本每年快速下降。如在 MMLU 测试（评估语言模型性能的常用比较基准）中达到水平的模型，近年来推理成本大幅下降，其他主流模型也呈现类似趋势，部分国产旗舰模型甚至实现了较两年前近百倍的性价比提升。我们认为推理成本的下降有望触发“杰文斯悖论”，即低单价刺激超大规模的需求爆发，将进一步带动推理需求的提升。图 5：2022–2024 年典型大模型的推理成本断崖降低数据来源：《2025年人工智能指数报告》， Epoch AI, 2025;，Artificial Analysis, 2025 东方证券研究所多模态与Agent有望成为未来推理算力增长的重要引擎。多模态交互实现了推理密度的指数级跃升。相比于纯文本处理，多模态模型在处理图像、音频尤其是实时视频流时，每一帧数据所包含的信息维度和计算复杂度远超文本 Token。这种从一维向多维的进化，使得单次交互所需的推理算力增加了数十甚至上百倍。此外， Agent（智能体）的普及触发了推理任务的连环反应。智能体不再是单次问答的工具，而是能够自主拆解任务、调用工具并进行自我博弈的劳动力。一个简单的指令可能触发后台成百上千次的推理循环与链式思考，产生庞大调用量，推理算力的消耗总量正呈现出非线性的爆发。IDC预测中国企业活跃智能体数量将在 2031 年突破亿规模，年复合增长率达到 135%以上。由于智能体执行密度的增长和任务复杂度的提升，对应 Token 消耗年均超 30 倍的指数级跃升。我们认为随着多模态以及 Agent 的普及，推理算力将实现加速增长。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 7 图 6：中国企业未来智能体关键数量预测数据来源：IDC，东方证券研究所二、推理时代，Agent 爆发重构核心算力 CPU：从“幕后调度”到“前台执行” 执行控制流逐渐 CPU 化，CPU 性能逐渐成为关键指标。在以往的 Transformer 训练为主的阶段，CPU 的角色往往被简化为“数据搬运工”和“GPU 调度器”，市场普遍认为 AI 算力约等于 GPU。然而，Agent 时代的到来彻底改变了这一局面。Agent 与纯对话模型的核心差异在于 “执行”能力。当OpenClaw等智能体需要执行Python代码、发起Web请求、操作数据库或进行复杂的逻辑判断时，这些任务呈现出高度分支化和 I/O 密集型的特征。根据佐治亚理工学院与 Intel实验室的最新研究，基于Agent全链路执行过程的性能剖析显示，工具处理环节的CPU 耗时在端到端延迟中的占比峰值突破 90%。在高并发负载条件下，系统端到端延迟由秒激增至秒以上。这一显著的性能劣化现象表明，系统吞吐量的制约因素正经历结构性迁移：瓶颈已由传统的 GPU 算力供给限制，转变为 CPU 多核并发调度能力的制约。我们认为 Agent 时代 CPU 重要性不断凸显。 CPU 成为 KV-Cache 的最优容器，正在经历一场由 Agent 驱动的“超多核”复兴。Agent 的长上下文与多轮对话特性，会产生巨大的 KV-Cache。这一缓存占用随上下文长度线性增长，快速耗尽昂贵的 HBM（高带宽内存）。而 CPU 配备的大容量 DDR5/LPDDR5 内存（可通过 CXL 扩展）在单位存储成本上具有显著优势，成为承载海量 KV-Cache 的“温数据”层的最优选择。产业端已出现明确信号：英伟达已开始在架构层面回应变化，据报道，公司计划在下一代 Rubin 架构中大幅提升 CPU 核心配比，并开放 NVL72 机柜对 x86 CPU 的支持。这一举措等同于再次确认：在长上下文与高并发 Agent 场景中，大内存 CPU 是承载海量 KV-Cache 的可行方案。 CPU 市场正在经历一场由 Agent 工作流驱动的价值重估，我们预计，服务器 CPU 的配置标准将迎来升级潮。单路 CPU 将难以支撑高并发 Agent 集群，双路乃至多路服务器将成为标配，具计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 8 备高核心数、高主频产品将享有显著溢价。值得关注的是，英伟达已做出具有风向标意义的战略布局，该公司追加 20 亿美元投资云服务商 CoreWeave，计划在其下一代 AI 基础设施中大规模部署专为“代理式推理”设计的Vera CPU，旨在解决Agent负载下高并发与低延迟需求难题。图 7：不同 Agent框架下 CPU与 GPU的运行时延分析数据来源：佐治亚理工学院论文《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》，东方证券研究所 GPU：推理需求结构化增长，显存带宽成新的性能边界 Token 消耗指数级增长，算力需求激增，从训练到推理的迁移正重塑算力芯片市场格局。 OpenClaw 的爆火直接体现在 Token 消耗上。据报道，阶跃星辰 Step Flash 在 OpenClaw 上的日调用量增长超 20 倍，MiniMax 的 M2 系列模型在 2026 年 2 月的平均单日 Token 消耗量已增长至 2025 年 12 月的超过 6 倍，其中来自编程任务的 Token 消耗量增长超过 10 倍。算力需求的持续扩张正直接拉动算力芯片需求增长。另外，德勤在《2026 科技、传媒和电信行业预测》中指出，在“模型训练时代”，GPU 的核心指标是 FP16/BF16 算力峰值（FLOPS），追求的是大规模矩阵乘法的吞吐。而在“Agent 时代”，核心场景转向了推理。与训练阶段不同，Agent 带来的推理需求是持续、实时且带有显著波峰波谷特征的，我们认为 Agent 时代的到来彻底重构了 GPU 的负载模型。 GPU 架构设计逻辑发生根本性迁移，显存带宽成为新的性能边界。面向海量且碎片化的推理请求，GPU 的性能瓶颈不再局限于计算单元，而是迅速向存储子系统转移。具体而言，Agent 的长上下文处理特性导致 KV-Cache 占用显存急剧增加。在长上下文推理场景下，显存容量往往在算力利用率不足 30%时便已耗尽，形成典型的“显存墙”现象。这一变化导致 GPU 架构设计逻辑发生根本性迁移：显存带宽优于算力峰值。在Agent推理的Decode（解码）阶段，模型需频繁从显存中读取 KV-Cache，这一过程属于典型的访存密集型任务。此时，GPU 的计算核心常因等待数据传输而处于空闲状态，导致算力利用率急剧下降，具备高显存容量与高带宽的中高端推理卡市场需求激增，显存带宽成为新的性能边界。图 8： OpenClaw的大模型调用量月榜计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 9 数据来源：OpenRouter 统计数据，东方证券研究所云服务：Agent 场景下商业模式迎来转型云服务商业模式重构，正经历从“IaaS 资源租赁”向“MaaS（模型即服务）与 Agent 编排服务”的范式跃迁。在传统云计算模式下，云厂商的核心商业模式是销售虚拟机（VM）实例与 GPU 时长，用户需自行承担繁重的环境部署、扩缩容运维与框架适配工作。然而，Agent 应用具有高度的任务突发性、工具链依赖性与状态管理复杂性，这种传统的“裸金属”交付模式已难以匹配 Agent 开发者的需求。Agent 负载的不可预测性催生了 Serverless GPU 与按次计费模式的爆发。Agent 在执行任务时，往往涉及多轮对话、外部 API 调用及长时间的工具等待，若采用传统的按小时计费模式，用户将为大量的 GPU 空闲时间支付高昂成本。这一痛点直接推动了 AWS Bedrock、Azure OpenAI 及阿里云百炼等平台 Serverless 推理服务的快速普及。云厂商不再单纯售卖 GPU 实例，而是封装底层算力，提供基于 Token 消耗量或 Agent 执行步数的精细化计费模式。这种模式将基础设施的复杂度下沉至云厂商，使得开发者无需关注底层资源调度，仅需专注于 Agent 的逻辑编排，极大降低了 AI 应用的开发门槛。云厂商的商业逻辑正从单纯的“底层算力租赁”跃升为“智能体运行与分发平台”，其角色正转变为智能体生态的聚合者与赋能者。更为关键的是，云服务的竞争壁垒正从“算力规模”转向“工具链生态”。Agent 的首次部署具有极强的粘性。一旦用户在某朵云上完成了 OpenClaw 的首次部署，该云厂商就同时掌握了该 Agent 的默认模型、默认技能、API 密钥乃至后续的扩容入口。因此，国内主流云厂商展开了激烈的“一键部署”争夺战。百度是国内最早拥抱 OpenClaw 的头部厂商之一，2 月 3 日率先上线 OpenClaw 一键部署服务，开发者通过轻量应用服务器就能快速部署。腾讯云推出了预装 OpenClaw 镜像的轻量服务器专属入口，提供“0 元直领”“15,000 PU/月资源点”等补贴政策，智能体开发平台可实现 3 分钟完成 OpenClaw 部署。阿里云提供一键部署服务，推出开源 Team 版 OpenClaw——HiClaw 及个人智能体工作台 Copaw。云服务的价值链正沿“IaaS 算力”到“MaaS模型”再到“Agent PaaS 工作流”路径向上游延伸，谁能提供最高效的工具链生态，谁就将掌握 Agent 时代的流量入口与定价权。云服务商的角色正从单纯的“地产商” （出租算力）转变为“系统承包商”（交付智能体服务）。受 AI Agent 驱动及硬件成本增长、云涨价可能成为持续趋势。随着 AI 算力需求在全球范围内的爆发，海内外主流云厂于 2026 年初至今相继宣布上调产品价格。涨价的直接诱因包括全球供应计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 10 链硬件成本的攀升，以及由智能体（Agent）驱动的 Token 调用量呈几何倍数增长。今年 3 月阿里云与百度智能云宣布上调产品价格、正式拉开国内云厂新一轮涨价序幕。2026年3月8日，阿里云宣布，受全球 AI 需求爆发及供应链涨价影响，其 AI 算力、存储等产品将于 4 月 18 日起上调价格，最高涨幅达 34%；其中，平头哥真武 810E 等算力卡产品上涨 5%-34%，文件存储产品 CPFS（智算版）上涨 30%。百度智能云亦宣布对部分产品进行结构性优化，AI 算力相关产品上调约 5%-30%，并行文件存储等上调约 30%，新价格同样于 4 月 18 日起执行。我们认为，云涨价有望成持续趋势。图 9：阿里云部分产品调价数据来源：阿里云、澎湃新闻，东方证券研究所三、AI 存储架构发生革新，数据处理迎来新范式在AI产业从“训练优先”走向“推理优先”演进过程中，存储和带宽效率逐渐成为瓶颈。算力中心面对的挑战也发生了变化：在训练时代，主要挑战是计算能力-如何以最快速度完成海量矩阵运算，而在推理阶段，核心挑战演变为存储和带宽效率——如何以最优成本支持模型长时间、大规模地服务用户请求。由于传统存储体系难以满足 AI 推理的速度、性能和成本需求，英伟达在 2026 年 CES 展会上推出了 NVIDIA Inference Context Memory Storage（ICMS）平台，用新一代 AI 原生存储架构来满足 AI推理时代需求。当前，智能体已经成为了 AI 应用落地的核心范式，而智能体不再是无状态的聊天机器人，而是依赖于对话、工具和中间结果的长期记忆，在基于 Transformer 架构的模型中，长期记忆以推理上下文的形式实现（KV 缓存）。KV 缓存能够将计算过的键（Key）和值（Value）向量缓存起来，供后续生成步骤重复使用，从而避免冗余计算，但代价是随着序列长度的增加，KV 缓存的规模会呈线性增长。我们认为在智能体系统中，KV 缓存已然成为模型的长期记忆，对推理的成本和性能至关重要，能够满足和匹配 KV 缓存的存储架构需要重新变化。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 11 图 10：KV缓存从 HBM卸载到 CPU内存、本地 SSD或远程网络存储数据来源：NVIDIA，华尔街见闻，东方证券研究所现有存储架构无法满足新需求。现有的存储基础设施分为四层，分别是 G1 层（GPU HBM）， G2 层（CPU DRAM），G3 层则是服务器内部的本地 SSD，而 G4 层则是服务器外部的存储。在整个存储层级架构中， G1 层可提供纳秒级访问和超高效率，使其成为直接用于 token 生成的活跃 KV 缓存，而从 G1 层到 G2、G3、G4 层，随着推理上下文远离 GPU，虽然存储容量得到扩展，但访问延迟将增加，能耗和每个 token 的成本将会上升，整体效率将会下降。因此，AI 基础设施需要优化如何在整个系统中存储、管理和扩展不断增长的 KV 缓存上下文。图 11： KV缓存分为从 GPU HBM到共享存储的 4层架构数据来源：英伟达官网，东方证券研究所在 2026 年 CES 展会上，英伟达首席执行官黄仁勋发布了名为“推理上下文内存平台”（ICMS）的了 AI 原生存储体系。在 G3 和 G4 层之间增加了基于以太网的闪存存储层层，专门用来存 KV 缓存。层的容量足够大，可以作为多个智能体共享的长期记忆，同时又离 GPU 足够近，能在不影响生成速度的情况下，把上下文的 KV 缓存频繁预加载回 GPU 内存。通过这种方式，各节点之间的 KV 缓存数据访问和高速数据共享，在处理超长对话或复杂思维链时，庞大的 KV Cache 不再需要挤占昂贵的 GPU显存，而是可以经济高效地存储在 ICMS中。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 12 图 12：英伟达推出推理上下文内存平台（ICMS），提升推理性能和效率数据来源：英伟达官网，东方证券研究所 ICMS 引领新一代存储平台。从具体实现来看，ICMS 通过 NVIDIA BlueField-4 数据处理器（DPU），构建了 Pod 级别的专用上下文记忆层，一个标准的 ICMS机架包含 16 个 SSD托架，每个托架配备 4 个 DPU 并管理 600TB 的 SSD，使得单个机架的总容量达到惊人的 9600TB，远超传统 GPU机架。同时，借助 BlueField-4的性能提升，该平台实现了每秒 200GB的 KV缓存传输速度，有效解决了大容量 SSD 在网络传输中的瓶颈问题。而据英伟达透露，包括 AIC、 Cloudian、DDN、戴尔科技、慧与、日立数据、IBM、Nutanix、Pure Storage、超微、VAST Data 和WEKA在内的存储创新者正在率先基于 BlueField-4构建下一代 AI存储平台。存储效率仍然不断演进。NVIDIA 正从 ICMS 项目入手，筹备一个旨在进一步提升 SSD 利用率的项目。该项目被称为“Storage Next”（也称为 SCADA，即 Scaled Accelerated Data Access，规模化加速数据访问）计划的一部分，在 SCADA 体系中，执行 AI 计算的 GPU 将直接访问 NAND 闪存（SSD）来获取各种数据，而无需经过 CPU 等控制单元，这将可以消除 GPU 和 SSD 之间瓶颈。目前 SK海力士已正式宣布正在开发 AI-N P，以顺应这一趋势。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 13 图 13：英伟达与 Dell、HPE等十余家合作伙伴构建下一代 AI存储平台数据来源：英伟达官网，东方证券研究所数据处理亟待新范式。在 2026 年 GTC 大会上，英伟达 CEO 还宣布推出的数据加速库 cuDF、 cuVS 已被谷歌云、Azure、AWS 等全球领先平台采用，在数据处理领域展现出显著技术优势。其中，针对结构化数据，NVIDIA cuDF 可加速 Apache Spark、Presto、DuckDB、Polars 和 Velox 等开源数据处理引擎，与仅使用 CPU 的部署方式相比，处理速度可提升高达 5 倍。而对于非结构化数据 (目前占企业数据总量的 80%，并且正迅速增长)，NVIDIA cuVS 可加速 FAISS、 Amazon OpenSearch Service 和 Milvus 等领先引擎，有助于智能体和应用在极短的时间内从海量文本、图像和视频中提取上下文、事实和建议。图 14：英伟达推出数据加速库 cuDF、cuVS加速结构化、非结构化数据处理数据来源：英伟达官网，东方证券研究所 GPU 数据库迎来发展机会。从国内来看，星环科技与英伟达中国团队围绕“高性能计算重构”与 “新一代存储架构适配”展开合作，目的是大幅提升 AI 推理的性价比。合作双方正在金融行业进行初步探索，针对金融行业的特定应用场景验证认知数据库在实际业务中的落地效果。而在 GTC 2026“The Era of GPU Data Processing”分论坛上，NVIDIA披露，在 TPC-DS基准测试上，采用单张 GB300 卡、单节点配置 150GB 数据的情况下，星环科技 GPU 数据库在 150GB 数据规模的 TPC-DS测试中的性能较 128vCore 传统 CPU性能提升约 26 倍，大幅提升数据处理效率。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 14 图 15：星环科技 GPU数据库产品大幅提升数据处理效率数据来源：星环科技公众号，东方证券研究所投资建议算力进入推理时代，算力链各个环节有望不断受益，我们建议投资者关注芯片、云服务、IDC 等等领域标的。 ⚫ 芯片端（GPU&CPU）：相关公司包括海光信息(688041，买入)、寒武纪(688256，未评级)、禾盛新材(002290，未评级)； ⚫ 云服务&IDC：相关标的为首都在线(300846，未评级)、东阳光(600673，未评级)、豫能控股(001896，未评级)、网宿科技(300017，未评级)、优刻得-W(688158，未评级)等； ⚫ 服务器：相关标的为浪潮信息(000977，未评级)、中科曙光(603019，买入)、华勤技术 (603296，买入)等； ⚫ 数据库：相关标的为达梦数据(688692，未评级)、星环科技-U(688031，未评级) 风险提示 AI 应用推进不及预期风险：若下游 AI 应用推进不及预期，则推理算力需求将低于预期，相关标的的实际经营行业竞争加剧风险：若行业竞争加剧会挤压相关企业利润空间，导致价格战频发，削弱整体盈利能力与现金流稳定性。计算机行业深度报告 —— 算力重构：从模型训练迈向推理主导的新时代有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 15 Tabl e_Disclai mer 分析师申明每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明：分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断；分析师薪酬的任何组成部分无论是在过去、现在及将来，均与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。投资评级和相关定义报告发布日后的 12个月内行业或公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准（A 股市场基准为沪深 300 指数，香港市场基准为恒生指数，美国市场基准为标普 500 指数）；公司投资评级的量化标准买入：相对强于市场基准指数收益率 15%以上；增持：相对强于市场基准指数收益率 5%～15%；中性：相对于市场基准指数收益率在-5%～+5%之间波动；减持：相对弱于市场基准指数收益率在-5%以下。未评级 —— 由于在报告发出之时该股票不在本公司研究覆盖范围内，分析师基于当时对该股票的研究状况，未给予投资评级相关信息。暂停评级 —— 根据监管制度及本公司相关规定，研究报告发布之时该投资对象可能与本公司存在潜在的利益冲突情形；亦或是研究报告发布当时该股票的价值和价格分析存在重大不确定性，缺乏足够的研究依据支持分析师给出明确投资评级；分析师在上述情况下暂停对该股票给予投资评级等信息，投资者需要注意在此报告发布之前曾给予该股票的投资评级、盈利预测及目标价格等信息不再有效。行业投资评级的量化标准：看好：相对强于市场基准指数收益率 5%以上；中性：相对于市场基准指数收益率在-5%～+5%之间波动；看淡：相对于市场基准指数收益率在-5%以下。未评级：由于在报告发出之时该行业不在本公司研究覆盖范围内，分析师基于当时对该行业的研究状况，未给予投资评级等相关信息。暂停评级：由于研究报告发布当时该行业的投资价值分析存在重大不确定性，缺乏足够的研究依据支持分析师给出明确行业投资评级；分析师在上述情况下暂停对该行业给予投资评级信息，投资者需要注意在此报告发布之前曾给予该行业的投资评级信息不再有效。 HeadertTabl e_Discl ai mer 免责声明本证券研究报告（以下简称“本报告”）由东方证券股份有限公司（以下简称“本公司”）制作及发布。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告的全体接收人应当采取必要措施防止本报告被转发给他人。本报告是基于本公司认为可靠的且目前已公开的信息撰写，本公司力求但不保证该信息的准确性和完整性，客户也不应该认为该信息是准确和完整的。同时，本公司不保证文中观点或陈述不会发生任何变更，在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的证券研究报告。本公司会适时更新我们的研究，但可能会因某些规定而无法做到。除了一些定期出版的证券研究报告之外，绝大多数证券研究报告是在分析师认为适当的时候不定期地发布。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议，也没有考虑到个别客户特殊的投资目标、财务状况或需求。客户应考虑本报告中的任何意见或建议是否符合其特定状况，若有必要应寻求专家意见。本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告中提及的投资价格和价值以及这些投资带来的收入可能会波动。过去的表现并不代表未来的表现，未来的回报也无法保证，投资者可能会损失本金。外汇汇率波动有可能对某些投资的价值或价格或来自这一投资的收入产生不良影响。那些涉及期货、期权及其它衍生工具的交易，因其包括重大的市场风险，因此并不适合所有投资者。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任，投资者自主作出投资决策并自行承担投资风险，任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告主要以电子版形式分发，间或也会辅以印刷品形式分发，所有报告版权均归本公司所有。未经本公司事先书面协议授权，任何机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容。不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据，不得用于营利或用于未经允许的其它用途。经本公司事先书面协议授权刊载或转发的，被授权机构承担相关刊载或者转发责任。不得对本报告进行任何有悖原意的引用、删节和修改。提示客户及公众投资者慎重使用未经授权刊载或者转发的本公司证券研究报告，慎重使用公众媒体刊载的证券研究报告。 HeadertTabl e_Address 东方证券研究所地址：上海市中山南路 318号东方国际金融广场 26楼电话： 021-63325888 传真： 021-63326786 网址：东方证券股份有限公司经相关主管机关核准具备证券投资咨询业务资格，据此开展发布证券研究报告业务。东方证券股份有限公司及其关联机构在法律许可的范围内正在或将要与本研究报告所分析的企业发展业务关系。因此，投资者应当考虑到本公司可能存在对报告的客观性产生影响的利益冲突，不应视本证券研究报告为作出投资决策的唯一因素。 Tabl e_Disclai mer

联系我们

智库文档公众号

客服微信

算力重构：从模型训练迈向推理主导的新时代.pdf

下载

标签

联系我们

意见反馈