先进计算技术发展研究报告
(2025)
目 录
一、先进计算技术发展背景 ................................. 1
(一) 先进计算技术体系概述 .............................. 1
(二) 先进计算技术成为计算技术发展关键突破点 ............ 2
(三) 先进计算技术产业发展面临的国际形势 ................ 2
(四) 发展先进计算技术是国家发展战略需求 ................ 4
二、 先进计算技术总体发展现状 ............................ 5
(一)计算处理器与关键部件 ............................... 5
(二)计算架构与体系 ..................................... 5
(三)计算设备与系统 ..................................... 6
(四)计算设施与安全 ..................................... 7
三、先进计算重点技术发展情况 ............................. 8
(一)计算处理器与关键部件 ............................... 8
(二)计算架构与体系 .................................... 16
(三)计算设备与系统 .................................... 27
(四)计算设施与安全 .................................... 45
四、先进计算技术发展推进建议 ............................ 50
(一)加强关键核心技术研发 .............................. 50
(二)打造产业各方协同生态 .............................. 50
(三)推进先进计算标准制定 .............................. 51
(四)持续探索前沿技术落地 .............................. 51
1
一、先进计算技术发展背景
(一)先进计算技术体系概述
先进计算技术体系由硬件底座、系统架构、计算设备以及基础设
施等多个层面构成,旨在支撑多类型计算任务的高效执行。从整体框
架来看,先进计算技术体系可划分为四个主要部分:计算处理器与关
键部件、计算架构与体系、计算设备与系统、计算设施与安全。四者
之间形成从芯片、架构、系统到设施的完整技术链条,相互支撑,共
同构成先进计算体系的核心基础。
计算处理器与关键部件是先进计算体系的最底层要素,涵盖多类
通用与专用处理器,包括 CPU、GPU、ASIC、FPGA、DPU 等,并
包含高速互联部件、新型存储器和光电互联模块等关键组件。该部分
负责提供基础算力、通信带宽与存储访问能力,是构建各类上层计算
系统所必需的硬件核心。
计算架构与体系用于组织、协调和管理不同类型的处理器和关键
部件,使其形成可协同运行的系统结构。内容涵盖异构计算架构、存
算协同架构、可重构计算等,也进一步扩展至量子计算、类脑计算、
光计算等新型范式的融合架构设计。该部分定义了计算资源的分工方
式、执行模式和系统组织方式,是实现高效计算的结构基础。
计算设备与系统是先进计算体系在工程层面的具体实现形态,包
括通用服务器、智算服务器、超算服务器、端侧设备、存储系统以及
互联系统等;同时,还包括操作系统、数据库和中间件等基础支撑软
件及人工智能系统软件与开发框架。该部分直接面向实际部署与应
用,是承载计算任务的主体单元。
2
计算设施与安全作为体系的基础与保障层,主要包括数据中心、
人工智能计算中心、超级计算中心等设施建设内容。安全部分主要围
绕芯片安全与整机安全展开,涵盖硬件根信任、可信启动、固件与系
统完整性保护、可信执行环境以及关键部件防篡改与隔离防护等能
力,通过构建从芯片到整机的可信链条与协同防护机制,为先进计算
系统的安全可控与稳定运行提供基础保障。
(二)先进计算技术成为计算技术发展关键突破点
先进计算能力正成为支撑数字经济发展的核心基础。在数字化、
网络化、智能化加速推进的背景下,计算能力已成为重要的基础性资
源。作为新一代信息技术产业的重要组成部分,先进计算持续向经济
社会各领域延伸,其在产业发展和技术体系中的基础性、战略性作用
不断增强。计算能力的提升不仅关系到数字化转型与智能化升级的推
进进程,也逐渐成为各国在新一轮科技竞争中的关键支撑。
多技术协同创新推动先进计算体系加速演进。当前,计算硬件、
软件系统、算法模型以及体系结构等多个层面持续迭代,相互促进,
推动计算技术整体能力不断提升。同时,量子计算、类脑计算等新型
计算范式不断涌现,并与现有计算技术形成交叉融合的发展态势,进
一步拓展计算技术的发展空间。在此背景下,统筹推进先进计算基础
能力建设、完善相关技术体系,已成为提升国家信息化水平并支撑数
字经济持续发展的重要方向。
(三)先进计算技术产业发展面临的国际形势
美国依然是全球先进计算产业创新高地。当前,全球先进计算技
术加速发展,技术迭代与产业渗透双向提速。以美国为代表的西方阵
营凭借先发优势占据领先地位。在核心技术层面,7纳米以下先进制
3
程与异构集成技术突破,驱动芯片性能指数级提升。美国科技巨头凭
借半导体材料与芯片架构积淀,掌控高算力、高带宽、高互联领域,
重塑全球计算产业链,筑起技术护城河。在软件生态构建层面,国际
龙头加快软硬件协同创新,深度融合算法框架与硬件平台。从 PyTorch
到 CUDA,以软硬一体优化构建完整技术闭环,大幅提升算力供给能
力。计算基础设施迈向集群化阶段,以万卡、十万卡级超大规模集群
为核心,重塑高性能计算模式。美国率先建成十万卡级智能计算集群,
通过 2 Tbps节点带宽、自研互联技术及液冷方案,引领全球算力建
设。在产业应用层面,美国在大模型、机器人、自动驾驶等领域拥有
多家龙头企业,在全球先进计算产业发展中长期处于领先地位。
欧盟、日本和韩国等经济体持续将先进计算作为数字竞争力与科
技安全的重要基础方向。通过战略引导、持续投入和标志性工程形成
系统化布局。欧洲以“数字主权”为牵引,依托《欧洲芯片法案》《欧
洲数字主权战略》等强化在高性能计算、低功耗计算、AI与量子计
算等领域的自主能力建设,并通过“地平线欧洲”等科研计划加大对
异构架构、能效优化及 AI-HPC 融合的支持力度,同时以 LUMI、
Leonardo等超算系统为代表,构建面向科研与产业开放的先进算力平
台。日本长期围绕国家重大需求推进先进计算发展,通过系列科技与
AI战略持续投入,在超级计算、类脑计算和光量子计算等方向开展
前沿攻关,以“富岳”等自主超算系统为核心支撑基础科研、灾害预
测和生命科学研究,体现出软硬件协同与自主技术突破并重的路径。
韩国则以先进计算带动下一代 ICT产业升级,通过《K-Cloud战略》
《国家 AI战略》等政策强化顶层设计,推动本土 AI芯片和高性能计
算平台研发,依托国家超级计算中心建设及与三星、SK等龙头企业
4
协同,在 HBM、CXL互联及 AI服务器系统集成方面加快创新布局。
(四)发展先进计算技术是国家发展战略需求
发展先进计算技术是保障国家安全和实现高水平科技自立自强
的战略支点。当前,先进计算已成为支撑国防安全、经济安全和数据
安全的关键基础设施,是人工智能、空天信息、核能安全、生物医药
等战略领域不可或缺的底座能力。在国际科技竞争和地缘政治博弈加
剧背景下,高端计算芯片、系统架构和算力平台正成为受限最严、封
锁最强的关键环节。加快推进自主可控的先进计算技术体系建设,有
助于突破外部技术封锁,夯实关键领域核心能力根基,是维护国家安
全和提升综合国力的必然选择。
发展先进计算技术是推动经济高质量发展、培育新质生产力的重
要引擎。随着数字经济向纵深发展,算力已与土地、资本、能源并列
为关键生产要素,先进计算在支撑大模型训练、工业仿真、智能制造
和智慧城市等场景中发挥着核心作用。通过持续提升算力供给能力和
计算效率水平,能够加速科技成果转化,带动芯片、服务器、网络和
软件等产业链整体升级,形成以先进计算为牵引的新型产业体系,为
我国经济结构优化和长期竞争力提升提供持续动力。
发展先进计算技术是提升我国在全球科技竞争中话语权和规则
塑造能力的关键抓手。当前,先进计算相关的芯片架构、互联协议、
软件生态和应用范式正加速演进,发达国家和头部企业通过技术标
准、生态体系和产业联盟持续巩固先发优势。加快布局自主先进计算
技术路线,推动关键技术标准制定和产业生态建设,有助于我国从技
术跟随向并行甚至引领转变,在新一轮全球科技和产业变革中掌握主
动权,为参与国际规则制定和深化高水平开放合作提供坚实支撑。
5
二、先进计算技术总体发展现状
(一)计算处理器与关键部件
一是计算处理器总体呈现多架构并行、异构协同不断深化的发展
态势。CPU在先进制程带来的性能提升逐步放缓背景下,正通过多
核多线程设计、微架构优化和异构计算能力增强来提升通用计算效
率,并与 GPU、NPU、DPU等专用处理器形成协同分工,支撑高性
能计算与人工智能等复杂负载;AI加速芯片则围绕更高算力密度、
更低精度计算和更强系统级扩展能力快速演进,计算精度持续向
FP8、FP4等方向发展,单芯片算力与集群级性能同步提升,软硬件
协同和异构系统设计成为决定整体效能的关键。二是存储部件正由单
纯提升容量和带宽,向服务算力体系和系统级协同优化转变。DDR5
持续演进,HBM已成为高端算力系统中的关键资源,直接影响模型
规模和训练效率,3D NAND通过堆叠层数提升和控制算法优化支撑
大容量、低成本需求,新型非易失存储在特定场景加快探索,存储正
逐步从被动配套部件转变为算力系统设计的重要变量。三是互联部件
加速向更高带宽、更低时延和更低功耗方向演进。交换芯片与高速网
络能力持续提升,光互联和光电融合技术不断深化,CPO、OIO等新
型形态被用于突破板级互联和系统扩展瓶颈。
(二)计算架构与体系
一是计算架构总体呈现多路径并行、异构协同和可重构能力快速
发展的态势。超节点、PD分离推理、异构混合加速器和可重构数据
流架构不断演进,通过高带宽互联和算力单元灵活配置,实现大模型
6
训练与推理的高性能和高能效,国内外企业已相继推出量产系统验证
工程化可行性。二是存算与系统级协同能力显著增强。存算一体技术
结合新型非易失性存储器件和全链路架构优化,将计算功能融入存储
单元,减少数据搬运开销,显著提升算力能效,同时支持 EB级数据
处理与千亿至万亿参数模型的训练与推理,存储系统正从被动配套转
向算力系统设计的重要变量,兼顾可靠性、安全性和扩展性。三是新
型算力范式快速落地与产业化探索加速。量子计算通过芯片化、模块
化和光子集成形成可扩展系统并与经典算力融合,类脑计算依托脉冲
神经网络和异步架构实现低功耗高效能模拟,光计算通过光电融合和
大规模光子集成提升矩阵运算吞吐并支撑生成式 AI任务,国内外企
业已开展工程化部署。
(三)计算设备与系统
一是服务器体系正整体向异构化与系统级协同演进。通用服务器
由 CPU主导转向融合 GPU、NPU、DPU等多加速器平台,结合 PCIe
、CXL等高速互联,实现资源池化与灵活调度,夯实数据中心基
础底座;智算服务器以加速器为核心,通过多卡高密度部署、液冷散
热和低精度计算优化,支撑大模型训练与推理,竞争日益体现为平台
与生态能力;超算服务器面向科研与工程计算,强调高精度计算、大
规模并行与长期稳定运行。二是端侧设备成为 AI计算的重要延伸载
体。AI手机、具身机器人、智能汽车与无人机等推动计算向端边侧
下沉。SoC集成 NPU及专用单元成为主流,结合模型压缩、量化与
稀疏计算,在受限功耗下提升实时推理能力,端侧智能由功能化向自
7
主化升级。三是存储与高速互联从系统瓶颈环节转变为架构创新重
点。存储从数据仓库演进为深度参与训练与推理流程的 AI数据平台,
通过分层架构、存算分离和高性能闪存技术,支撑 PB级数据供给与
微秒级访问需求;同时,高速互联成为释放集群算力的核心纽带,围
绕 Scale-up 与 Scale-out双路径持续升级,在高带宽、低时延与内存
语义互联方向加速突破,并与在网计算、DPU卸载等融合,减少数
据搬移开销。四是软件体系向 AI原生与云原生融合演进。操作系统
强化异构资源调度与内生安全,数据库与中间件加速智能化与自动
化,开发框架围绕自动并行、训推一体和云原生协同持续演进,推动
软硬件由单点优化走向体系化协同,整体提升先进计算基础设施的可
用性与扩展能力。
(四)计算设施与安全
一是智算中心加速由算力堆叠向体系化能力建设转变。智算中心
围绕 GPU/AI加速器与 CPU协同,构建高带宽互联和分层存储体系,
强化对大模型训练、推理及行业智能应用的适配,同时通过统一调度、
弹性供给和算力服务化运营,提高资源利用率与服务可达性,逐步形
成面向多行业的公共算力平台与生态节点。二是超算中心在持续提升
并行规模和峰值性能的同时,更加重视能效比、系统可靠性与长期稳
定运行能力。超算中心加强对“仿真计算+数据处理+AI计算”融合
负载的支持,推动新型处理器、先进互联和高效编程框架应用,拓展
在气象、生命科学、材料与工程等领域的综合科研支撑能力,向综合
性科学计算基础设施演进。三是芯片安全从单点防护走向全生命周期
8
与体系化防护。硬件根信任、可信启动、TEE及片上加密逐步成为高
端芯片标配,并结合密钥管理和抗侧信道设计提升可信度,国际上通
过标准与认证强化治理并前瞻量子抗性加密,国内在自主可控牵引下
形成软硬件协同防护体系并在关键行业落地。四是整机安全成为算力
基础设施稳定运行的重要保障。围绕可信启动链、固件与 BMC安全、
远程度量与访问控制构建整机级防护体系,并与芯片级信任根协同实
现可信传递,国际上正由静态防护向动态验证与自动修复演进,国内
结合国产软硬件与统一管理平台强化集群级安全治理。
三、先进计算重点技术发展情况
(一)计算处理器与关键部件
(1)计算处理器
CPU围绕先进制程、多核化和异构计算、微架构优化等多技术
路径发展,提升处理能力和能效,满足多场景计算需求。先进制程长
期以来持续推动 CPU性能提升,最新工艺节点已突破 2nm,但随着
后摩尔时代到来,依靠制程工艺进步方式带来的性能提升已相对有
限。通过多核、多线程架构设计提升并行处理能力,CPU可同时执
行多个任务,提高整体计算效率,满足低功耗、高并行处理能力需求。
同时,CPU正逐步结合 GPU、NPU等专用加速器形成异构计算架构,
针对不同计算负载进行优化,不仅增强了系统灵活性和性能,还能有
效降低功耗,满足高性能计算与低功耗需求的双重目标,是当前提升
计算能力的重要发展方向。随着 RISC-V架构的兴起,为开源、灵活、
可定制的 CPU设计提供了新路径,其开放指令集特性降低了研发门
槛,支持企业根据应用需求进行定制化扩展,提升系统性能与能效比。
9
此外,AI技术的不断发展推动了 CPU在内存带宽提升、缓存结构改
进等方面的创新,以适应复杂计算场景。同时,基于 AI的自适应调
度和资源管理技术也在逐渐融入 CPU设计,提升系统智能化水平。
2025年全球 CPU产业在架构多样化、技术节点推进与市场格局
调整上均有显著进展。国际阵营方面,英特尔发布了新一代 Xeon系
列,通过更高的MCM并行能力和 AI加速单元提升云与边缘计算性
能;AMD的第三代 EPYC继续采用先进制程与更宽向量执行引擎,
优化 AI与高性能计算任务;Arm阵营在服务器与客户端市场持续扩
张,高通与苹果的 Arm架构产品在移动与笔记本端实现 AI推理本地
化能力。RISC-V生态在全球范围快速发展,多家国际厂商推出针对
边缘和嵌入式应用的高效能 RISC-V核心,开源生态逐步完善。国内
CPU产业以自主可控与本土生态构建为核心推进路径,实现多技术
路线协同发展。龙芯中科持续迭代基于 LoongArch 架构的龙芯
5000/6000系列,提升通用计算性能与软件兼容性;飞腾发布新一代
Arm架构服务器 CPU产品,面向云服务与行业计算场景增强 AI与虚
拟化支持;华为鲲鹏系列继续在生态适配和行业部署上扩大规模;兆
芯与海光等 x86兼容 CPU则围绕国产操作系统与关键行业应用推进
兼容性与稳定性优化。国内 RISC-V阵营同时加快从微控制器向高性
能核演进,多款实验性高性能 RISC-V处理器进入产业链验证阶段,
为长期自主生态发展奠定基础。
以 GPU、TPU、NPU等为代表的 AI加速芯片作为 AI核心硬件
支撑,正朝着高性能、高能效、低功耗和可定制化方向快速发展。
GPU将向更高算力、更优功耗比方向发展,并通过集群互联实现系
统计算性能提升,同时 GPU将更加注重与 AI软件生态的深度融合,
10
通过 CUDA、TensorRT等工具链实现算法优化,提升模型推理和训
练效率。此外,GPU还将向异构计算方向演进,结合 CPU、NPU等
构建更灵活的计算平台。TPU是 Google为深度学习任务专门设计的
专用 AI芯片,主要围绕算力提升、能效优化、算法适配等方面发展:
一方面通过提升内存带宽和计算密度,支持更大规模的模型并行训
练,并结合更先进制程工艺实现更高的浮点运算性能和张量计算效
率;另一方面,通过架构创新和功耗管理技术,TPU在保持高性能的
同时降低能耗,并结合定制化指令集,实现更灵活的功耗控制策略;
此外,随着 AI生态多样化,TPU逐步扩展对 PyTorch、JAX等框架
的支持,并进一步增强对多种 AI模型和任务的兼容性,提升通用性
和灵活性。NPU主要面向终端侧应用,正朝着高性能、低功耗、高
能效比方向发展,强化矩阵运算能力以提升 AI推理效率。未来将加
强算法适配性,支持多框架与多模型,提升灵活性和通用性。同时,
结合量化、剪枝等优化技术,降低能耗,适应边缘计算需求。此外,
NPU将向可编程架构演进,并与 CPU、GPU协同,构建异构计算平
台,推动 AI在智能终端、自动驾驶等领域的广泛应用。
2025年以来,国际与国内 AI芯片厂商同步加快产品迭代,算力
精度下探、显存体系升级和先进制程导入成为产业共识。国际方面,
英伟达、AMD、谷歌等持续推动计算精度由 FP16/FP32向 FP8、FP4
演进,单芯片算力迈入 P级时代,FP8在大模型训练中的应用逐步成
熟,FP4被视为推理阶段进一步降低算力成本、提升能效的关键方向。
英伟达 2025年发布的 B300已实现 15 PFLOPS的 FP4算力,并规划
在 Rubin与 Rubin Ultra中持续跃升;AMD MI355X首次引入 FP4算
力,谷歌 TPU v7p开始支持 FP8。在存储与工艺方面,HBM3E进入
11
规模化应用阶段,HBM4加速导入,3 nm制程正成为新一代高端 AI
芯片的重要选择。国内方面,华为昇腾在 2025年持续推进以昇腾 910B
为核心的算力平台升级,重点强化 FP16/FP8混合精度训练能力与集
群级系统优化,支撑大模型在国产算力上的规模化训练;寒武纪基于
思元系列持续迭代训练与推理产品,在云端推理和行业大模型部署中
扩大应用;壁仞科技围绕 BR系列产品推进高算力 GPU的工程化落
地,并在万卡级集群验证和软件栈完善方面取得进展;摩尔线程则以
全功能 GPU为基础,面向图形与 AI融合场景持续扩展算力产品线。
图一 英伟达 B300/AMD MI355X
DPU作为面向数据中心基础设施卸载的新型处理器形态,正从
早期的专用加速部件演进为数据中心体系结构中的关键算力单元。随
着以太网速率由 100GbE向 200GbE、400GbE乃至更高速率演进,数
据中心东西向流量激增,网络协议处理、存储访问、虚拟化管理与安
全防护等基础设施任务在服务器 CPU侧占用的算力比例持续攀升,
在部分大型云场景中基础设施开销已接近甚至超过 30%,对通用算力
形成明显挤占。在此背景下,通过 DPU以专用硬件方式卸载网络、
存储、安全与虚拟化等任务,已成为提升系统能效和算力利用率的关
键路径。技术上,DPU 正向高带宽接口集成、多核异构架构、可编
程数据平面及软硬件协同优化方向发展,逐步具备在网处理、数据压
缩、加密与隔离等综合能力。同时,DPU与 CPU、GPU协同构建“计
12
算—网络—存储”解耦的新型架构,推动数据中心由以主机为中心向
以资源池化和服务化为中心转变。
DPU技术主要由头部芯片厂商和云服务商推动,并已在超大规
模数据中心中实现规模化部署。英伟达 BlueField系列 DPU已迭代至
第三代,单卡支持 200GbE及以上网络接口,并集成多核通用处理器
及安全、存储加速单元,可在主机之外独立完成虚拟交换、数据加密
和存储虚拟化等功能,已被广泛用于云计算和 AI训练集群。AMD通
过并购 Pensando进入DPU市场,其相关产品强调可编程数据面能力,
在云数据中心中支持分布式防火墙、负载均衡等网络与安全服务卸
载。Intel则以 IPU技术路线布局超大规模云和电信网络场景,重点
探索基础设施功能与主机计算资源解耦的部署模式。在国内方面,
DPU技术正围绕数据中心自主可控和行业应用需求加快落地,逐步
由试点验证走向实际部署,重点服务于网络与存储卸载、裸金属服务
加速和多租户安全隔离等场景,在运营商云、政务云及行业数据中心
中开展应用探索。阿里云通过自研 CIPU承担虚拟化、网络与存储等
基础设施处理任务,推动算力与基础设施解耦;华为结合智能网卡与
鲲鹏、昇腾平台,在云数据中心推进网络与安全卸载实践;中科驭数
等企业推出面向数据中心的 DPU/智能网卡产品,在 100GbE及以上
环境下实现多类基础设施功能卸载,并在部分行业场景中验证了对
CPU负载和系统时延的优化效果。同时,相关厂商正加强与国产服
务器、操作系统和虚拟化软件的适配,推动形成软硬件协同发展的
DPU应用体系。
(2)存储部件
2025年核心存储介质类部件围绕更高带宽、更低功耗与算存协
13
同持续演进,成为制约和支撑先进计算系统性能的关键基础。DRAM
技术沿着 DDR5持续优化,在频率、容量与能效方面不断提升,同时
面向服务器和数据中心的高可靠特性进一步强化。HBM作为 AI与高
性能计算的核心存储形态,已成为大模型训练和智算中心的标配,高
带宽、低延迟和高集成度推动其在 GPU、AI加速器和先进封装中的
应用持续扩大。NAND Flash方面,3D堆叠层数不断提升,QLC技
术加速成熟,重点面向数据中心高容量、低成本存储需求,同时通过
控制算法与缓存机制改善写入性能和寿命表现。新型存储器如
MRAM、ReRAM和 PCM在嵌入式和特定加速场景中持续推进工程
化探索,重点解决非易失、低延迟和高可靠需求。
在国际产业格局中,高端存储市场长期由少数头部厂商主导,并
与数据中心及 AI算力需求形成高度联动。DRAM与 HBM领域呈现
技术与资本双密集特征,三星、SK海力士和美光构成第一梯队,持
续围绕制程微缩、堆叠工艺和带宽提升展开竞争。其中,HBM已成
为高端 AI 加速器和智算服务器的关键瓶颈资源,产品迭代节奏与
GPU 平台升级高度协同,带宽、容量与能效指标不断提升。DDR5
则加快在服务器市场普及,推动内存子系统整体带宽升级。在 NAND
Flash方面,三星、铠侠、美光、西部数据等厂商持续推进 200层以
上 3D NAND,通过堆叠层数提升、QLC/PLC技术导入及控制器优化,
提高单位容量与性价比,满足云数据中心和企业级 SSD的大容量需
求。与此同时,国际厂商在存储控制器、固件算法和系统级优化方面
形成深厚积累,使其在高端企业级市场仍具显著优势。整体看,国际
存储产业正围绕“高带宽、高密度、低功耗”方向演进,并与先进封
装和异构计算体系深度耦合,成为支撑 AI与 HPC发展的关键基础。
14
国内存储产业近年来在政策支持与市场需求牵引下加快发展,整
体处于由追赶向提升竞争力过渡阶段。在 NAND Flash领域,长江存
储持续推进 Xtacking架构演进,在接口速度、堆叠层数和良率方面不
断改进,产品已进入部分国产服务器、存储阵列及行业数据中心应用
体系,带动本土 SSD 产业链发展。在 DRAM 方向,合肥长鑫围绕
DDR4与 DDR5持续投入,逐步提升工艺成熟度与产能规模,推动国
产 DRAM在通用服务器和行业应用中的导入比例提升。与此同时,
国内模组厂商与整机厂商协同加强验证适配,提升国产内存在系统级
应用中的稳定性。在新型存储方面,多家企业和科研机构布局
MRAM、ReRAM、PCM等技术路线,重点面向嵌入式、工业控制及
特定加速计算场景探索应用。
(3)互联部件
面向大规模智算与超算集群,交换芯片、交换机与智能网卡整体
呈现“超高带宽、低时延、光电深度融合”的演进方向。交换芯片持
续向更高端口速率和更大单芯片交换容量发展,单芯片能力由
、向 100Tbps级迈进,以支撑 GPU直连、Leaf-Spine
及大规模多层组网需求。与此同时,网络架构更加关注拥塞控制、遥
测与负载均衡能力,推动可编程交换架构与软硬件协同优化。光互联
成为关键突破口,800G光模块加速部署,进入规划期,CPO通
过将光引擎与交换 ASIC共封装,显著降低功耗与链路损耗,正从试
点走向初步商用;OIO则进一步将光互联引入计算芯片封装层面,被
视为突破板级互联瓶颈的潜在路径,但仍处于研发验证阶段。智能网
卡(DPU/SmartNIC)则持续强化对虚拟化、存储、网络与安全任务
的硬件卸载能力,成为算网融合和数据中心资源解耦的重要支点。总
15
体看,互联部件正由“数据传输通道”转变为“系统级算力基础设施”
的关键组成。
全球高端互联产业由少数头部企业主导,形成芯片-整机-光互
联协同推进格局。在交换芯片领域,博通长期保持领先,产品迭代节
奏快,已量产 并规划 级产品,广泛应用于云与
AI数据中心;Marvell、英伟达等亦在高端交换与加速互联方向持续
投入。交换机市场由思科、Arista、英伟达等主导,在系统设计、网
络操作系统与生态方面优势明显。光互联方面,国际厂商在硅光子、
相干调制与 CPO方向布局领先,博通已推出 CPO交换机产品,英伟
达规划面向 AI集群的 CPO系列方案,谷歌等云厂商亦通过自研光互
联技术优化数据中心能效。智能网卡方面,英伟达(BlueField)、Intel、
AMD等形成较成熟产品体系,在超大规模云环境中实现规模部署。
整体看,全球产业已进入以 AI算力需求驱动的高速迭代阶段,技术
领先优势与生态绑定效应明显。
国内在高端互联领域整体处于快速发展阶段,围绕智算中心和行
业数字化需求,已在交换机整机、网络部署和应用实践层面积累了较
为丰富的工程经验。交换芯片方面,盛科通信已实现 、
产品小批量交付,并推进更高带宽产品研发,相关芯片在数
据中心网络中开展应用验证。华为、新华三等厂商在交换机系统设计、
网络操作系统和规模组网能力方面持续迭代,面向 400G及以上速率
推出多代产品,服务于运营商网络、云数据中心及政企市场。光模块
产业链在器件、封装和模块制造环节较为活跃,800G光模块逐步进
入规模部署阶段,部分厂商推进硅光与 CPO方向的样机研发和测试。
智能网卡方面,多家企业围绕网络、存储及安全卸载开展产品研发,
16
在运营商云和行业数据中心推进试点应用。总体看,国内产业正依托
庞大的算力基础设施建设需求和丰富应用场景,持续推动互联技术、
系统集成与工程化能力协同发展,带动产业链各环节加快迭代升级。
(二)计算架构与体系
(1)异构计算
异构计算正由多处理器并存迈向系统级一体化设计,成为支撑大
模型与复杂数据密集型负载的核心模式。在模型规模和并发度持续提
升背景下,单芯片性能提升已难以独立满足需求,系统级创新成为关
键方向。一方面,以超节点为代表的新型异构系统加快发展,通过
NVLink、MatrixLink等高速互联,将大量 GPU、CPU及高带宽存储
资源在单一逻辑域内紧密耦合,实现近似共享内存级的数据交换,显
著降低跨节点通信开销,提升算力密度与集群效率。另一方面,计算
架构持续向任务分解与异构协同演进,PD(Prefill-Decode)分离逐步
成为大模型推理的重要架构思路,将不同阶段映射到差异化硬件资
源,减少资源争用并优化时延与吞吐。与此同时,异构混合推理加快
落地,通过 GPU、专用加速器及低精度计算单元组合,实现性能与
能效的动态平衡。总体看,异构计算正从硬件堆叠转向体系化协同设
计,软硬件协同调度、统一编程模型和系统级优化能力的重要性持续
提升。
全球异构计算产业由头部厂商引领,围绕超节点系统和大模型推
理持续快速迭代。在系统形态上,英伟达持续推进以 GPU为核心的
超节点架构,在 CES 2026发布 Vera Rubin平台及 NVL72超级节点,
集成新一代 GPU/CPU、高带宽内存与大规模 NVLink互联,面向大
模型训练与推理显著提升单节点算力密度与系统效率,并规划在云和
17
企业级数据中心规模部署。AMD、Intel等也在推进 CPU+GPU+专用
加速器的异构平台布局,强化 AI与 HPC融合能力。在推理侧,PD
分离与分布式推理架构成为产业共识,vLLM、SGLang等开源与商
业推理框架广泛支持分离式部署,在长上下文场景中显著提升吞吐与
资源利用率。硬件层面,面向特定阶段优化的加速器产品逐步出现,
如针对大上下文和高吞吐推理优化的 GPU型号,推动形成多层次算
力供给体系。
图二 Scale up超节点扩展
国内异构计算在智算基础设施建设和行业大模型应用需求带动
下加快发展,呈现出整机厂商、云服务商与芯片企业协同推进的态势。
在系统形态上,头部 ICT企业和服务器厂商积极探索高密度多加速器
集成与高速互联架构,推动超节点及类超节点形态在智算中心中的应
用,通过提升节点内互联带宽和算力密度,支撑万卡级集群部署需求。
除华为展示 CloudMatrix超节点系统外,浪潮信息、新华三、联想等
厂商也在推进多 GPU高密度整机与整柜级方案,结合液冷、总线优
化和拓扑设计,提高系统级能效与部署密度。在推理与调度层面,国
内云服务商和平台企业围绕大模型服务化需求,推进 PD分离推理、
分布式推理和异构资源池化管理,在实际业务中探索不同算力资源的
18
协同调度,提升资源利用率和服务弹性。阿里云、腾讯云、百度智能
云等均在大模型平台中引入异构算力调度与统一资源管理能力。在芯
片与生态方面,寒武纪、壁仞、沐曦、燧原等 AI芯片企业持续推进
与 CPU、GPU及国产服务器平台的适配,支持在训练或推理场景中
的异构部署,并通过软件栈优化提升跨架构使用体验。
(2)存算一体
存算一体正由前沿探索技术逐步演进为面向高能效计算的重要
体系结构方向,成为突破算力与能效瓶颈的潜在关键路径。作为突破
传统冯·诺依曼架构“存储墙”与“功耗墙”的重要技术路线,存算
一体通过在存储阵列内或近存储位置直接完成计算,减少数据在存储
与处理单元之间的频繁搬运,从体系结构层面提升能效比与吞吐能
力,正成为面向 AI与数据密集型计算的重要方向。当前技术路线呈
现多元并行态势:在器件层面,基于 STT-MRAM、RRAM、PCM等
新型非易失存储器的原位计算方案受到广泛关注,这类器件兼具存储
与计算潜力,为矩阵与向量运算提供物理基础;在架构层面,围绕“存
内计算、近存计算与分层协同计算”形成多种实现路径,并通过冗余
编码、抗噪算法与误差容忍设计提升可靠性。同时,存算一体正由单
点芯片创新走向“器件—架构—编译框架—模型适配”协同优化,通
过与 AI模型结构协同设计,在特定负载中实现显著能效优势,整体
已从概念验证迈入工程化探索与场景适配并行阶段。
全球范围内,存算一体仍处于由研发验证向初步产业化过渡阶
段,产业参与主体以科研机构、初创企业及部分大型半导体公司为主。
在技术探索方面,欧美多家研究机构持续推进基于新型存储器的模拟
存内计算研究,在神经网络推理、边缘智能等场景开展实验验证;部
19
分企业推出面向 AI推理的近存计算或存内加速芯片,在低功耗视觉
识别、语音处理等领域实现试点应用。与此同时,国际厂商也在将存
算理念引入 HBM-PIM、近存加速器等产品形态,通过在高带宽存储
侧集成简单计算单元,降低数据搬运开销。在生态层面,开源社区与
学术界开始探索面向存算架构的编译工具与映射方法,但通用软件生
态仍不成熟。总体看,全球存算一体产业呈现“技术活跃、规模有限、
场景先行”的发展特征,重点聚焦特定高能效需求场景,而大规模通
用计算替代仍需较长周期。
国内在政策支持和 AI应用需求牵引下,持续推进存算一体相关
研究与产业探索,形成了高校院所、初创企业与应用单位协同推进的
格局。多所高校和科研机构在基于 RRAM、MRAM等器件的存内计
算方向开展研究,在神经网络加速与类脑计算方面取得一系列实验成
果;部分企业推出面向边缘 AI和低功耗推理场景的存算一体或近存
计算芯片样片,在智能感知、物联网等领域开展应用验证。在系统层
面,一些团队探索将存算加速单元与现有 AI计算平台协同使用,用
于特定算子加速与能效优化。同时,国内也在推进相关 EDA建模、
架构仿真与算法适配研究,为工程化落地提供支撑。
(3)可重构计算
可重构计算正由特定领域加速技术演进为面向多样化 AI负载的
重要架构方向。在摩尔定律放缓、先进制程成本上升及“内存墙”问
题持续存在的背景下,AI芯片发展逐步由单纯依赖工艺升级和算力
堆叠,转向以体系结构优化为核心的创新路径。当前大模型在矩阵计
算、向量运算与不规则算子之间频繁切换,数据搬移和访存开销成为
性能与能效瓶颈。围绕这一问题,业界通过重构数据流组织方式,重
20
新设计计算、存储与互连关系,推动架构向“以数据流为中心”演进。
以 CGRA(粗粒度可重构阵列)和可重构数据流为代表的新型架构,
在硬件层面显式刻画算子依赖关系,将计算单元与本地存储紧耦合,
并支持数据路径按需配置,从而减少中间访存和调度开销。该方向通
常与专用矩阵计算、异构加速单元协同发展:脉动阵列侧重提升规则
矩阵运算效率,可重构数据流侧重提升复杂模型与多算子混合负载的
执行效率。
从全球看,围绕数据流与专用计算的可重构架构已形成多路径并
行探索,部分企业在体系结构创新与系统级产品化方面推进较快。
SambaNova推出的 RDU采用 CGRA形态的可重构数据流结构,通过
规则化计算与存储单元构成阵列,实现较高可编程性与数据局部性利
用,面向大模型训练与推理场景提供整体解决方案;Groq的 LPU采
用指令驱动的数据流执行通道,在规则算子序列和低时延推理场景中
具备较高效率,但灵活性相对受限;谷歌 TPU持续强化脉动阵列与
系统级扩展能力,在大规模训练场景中形成成熟应用生态。与此同时,
部分国际厂商将可重构理念与 Chiplet、先进封装及高速互连结合,
用于构建面向特定 AI负载优化的系统级平台。总体看,全球可重构
计算产业呈现“架构多样化、软硬件协同强化、系统级产品先行”的
特征,重点在于通过编译器、运行时和开发工具降低使用门槛,使可
重构能力真正服务主流 AI负载。
国内在政策支持与 AI应用需求带动下,持续推进可重构计算相
关技术与产品探索,逐步形成科研机构、芯片企业与系统厂商协同推
进的格局。在芯片层面,部分企业已将可重构数据流与 CGRA理念
引入 AI加速器设计。清微智能较早布局可重构数据流架构,在语音
21
识别、低功耗视觉处理等场景推进落地;鲲云科技采用数据流驱动架
构,面向视频分析和边缘推理提供高能效比方案,在智慧城市等领域
开展应用实践;寒武纪、燧原科技、天数智芯等 AI芯片企业,虽以
专用架构为主,但在片上数据流组织、算子级可配置与编译优化方面
引入了部分可重构思想,以提升多模型适配能力。在可编程逻辑方向,
紫光同创、安路科技等本土 FPGA厂商持续推进高性能 FPGA及开发
生态建设,为可重构计算提供底层硬件基础。科研机构和高校在可重
构架构建模、任务映射及编译工具链方面开展了较多研究,为工程化
应用提供支撑。在系统层面,部分整机与平台厂商探索将可重构加速
单元作为异构算力节点接入服务器与 AI平台,用于特定负载卸载与
能效优化。
(4)量子计算
量子计算正从实验室研究加速迈向产业化探索的关键阶段,全球
量子计算发展呈现“技术攻坚、应用探索与产业培育”三线并进的鲜
明特征。技术演进方面已呈现多元化并行竞争格局。超导、离子阱、
中性原子、光量子、硅半导体及拓扑等多种硬件路线百花齐放,各自
在量子比特规模、操控精度、相干时间等关键指标上持续突破,尚未
有单一路线确立绝对优势。芯片化集成已经成为量子计算产业落地的
关键,将量子比特、控制线路、读取电路及互联结构高度集成在单个
芯片或模块上。这不仅是实现量子处理器小型化、可扩展和降低成本
的关键路径,也是推动量子计算从实验室走向商业化产品的核心工程
要务。同时,量子-经典混合计算模式通过融合双方优势,正成为推
动实用化落地的关键路径;量子计算与人工智能的融合也为双方发展
开辟了新方向,展现出双向赋能的巨大潜力。
22
以美国、欧盟为代表的科技强国已形成由科技巨头主导、资本密
集投入的多元化技术路线产业化竞争格局,并在芯片化集成与量子比
特规模上持续领跑。美国通过《国家量子倡议》持续加码,欧盟发布
了《塑造欧洲量子技术战略》,覆盖从科研到产业化的全链条。截至
2025年 4月,全球公共部门对量子技术的投资总额已达 540亿美元。
美国在科研产出和专利数量上全球领先,拥有谷歌、IBM、微软、亚
马逊等领军企业。2025年,谷歌发布 105比特超导芯片Willow并验
证量子优越性;微软推出全球首款拓扑量子芯片Majorana 1采用了砷
化铟-铝混合材料,旨在简化量子纠错;PsiQuantum作为美国光量子
计算的龙头企业,获得来自英伟达、贝莱德单笔超 10亿美元的投资,
潜力巨大,于 2025年 2月发布了其可制造的光子量子计算平台,其
Omega芯片组将单光子量子比特与成熟的硅光子技术结合,实现了高
保真操作和长距离芯片间互连,并计划利用现有半导体制造设施加速
规模化。Quantinuum公司聚焦离子阱路线,在容错量子计算、量子
纠错以及量子-人工智能融合方面取得前沿突破。加拿大的 Xanadu
公司于 2025 年初推出了可扩展、网络化和模块化的光量子计算机
Aurora,突破单芯片物理限制,核心组件无需极低温运行,大幅降低
系统复杂性,奠定了分布式量子计算基础。全球量子计算企业已超过
400家,2025年上半年投融资额突破 20亿美元,资本市场高度活跃。
金融、化工、制药等领域成为应用先锋。例如,高盛与 Quantum Motion
合作优化金融算法,三菱化学等利用量子计算加速材料研发。IBM、
谷歌、亚马逊等提供的量子云平台(QaaS)显著降低了使用门槛,全
球接入的量子处理器已超过 50台。
国内科研院所与初创企业为核心,在超导与光量子等特定路线上
23
快速发展。在科研层面,我国在超导与光量子路线均实现量子优越性
验证:中科大“祖冲之三号”105比特超导量子计算机在随机线路采
样任务上展现远超传统超算的处理能力,“九章四号”实现 3000光
子操控,持续刷新光量子计算规模纪录。产业层面,图灵量子推出可
机房部署、室温运行的第二代可编程光量子计算机 TuringQ Gen2;本
源量子“本源悟空”面向全球提供量子算力服务;华翊量子发布二维
离子阵列原型机 HYQ-B100,推进量子模拟与量子 AI探索。无锡建
成国内首条光子芯片中试线,具备晶圆级可编程光量子芯片量产能
力。当前国内量子计算企业已超过 40家,初步形成覆盖芯片、测控、
整机、软件与云平台的产业链,并在金融、生物医药、气象等领域开
展应用探索,量子-经典混合计算与云化服务成为重要发展方向。
当前量子计算正沿着“硬件可规模化、算力可融合、应用可落地”
的路径加速从科研原型走向工程化与产业化,整体进入体系化发展阶
段。在硬件层面,芯片化、模块化与光子集成融合演进,通过将量子
比特、控制与读出部件纳入半导体工艺体系,结合标准化模块封装与
分布式组网,并依托光子集成实现高保真互联与并行读出,逐步突破
单机规模与系统复杂度瓶颈,为构建可扩展量子系统奠定基础。在算
力体系层面,量子计算不再孤立发展,而是以量子—经典混合计算为
主要形态,深度融入超算与智算中心,通过专用互连与智能调度,将
QPU作为新型加速资源纳入异构算力体系,形成“量超融合”“四
算融合”等新型基础设施,提升可用性与资源利用效率。在应用层面,
量子算法由可行性验证转向优先场景试点,混合量子—经典算法成为
主流范式,在化学模拟、材料设计、组合优化及金融、生物医药等高
价值领域开展探索,量子机器学习与可验证专用算法不断取得进展,
24
同时配合错误缓解与软件工具链成熟,持续降低开发门槛。多层协同
推动下,量子计算正从单点技术突破迈向体系化能力构建,逐步形成
面向行业应用的新型算力形态。
(5)类脑计算
类脑计算总体呈现以仿生机理牵引架构创新、以能效优势牵引场
景落地的发展主线,正从科研探索走向系统化工程实现。其核心趋势
一是计算范式由同步时钟驱动转向事件驱动与异步处理,通过脉冲神
经网络(SNN)在“有信息才计算”的机制下显著降低冗余功耗,更
接近生物神经系统工作方式。二是存算深度融合,计算与存储在神经
元、突触级单元中耦合实现,减少数据搬运开销,缓解传统架构的“存
储墙”和“功耗墙”。三是系统规模持续扩展,从单芯片验证走向多
芯片级联与晶圆级集成,配合片上网络(NoC)和三维互连技术,提
升神经元与突触可模拟规模。四是软硬件协同逐渐成为关键,包括类
脑编程框架、脉冲编码算法、训练与映射工具链等,推动模型从科研
模型向可部署模型转变。应用上,类脑计算优先在低功耗感知、边缘
智能、实时决策等对能效敏感场景探索落地,并与机器人、无人系统
和传感网络结合,形成“感存算一体化”的新型智能节点形态。
国际上,类脑计算已形成由头部科技企业和科研机构共同推进的
格局。Intel 发布的 Hala Point 被视为代表性系统之一,基于 Loihi 2
神经形态芯片构建,通过异步电路与脉冲神经网络实现高能效计算,
系统由上千颗处理器组成,可模拟上亿级神经元和千亿级突触规模,
在特定 SNN任务上展现出相对传统 GPU更优的能效表现,并已在国
25
家实验室开展研究部署。IBM早期的 TrueNorth奠定了数字类脑芯片
架构基础,近年来研究重心更多转向与 AI算法结合的低功耗智能系
统。欧洲在类脑计算上依托 Human Brain Project等长期计划,持续推
进神经建模与硬件平台结合。整体来看,全球类脑计算尚未形成大规
模商业化市场,但在科研计算、国防安全、边缘感知和自主系统等方
向保持活跃探索,技术路线呈现数字类脑、模拟类脑与混合架构并行
发展的态势。
国内类脑计算近年来从单点芯片研究逐步迈向系统级集成与平
台化发展。以清华大学、浙江大学、中国科学院相关院所为代表的科
研力量在神经形态芯片、脉冲神经网络模型及系统架构方面持续推
进。浙江大学发布的“悟空”神经拟态计算机采用多芯片级联与异步
NoC互连,基于“达尔文”系列芯片构建大规模系统,在神经元和突
触模拟规模及系统能效方面达到较高水平,体现出在系统设计与集成
能力上的进展。产业层面,部分企业与科研团队合作推动类脑芯片在
智能感知、机器人控制、低功耗识别等场景试点应用,探索与边缘计
算、物联网终端结合。整体上,国内已在芯片设计、系统构建和初步
应用验证方面形成连续布局,类脑计算正与人工智能、机器人和智能
传感等方向交叉融合,逐步从实验室验证走向面向特定场景的工程化
应用探索。
(6)光计算
光计算正作为后摩尔时代突破算力瓶颈的关键路径,从理论探索
全面转向以大规模集成化与生态构建为核心的宏观演进阶段。其首要
26
趋势表现为光子集成电路(PIC)的大规模化与材料体系的多样化,
通过硅基光子学、薄膜铌酸锂及三五族半导体的深度融合,光计算芯
片正从单一的功能单元向具备数千个可调谐组件的超大规模片上系
统跨越,极大地提升了在物理层面处理高维矩阵运算的计算密度。其
次,光电深度融合的异构架构已成为行业共识,即利用光子在处理高
通量线性运算方面的天然物理优势,配合电子电路在逻辑控制、非线
性处理与精密存储上的成熟生态,构建起兼具极致能效与算法通用性
的计算体系。在应用范式上,光计算正深度契合生成式人工智能的爆
发式需求,通过在底层架构中模拟神经网络的并行特性,有望彻底化
解大模型推理中的“功耗墙”难题。展望未来,随着标准代工工艺的
成熟与流片成本的降低,光计算将不仅局限于高性能数据中心的算力
加速,更将作为一种基础的物理算力资源,支撑起未来绿色算力网络
与通用人工智能的底层底座。
国外光计算研究已进入从原型机验证向数据中心级部署跨越的
关键阶段。以美国为代表的研究体系正深度集成硅光子技术与成熟的
半导体产业链,重点攻克高性能 AI推理加速难题。在学术层面,以
斯坦福、MIT及牛津大学为代表的机构正致力于突破全光存储与非线
性激活函数的物理局限,试图构建从计算到存储完全由光子驱动的
“全光计算机”理论原型。在商业侧,光计算已形成成熟的风险投资
与产业生态。Lightmatter与 Celestial AI等领军企业已进入大规模商
用验证阶段,其核心产品 Envise与 Orion平台通过将硅光集成(SiPh)
与先进封装技术结合,成功切入 AI算力供应链。2025年的最新趋势
显示,国外巨头如 NVIDIA、Broadcom及 Intel正通过 CXL协议将光
互连与光计算深度耦合,试图利用光子的超高带宽重塑大模型集群的
27
内存访问拓扑。整体而言,国外现状表现为:技术路径以硅基光子学
为主流,商业应用紧扣云端 AI推理加速,正通过构建“光子处理器+
软件栈+代工标准”的闭环,力求在后摩尔时代定义下一代算力基础
设施的工业标准。
国内光计算研究则表现出明显的架构原创性与“换道超车”的战
略意图,形成了高校尖端研究与本土初创企业深度联动的新格局。学
术界已实现从单一团队向多路径并行的演进:清华大学的“太极”架
构通过分布式广度计算突破了深度缩放限制;上海交通大学在 2025
年发布的 LightGen 芯片则展示了在生成式 AI 任务中超越传统 GPU
百倍的能效比;北京大学、华中科技大学及中国科学院上海微系统所
等机构在薄膜铌酸锂、微环谐振腔等材料与器件集成度上屡创世界纪
录。在商业侧,以图灵量子、曦智科技、光子算数为代表的企业已完
成从原理样机到工程化产品的迭代,推出了适配国产 AI框架的光电
混合计算卡。国内现状的显著特征是,在先进制程受限的背景下,通
过衍射计算、干涉计算及模分复用等物理层面的架构创新,实现对高
性能算力的底层重构。同时,依托上海、武汉等地的光学产业集群,
国内正加速构建自主可控的硅光代工与先进封装链条,力求在全球算
力竞争中建立独有的技术主权。
(三)计算设备与系统
(1)通用服务器
通用服务器技术态势呈现出由传统通用算力向异构协同与智能
调度融合演进的趋势。传统基于 x86架构的通用 CPU仍是数据中心
服务器的核心,如 Intel Xeon和 AMD EPYC系列为高性能通用负载
提供了稳定的基础算力平台,其中 AMD EPYC自 Zen架构以来通过
28
多核心与高内存通道提升了数据密集型计算性能。在此基础上,服务
器正逐步集成异构计算资源,包括 GPU、AI加速卡和 DPU,以应对
AI推理、训练、大规模并行计算和网络卸载等复杂任务。例如,国
际厂商戴尔的 PowerEdge XE9680服务器可配置多达 8块高端 GPU,
以提升 AI与数据密集型工作负载性能;HPE ProLiant Gen11系列通
过支持 PCIe 、DDR5 和最新 Xeon可扩展处理器,在性能与能效
上实现较大提升。互连技术也在加速升级,CXL(Compute Express
Link)等技术正在推动内存池化与跨设备共享,使得服务器内部资源
调度更灵活、更高效。系统级智能管理工具如 AIOps平台正成为基
础设施标配,通过自动化预测负载热点与资源调度优化提升整体利用
率。传统结构性升级已无法满足新型复杂负载需求,因此异构协同与
智能调度正成为服务器未来发展的核心方向。
全球通用服务器产业表现出多架构并行与细分场景定制的特征。
根据市场规模报告,全球通用服务器市场至 2026年预计规模持续增
长,x86架构仍占据主流,但 ARM架构与 AI优化服务器的渗透率显
著提升,推动整体产业向异构计算与高密度设计转型。在产品层面,
HPE ProLiant Gen11系列推出面向企业级负载的增强性能与安全性特
性,支持新一代 Xeon 处理器与 PCIe 标准的应用优化。戴尔
PowerEdge XE9680强调面向 AI与数据密集工作负载,可集成多 GPU
协同加速,进一步提升深度学习训练与推理性能。此外,国际大型厂
商正推动液冷服务器设计,以实现更高的模块密度与能效优势,并针
对超大规模数据中心提供整体系统解决方案。全球市场竞争格局呈多
极化趋势,北美、亚太、欧洲等区域都有先进服务器产能布局。据行
业研究数据,亚太地区贡献了全球服务器市场增长的重要动力,其中
29
中国市场采购量占全球份额近三成。细分应用场景驱动服务器产品向
更高性能、AI 优化及边缘部署能力演进。整体来看,全球通用服务
器产业已从以“通用基础设施”为核心,逐渐转向“云+AI应用场景
驱动”的系统级产品生态。
国内通用服务器产业在近几年持续加速发展,形成了较为成熟的
供应链与产品生态。根据产业研究机构统计,中国服务器市场规模持
续增长,2023至 2026年保持近 7–8%的年复合增长率。国内厂商在
云服务、政务、政企数字化建设等需求推动下不断推进产品迭代和技
术升级。在产品层面,浪潮信息(Inspur)的服务器系列在国内市场
和行业应用中份额领先,其产品线包括 GPU优化服务器、机架式服
务器与多节点计算节点,支撑云计算与大数据场景。超聚变
FusionServer系列是华为服务器产品的重要代表,近期推出的 G5500
V7为 4U双路 AI服务器,支持最多 10块双宽 GPU卡、高带宽内存
与灵活存储选项,面向 AI训练、推理及 HPC场景优化。此外,超聚
变还持续更新如 FusionServer 5298 V7等机架服务器产品,满足分布
式存储、大数据与企业级应用需求。联想问天等品牌也推出如
WR5220 G3等模块化通用服务器产品,通过灵活组态与高扩展性满
足企业计算与数据中心建设需求。 在国内生态建设方面,国产操作
系统如 EulerOS深度适配本地硬件平台,为商业级服务器应用提供从
操作系统到中间件的全栈支持。
(2)智算服务器
智算服务器由传统通用计算向以加速计算为中心、系统级异构协
同优化演进的趋势。与以 CPU为核心的通用服务器不同,智算服务
器通常以 GPU、NPU等专用加速器作为主要算力来源,CPU侧重于
30
控制、调度与通用计算,通过高速互连技术构建高带宽、低时延的异
构计算体系,以满足大规模矩阵运算和并行计算需求。随着模型规模
和并发度持续提升,单节点算力密度和节点内通信效率成为智算服务
器设计的关键指标。在系统层面,智算服务器更加注重算力密度、能
效比和集群可扩展性。一方面,通过高密度多加速器配置、液冷散热、
高功率供电等设计,支撑持续高负载运行;另一方面,通过低精度计
算、算子融合、并行策略优化和统一调度机制,在系统层面提升算力
利用效率。围绕大模型训练和推理负载特征,智算服务器正从单一硬
件性能提升,转向软硬件协同、算力与内存协同优化的发展路径,成
为构建大规模智算集群和算力基础设施的核心节点。
从全球产业格局看,智算服务器整体呈现出以 AI应用需求牵引、
平台化和生态化竞争加剧的特征。国际主流厂商围绕大模型训练和推
理场景,持续推出高密度 GPU服务器和智算节点产品,在互连架构、
散热设计和系统集成能力等方面不断迭代,以满足超大规模算力部署
需求。在产品层面,戴尔(Dell)推出的 PowerEdge XE系列智算服
务器面向 AI与数据密集型负载优化,支持多 GPU高密度配置,成为
国际市场中广泛部署的 AI服务器平台之一;HPE的 ProLiant及 Cray
系列智算服务器,通过支持新一代加速器、PCIe 与液冷技术,面
向企业级 AI 训练和科研计算场景提供高性能算力节点。超微
(Supermicro)等厂商则通过模块化 GPU服务器设计,提供从中等规
模到超大规模训练的多样化产品选择。
国内智算服务器产业在人工智能发展战略和算力基础设施建设
需求推动下加速发展,整机厂商牵引、国产芯片协同推进。围绕智算
中心建设和行业智能化应用需求,国内服务器厂商不断完善面向训练
31
与推理的智算服务器产品体系,在系统设计、散热架构和集群部署能
力方面逐步成熟。在具体产品进展方面,浪潮信息围绕 GPU加速和
智算中心建设,形成了覆盖多 GPU配置的 AI服务器产品线,广泛应
用于云计算和人工智能训练场景;超聚变 FusionServer系列智算服务
器面向 AI训练、推理及 HPC场景进行系统级优化,其中 G5500 V7
等机型支持多块双宽 GPU、高带宽内存和灵活存储配置,适用于高
密度智算部署。联想问天系列亦推出面向 AI负载优化的智算服务器
产品,通过模块化设计和高扩展能力,满足企业级和数据中心智算需
求。同时,华为依托昇腾 AI芯片与服务器平台的软硬件协同,在国
产智算服务器体系中形成了较为完整的解决方案。总体来看,国内智
算服务器正由“可部署、可运行”向“高效率、规模化应用与生态协
同”阶段迈进,在产业体系完善方面持续推进。
(3)超算服务器
超算服务器技术态势呈现出由以通用处理器为主的高性能节点,
向大规模并行、异构协同与系统级优化并重的方向演进。与以 AI负
载为核心的智算服务器不同,超算服务器更强调对复杂科学计算、工
程仿真和多物理场耦合计算的综合支撑能力,既要求高精度浮点计算
性能,也关注大规模并行效率与长时间稳定运行能力。在体系结构上,
超算服务器通常采用 CPU为主、加速器协同的异构架构,通过高速
互连网络构建低时延、高带宽的节点间通信环境,以满足大规模并行
计算和高频数据交换需求。随着应用从单一数值模拟向“仿真+数据
驱动+AI融合”演进,超算服务器逐步强化对多类型负载的兼容能力,
32
在节点设计中更加注重内存带宽、I/O能力与存储层级优化。在系统
层面,液冷散热、能效管理和可靠性设计成为关键指标,推动超算服
务器从单纯追求峰值性能,转向性能、能效与稳定性协同优化的发展
路径。
从全球产业格局看,超算服务器整体呈现出以国家级科研需求牵
引、系统工程能力驱动的发展特征。国际主流厂商围绕 E级计算和
大规模科研应用,持续推进高性能节点平台迭代,在处理器性能、互
连带宽和系统集成方面不断突破。在产品与方案层面,HPE Cray系
列超算服务器长期服务于多个顶级超算中心,在高速互连、液冷系统
和并行文件系统集成方面具备优势;Dell通过高性能计算(HPC)服
务器产品线,为科研机构和工业仿真用户提供高密度计算节点;联想
在欧洲和北美 HPC市场亦占据重要份额,其高性能服务器平台在气
象、生命科学和工程计算领域广泛部署。总体来看,国际超算服务器
竞争已从单机性能比拼,转向系统级设计能力、软件栈适配能力与整
体交付能力的综合竞争。
国内超算服务器产业整体呈现出整机厂商主导、国产软硬件逐步
协同推进的格局。围绕国家级和区域超算中心建设需求,国内厂商在
高密度计算节点设计、液冷散热和系统集成方面持续提升能力。在产
品与实践层面,浪潮信息长期参与多地超算中心建设,其高性能计算
服务器在气象、基因测序和工程仿真等领域形成规模应用;联想基于
问天及 HPC服务器平台,为科研和工业用户提供高性能计算节点;
中科曙光在超算领域布局较早,在整机系统设计、液冷技术和国产平
台适配方面具备较强经验,并参与多套国家级超算系统建设。同时,
33
随着国产处理器和操作系统逐步成熟,国内超算服务器正加强自主平
台适配与系统级优化。
(4)端侧设备
端侧设备正成为先进 AI计算的重要承载形态,其技术演进逐步
形成体系化方向。一是计算模式由“云端集中处理”转向“端—边—
云协同”,更多实时推理、个性化模型与隐私敏感数据在本地处理,
云端主要承担训练与知识更新职能。二是能力形态由单一语音或视觉
处理走向多模态融合,终端需要同时处理视觉、语音、文本、位置与
环境传感信息,对计算架构提出高带宽、低时延和异构并行能力要求。
三是交互方式由被动响应转向具备上下文理解与任务规划能力的智
能代理,终端逐步具备连续对话、跨应用调度与自主执行能力。在硬
件层面,受制于功耗、面积与散热约束,端侧芯片强调能效比优化,
推动 NPU专用化、存算一体、近存计算和 Chiplet异构集成等方案应
用;在算法层面,小模型高能力化成为重点,通过蒸馏、量化、稀疏
化与结构化剪枝降低资源消耗。同时,操作系统级 AI框架和统一调
度机制愈发关键,用于协调 CPU、GPU、NPU及传感器资源,实现
感知—决策—执行闭环,支撑端侧设备从功能智能向自主智能升级。
全球主要科技企业正将端侧 AI视为新一轮竞争焦点。AI手机领
域,苹果在 A系列与M系列芯片中持续强化神经网络引擎能力,将
本地大模型推理与系统功能深度结合;高通在旗舰 SoC中提升端侧
AI算力并完善 AI软件栈;谷歌依托 Tensor芯片推进端侧多模态与情
境感知能力。具身智能机器人方向,特斯拉、Figure AI、Agility Robotics
34
等推动 VLA模型与机器人控制系统结合,在物流分拣、仓储搬运等
场景开展商业化探索。智能汽车领域,英伟达 Drive平台持续提升集
中式车载算力并强化软件生态,Mobileye与特斯拉在感知与决策算法
上不断迭代,中央计算与驾舱融合逐步成为主流架构。无人机方面,
Skydio等企业依托视觉 AI实现高可靠自主飞行,在安防、巡检与应
急领域应用深化。全球端侧 AI从早期“把模型放进设备”阶段,进
入软硬件深度协同优化阶段,系统级体验与生态整合成为差异化关
键,端侧智能体正逐步成为连接个人、物理世界与数字服务的重要入
口。
国内端侧 AI产业同步活跃推进,并在多类终端形态上形成较丰
富布局。AI手机领域,华为、荣耀、小米、OPPO、vivo等在旗舰机
型中强化端侧 AI能力,将本地大模型与影像、语音助理、办公与系
统调度结合,提升多模态交互与个性化体验。具身智能机器人方向,
优必选、傅利叶、达闼等企业在服务机器人、康养辅助和工业协作场
景持续探索,结合大模型与运动控制算法提升任务泛化能力。智能汽
车领域,华为、地平线、黑芝麻智能等提供车载 AI计算平台与解决
方案,支持高阶辅助驾驶与座舱智能化,推动集中式电子电气架构应
用。无人机方面,大疆在消费级与行业级市场保持领先,AI视觉在
巡检、测绘、农业植保等场景加快普及,多机协同与自主作业能力不
断增强。
(5)存储技术
AI时代数据存储的作用从数据保险箱转向使能器,数据存储边
界向 AI 数据平台跃升。随着 AI 应用爆发,驱动超大规模、超高速
数据访问需求爆发,网络带宽增长约十倍,算力增长约百倍,而数据
35
量正面临千倍增长。数据存储成为 AI记忆与思考的基石,其存取效
能直接定义了大模型的训练速度与智能上限。数据存储的角色正发生
着结构性的改变,从计算系统的配套角色,升级为与计算并重的核心
支柱,它不再仅是数据的存储单元,而是通过与计算节点、网络通信
的深度协同,更成为数据的加速器,跃升为主动参与人工智能全流程
的 AI数据平台。这一转变是数据存储产业在技术架构与商业模式上
的核心演进,是支撑 AI普惠的关键基础设施,并深刻影响 AI大模型
训练与推理效能。
全球厂商与产业联盟对数据存储系统的战略升级。AI大模型的
训练与应用对数据存储提出了前所未有的挑战。传统存储架构存在带
宽不足、延迟过高、扩展性受限三大痛点无法匹配算力。面对“算力
空转”的存储瓶颈,美国头部厂商率先启动系统架构的战略调整,核
心思路是将存储系统深度嵌入 AI算力集群,形成计算-存储-网络
一体化的新型架构。NVIDIA在 CES 2026上正式发布新一代 AI计算
平台 Vera Rubin。其核心变革在于重构存储层级,引入 HBM4、
LPDDR5X 和由 DPU 管理的 NAND 三层存储架构,旨在将 AI 推理
的每秒处理令牌数提升 5倍,解决内存墙瓶颈。2025年 8月,SNIA
(全球网络存储工业协会)启动“”开放标准项目,旨在联
合行业成员为 AI工作负载制定高效、非专有的数据服务标准,优化
其性能、效率和成本。该项目强调构建一个开放的生态系统,以解决
AI数据管道中最棘手的数据访问和管理挑战。上述事件揭示了美国
科技产业在数据存储战略上的两个核心转变:一是定位转变,存储系
统不再被视作被动存放数据的静态仓库,存储层正积极融入计算架
构,成为可被 GPU直接、高效调用的“智能内存”,直接决定了 AI算
36
力的实际利用率。二是架构革新,为平衡性能、容量与成本,统一的
存储架构正被更精细的分层架构所取代。同时,存算分离成为主流,
使计算和存储资源能够独立扩展,提供了应对 AI工作负载不确定性
的灵活性。
国内数据存储产业正从跟跑向并跑迈进。国内企业在 3D NAND
闪存、DRAM内存及全闪存存储系统等关键领域,已取得关键突破,
正在逐步重塑全球产业格局。在产业链上游的存储介质领域,长江存
储通过其创新的 Xtacking(晶栈)架构,成功突破了高密度、高性能
与低功耗难以协同的技术瓶颈,为全球 3D NAND闪存技术演进提供
了新的思路。另外根据 IDC报告,在企业级外置存储市场,全球格
局呈现“总量稳增、结构优化、中美双强”的态势。DELL、NetApp等
美国厂商仍占据全球一半以上市场份额,而华为、曙光、浪潮等中国
厂商凭借超 20%的全球市场份额,已成长为不可忽视的重要力量。随
着 AI大模型对高吞吐、低延迟存储需求的持续提升,中国厂商在技
术创新与市场拓展方面的表现将深刻影响全球存储产业的未来走向。
面向 AI的存储关键能力正在成型,显著提升大模型训练与推理
效率。随着数据量指数级增长和 AI应用普及,计算数据已成为核心
生产要素,传统存储架构已难以满足“语料库+知识库”升级需求。大
模型训练参数规模可达万亿级,单次训练数据读取量达 PB级,对存
储带宽提出 TB/s级要求;推理场景则要求延迟低于 100微秒,同时
支持数据预处理与模型加载。AI存储架构需在处理海量数据、跨域
流动与训推规模巨大及成本有限之间取得平衡。核心能力包括六个方
面:极致性能,加速数据供给、CheckPoint保存及断点续训,缩短训
练等待时间;大模型数据范式,支持向量、张量、KV-Cache等格式,
37
加速数据融合与检索;数据安全,提供高可靠性并结合加密防护保障
服务连续性;高扩展性,跨域跨集群支撑异构计算与近存计算扩展;
数据编织,实现全局可视化管理、版本和血缘控制,提升流动效率并
保证数据质量;绿色节能,降低每 TB数据能耗与占用空间。通过这
些能力,AI存储系统不仅满足超大规模训练与推理需求,也为构建
高效、安全、可持续的 AI基础设施提供支撑。
(6)高速互联技术
先进计算领域正经历从传统单点计算向大规模异构集群的深刻
变革。在 AI和 HPC应用场景中,高速互联技术已成为突破算力瓶颈
的关键,直接影响系统整体性能与能效。当前技术演进呈现两大方向:
Scale up(纵向扩展)聚焦单机/超节点内多加速器的高带宽、低延迟
通信;Scale out(横向扩展)关注跨节点集群的分布式互联。超节点
架构作为 Scale up 的核心载体,正通过开放协议、光互连和 Chiplet
解耦等创新实现算力密度与能效的飞跃,而 Scale out 则在 RoCE v2
以太网与 InfiniBand双轨并行中寻求性能与成本的平衡。Scale-up高
速互联作为突破单芯片性能极限、实现大规模算力协同的核心技术,
近年来国内外均展开密集研究,涌现出一批具备低延迟、高带宽、智
能化特征的技术方案。此外互联拓扑设计直接影响 Scale up系统的通
信效率,不同厂商采用不同拓扑设计应对带宽与延迟挑战,并且引入
在网计算等新型计算通信融合模式提升系统整体性能。
38
图三 高速互联技术
国外以科技巨头和芯片厂商为主导,向更高带宽密度、统一内存
语义与开放化方向加速演进。英伟达在NVLink技术上持续引领行业,
第五代 NVLink 交换机支持 72 个 GPU 全互联,单链路通信速率达
NVLink Fusion技术,允许定制 CPU、XPU
通过 UCIe接口或 NVLink-C2C IP与 NVLink网络集成,实现半定制
化 AI基础设施部署;UALink是由 AMD、AWS、谷歌等科技巨头联
合发起的开放互连标准,2025年 4月正式发布 规范,支持单计算
单元(Pod)内最多 1024个加速器互连,单个通道速率达 200Gbps,
该规范还基于内存语义优化,实现 AI芯片间直接的 Load/Store等内
存操作;博通于 2025年 5月推出单机柜 XPU互联标准框架 SUE,该
框架以“网络总线化”为核心思路,在保留以太网生态的同时解决了
XPU互联的性能瓶颈,实现了高密度集成。SUE实例体积仅为传统
网卡的 1/5,互联带宽达
国内研究聚焦自主标准构建、适配智算场景需求,通过架构革新
与硬件协同突破国外技术垄断。由中国移动等单位发起的全向智感互
联架构(OISA)的核心特点是原生支持共享内存语义,通过将通信
39
操作抽象为 GPU标准的内存读写和原子操作,并结合统一总线寻址
以及硬件与软件栈协同的地址转换与一致性维护机制,致力于简化并
行编程,提高带宽效率并降低通信延迟;华为的 UB用单一协议取代
了传统数据中心中 PCIe、CXL、NVLink、TCP/IP等多种混合协议,
以消除协议转换带来的延迟、能耗和故障隐患,让端口无需转换即可
直接通信,2025年华为发布的 CloudMatrix 384超节点,是 UB技术
的首个量产级落地成果;中兴自研 Olink面向智算服务器的高带宽互
联需求,重点强化低时延通信与统一编址能力,为国产算力系统提供
自主可控的互联底座;阿里云推出以国际UALink协议为基础的ALS,
推动 UALink在国内的发展。
在互联拓扑研究方面,新一代加速器集群体系正向分层局部化和
高维直连结构演进。谷歌在 TPU集群中长期采用高维Mesh/Torus等
规则化直连拓扑,通过在芯片与加速器层面构建多维点对点互联网
络,显著提升加速器间的带宽供给与通信并行度,并充分利用大模型
训练过程中梯度同步与参数更新的通信局部性,从而减少跨层交换和
长距离数据传输。在此基础上,TPU集群结合拓扑感知的通信调度与
路由机制,在大规模扩展条件下仍能保持较高的带宽利用率和训练效
率。在数据中心级加速器互联方面,华为提出的 UB-Mesh架构同样
体现了分层局部化与直连优先的设计思路。UB-Mesh 采用
nD-FullMesh的分层网络拓扑,在机柜和节点内部优先构建高带宽、
短距离的直接互联,以降低对集中式交换设备的依赖,并缩短关键通
信路径长度,从而更好地适配大语言模型训练对带宽和时延的敏感需
求。同时,该架构通过全路径路由与拓扑感知性能优化提升整体通信
效率,并在系统设计中引入冗余与容错机制,以增强大规模集群运行
40
的可靠性。相较于传统 Clos网络,UB-Mesh在成本效率、网络可用
性和大模型训练线性扩展能力方面均展现出明显优势。
基于在网计算的卸载加速方案逐渐成为高速互联领域热点。在网
计算(In-Network Computing,INC)的核心理念是将原本由主机
CPU/GPU执行的数据聚合、梯度同步、数据预处理等通信密集型任
务下沉至具备算力的智能交换机、DPU或可编程网络设备中完成,
从而减少数据在节点间往返移动,降低通信延迟,提高整体吞吐和能
效。英伟达在该方向上通过 SHARP技术将规约运算能力集成至交换
机芯片,在网络侧直接完成 AllReduce等操作,减少跨节点通信开销,
并在新一代服务器与网络系统中进一步强化计算与通信路径的协同
设计。亚马逊云服务(AWS)则从大规模云数据中心的工程实践出发,
构建了以Nitro系统为核心的在网计算与卸载架构。Nitro通过将网络、
存储和虚拟化功能下沉至专用 DPU与 SmartNIC,实现主机计算资源
与通信处理的解耦,提供低时延、高带宽的集群互联能力。在分布式
AI训练与高性能计算场景中,AWS 利用 DPU侧的协议卸载、数据
路径加速与通信调度优化,显著降低 CPU介入度和通信抖动,为大
规模并行任务提供更加稳定、高效的网络支撑,体现了 INC在云级
规模下的可落地性与可扩展性。此外,围绕在网计算的工程化探索持
续深化,国内外相继出现基于可编程网络与智能网卡的实践方案,例
如利用 P4实现网络侧压缩与聚合、在数据中心网络中引入 DPU加速
通信卸载,以及通过 SmartNIC执行简单规约与量化操作等,为 INC
技术在异构计算集群中的应用提供了多样化路径。
(7)基础软件
操作系统、数据库和中间件作为数字基础设施的三大核心底座,
41
其技术演进正由单点性能优化转向以智能化、融合化和内生安全为核
心的协同进化。这一变革主要由云原生与人工智能两大技术力量驱
动,目标是构建具备自适应、自优化和高可信能力的下一代基础软件
体系。智能化成为贯穿演进的主线,并从功能增强走向架构级重构。
操作系统逐步演进为 AI原生系统,在内核层集成智能算力调度能力,
实现 CPU、GPU、NPU等异构资源的动态优化配置,并通过系统级
智能体重塑人机交互范式。数据库领域形成“AI for Database”和
“Database for AI”双向演进路径,一方面通过 AI实现自运维、自调
优,另一方面以向量数据类型和高效相似性检索为代表,原生支撑
AI应用。中间件则通过 AIOps和低代码技术,推动运维与开发模式
向自动化、智能化升级。融合化趋势进一步打破软硬件、端云和产品
边界,云原生、存算分离、多模数据库和集成化中间件平台成为主流
形态。同时,安全能力由外围叠加转向内生设计,通过可信计算、全
流程加密与智能安全监测,构建“架构免疫型”安全底座。
国际头部厂商以平台化生态和 AI原生深度融合,系统性塑造基
础软件的未来形态。操作系统领域,竞争已升级为“AI原生操作系
统+智能体生态”之争。微软通过 Windows AI Foundry 整合系统级
AI运行时、API和本地模型优化能力,使 AI应用深度融入Windows
生态,并将 Copilot升级为多智能体系统,推动操作系统从工具平台
向智能任务协作平台转型。苹果依托软硬件垂直整合优势推出 Apple
Intelligence,在强调隐私保护的前提下强化设备端生成式 AI 能力;
谷歌则持续增强Android的端侧机器学习框架,实现系统级智能优化。
数据库领域,国际厂商加速融合云原生与 AI 原生架构。Oracle AI
Database 26ai将向量数据类型、索引和 AI代理框架直接嵌入内核,
42
实现“数据就地智能计算”。Snowflake、Google Spanner代表 Serverless
与全球分布式数据库的成熟形态,Aurora和 Azure Cosmos DB在多模
与向量能力上持续演进。中间件方面,IBM和 Oracle正将集成平台
升级为企业 AI智能体的编排中枢,通过自然语言驱动集成配置,打
通传统系统与 AI数据平台,构建面向人和智能体的统一治理平面。
国内基础软件发展聚焦自主可控与行业深耕,并加速推进与人工
智能的深度融合。国产操作系统以“可用、好用、智能”为目标持续
突破。银河麒麟和统信 UOS 已实现对 Intel、AMD 及飞腾、兆芯、
海光等国产 CPU的同源支持,并兼容Windows、Android应用生态,
有效降低国产化替代成本。同时,国产操作系统积极引入系统级 AI
能力,在智能检索、办公辅助和生产力工具等方面开展探索,并通过
架构隔离和可信机制强化安全与稳定性。国产数据库已由“替代导向”
转向“创新驱动”,在分布式、云原生和智能化方向取得实质进展。
GaussDB、OceanBase在事务与分析性能上达到国际先进水平,并引
入自调优、自诊断能力。OceanBase seekdb通过融合向量、全文和结
构化数据,实现 AI原生混合检索闭环。达梦数据库则以 AI驱动运维
和资源调度提升系统弹性。国产中间件围绕国产化适配与智能化升级
同步推进,东方通、宝兰德等厂商通过 AIOps和智能体平台,构建
覆盖运维、集成和算力管理的一体化能力,逐步形成面向行业应用的
自主基础软件体系。
(8)开发/框架类软件
自动并行、训推一体与云原生深度融合成为框架演进主线。从整
43
体技术趋势看,深度学习框架正加速向“高自动化分布式 + 训推一
体 + 云原生协同”方向演进。其中,动态与静态统一的自动并行机
制已成为大模型训练的核心能力,通过在计算图层面融合数据并行、
模型并行、流水线并行和张量并行,显著降低分布式训练门槛并提升
资源利用率。同时,训推一体化架构逐步成熟,框架不再局限于训练
阶段优化,而是围绕模型压缩、混合精度、推理加速和服务部署形成
贯通式设计,使模型能够在不同硬件与场景下高效落地。另一方面,
云原生技术与分布式训练深度耦合,框架开始面向超大规模集群与超
节点形态进行设计,通过原生容错、弹性调度和异构资源管理,保障
万卡级集群的稳定运行。同时,生成式 AI驱动的 AI原生工具链快速
崛起,代码生成、自动调优与测试逐步嵌入开发流程,推动模型开发
从“人工调参”为主转向“智能辅助与自动化优化”,整体呈现出算
力规模化、系统工程化和开发智能化并行演进的趋势。
在国外产业层面,PyTorch 依然保持在研究与产业界的主导地
位,其分布式能力和算子生态持续演进。2025年发布的 PyTorch
重点强化了 Pipeline Parallel在跨节点场景下的协同能力,并原生集成
FlashAttention-3等高效算子,使长序列模型的计算效率显著提升,进
一步巩固其在大模型研究与训练中的优势。与此同时,Intel oneAPI
通过统一编程模型实现 CPU、GPU、NPU的无缝切换,开发
者仅需调整设备配置即可完成跨硬件部署,混合精度与算子融合能力
不断增强,反映出国外框架对“硬件无关性”的高度重视。在云原生
方向,Kubeflow 2025在传统 AI工作流基础上引入更复杂的异构与混
44
合计算模式,支持经典—量子混合神经网络,并依托高速互联实现低
时延边缘推理,拓展了框架应用边界。此外,GitHub Copilot X等 AI
原生开发工具不断进化,将代码生成、性能优化与安全检测深度嵌入
开发流程,显著提升工程效率,体现出国外在“AI赋能软件工程”
方向上的系统化布局。
图四 深度学习框架
国内方面,自主深度学习框架在分布式训练、国产硬件适配和工
程化能力上实现显著突破。百度飞桨 及后续 版本推出动静统
一自动并行方案,并结合 FP8混合精度、动态显存卸载等技术,使文
心大模型在超大规模集群中的预训练MFU达到 47%,在易用性与效
率上形成明显优势。在训推一体方面,飞桨依托高可扩展中间表示
(PIR)架构,实现从训练、压缩到推理和服务部署的全链路优化,
在单机与集群推理场景下显著提升吞吐性能;同时已完成对 53个系
列国内外芯片的适配,在部分国产硬件上训练性能已优于深度定制的
PyTorch方案。华为昇思MindSpore同步推进自动并行与图编译技术,
新增Morph自定义并行能力,支持 Dropless MoE训练,在超大参数
模型集群中显著降低通信开销,并通过插件化方式快速融入 vLLM等
推理生态。在云原生层面,百度和华为均围绕超节点集群构建弹性调
度与高可靠训练能力,万卡级集群有效率接近甚至超过 98%,标志着
45
国内 AI框架正从“功能可用”迈向“规模可控、性能领先”的新阶
段。
(四)计算设施与安全
(1)智算中心
智算中心正向以算力效率、系统协同和智能化服务能力为核心的
方向演进。随着生成式人工智能和多模态大模型快速发展,智算中心
的负载呈现出算力密集、通信密集和存储密集并存的特征,对计算架
构、网络互连和资源调度提出更高要求。在体系架构层面,智算中心
普遍采用以加速计算为核心的异构计算体系,通过多类型算力单元协
同运行,提升大规模并行训练和高并发推理效率。同时,高带宽、低
时延的网络互连和分层存储体系成为智算中心的重要基础设施,用于
支撑参数同步、模型并行和数据高速访问。在运行与管理层面,围绕
能效、成本和服务质量,智算中心加速引入智能调度、弹性资源管理
和统一软件栈,推动算力供给由资源交付向服务交付转型。
智算中心建设已成为各国布局人工智能竞争力的重要抓手,以头
部科技企业和云服务商为主导、以平台化和生态化为特征。国际领先
国家通过建设大规模智算中心,为大模型研发、AI应用创新和产业
孵化提供集中算力支撑,并逐步形成面向科研和产业开放的服务体
系。在实践层面,国际云服务商和科技企业持续扩展智算中心规模,
通过集中部署高性能加速算力,支撑超大规模模型训练和多行业推理
服务。同时,一些国家和地区也在公共科研体系中推进智算中心建设,
重点服务人工智能基础研究和高端应用开发。整体来看,全球智算中
心正由“算力规模竞争”向“算力效率、应用支撑能力和生态服务能
46
力”并重的发展阶段演进,算力基础设施与 AI应用创新之间的协同
关系日益紧密。
国内智算中心建设在人工智能发展战略和新型基础设施建设政
策推动下持续加快。围绕大模型研发、行业智能化应用和区域数字经
济发展需求,各地加速布局智算中心,推动算力资源集中化、规模化
和服务化供给。在应用实践方面,国内智算中心已广泛服务于自然语
言处理、计算机视觉、生物医药、工业仿真和智能制造等领域,通过
统一调度平台向科研机构、企业和创新主体提供算力服务。同时,在
国产软硬件适配、能效优化和智能运维方面持续推进探索,逐步提升
智算中心的自主可控水平和运行效率。总体来看,我国智算中心正由
“快速建设”向“高质量运营和应用深化”阶段转型,在支撑人工智
能技术突破和产业规模化应用方面发挥着越来越重要的基础性作用。
(2)超算中心
超算中心正由以峰值算力和单一计算性能为核心的建设模式,向
面向应用效率、系统协同与智能化运维综合优化的方向演进。随着科
学计算与人工智能深度融合,超算中心的计算负载由传统数值模拟扩
展至数据驱动计算和 AI辅助计算,对计算架构、网络互连和存储系
统提出更高要求。在体系架构层面,超算中心普遍采用大规模并行与
异构协同的系统设计,通过多类型处理器与加速单元协同运行,提升
能效和应用适配能力。同时,高速互连网络、分层存储体系与并行文
件系统成为超算中心的基础配置,用于支撑大规模节点通信与海量数
据访问。围绕绿色低碳与长期稳定运行目标,液冷散热、功率感知调
度和智能运维逐步成为超算中心的重要发展方向,推动超算系统由
“性能导向”向“性能—能效—可靠性—可持续性”协同优化转型。
47
从全球范围看,超算中心建设呈现出以国家级科研需求为牵引、
以系统集成和应用支撑能力为核心的发展格局。美国、欧洲、日本等
国家和地区持续推进顶级超算中心建设,将其作为基础科学研究、国
防安全、气候模拟和人工智能发展的重要支撑。国际领先的超算中心
在架构设计上普遍强调异构计算、高速互连与系统级软件协同,以提
升实际应用性能和资源利用效率。在建设实践方面,美国橡树岭国家
实验室、阿贡国家实验室等机构部署的顶级超算系统,重点服务于材
料科学、能源研究和人工智能应用;欧洲通过 EuroHPC划推动跨国
超算中心布局,建设面向科研和产业开放的高性能计算基础设施;日
本在气象模拟、生命科学和工业设计等领域持续强化超算中心应用能
力。整体来看,全球超算中心正由“单点算力竞争”向“平台化服务
能力与应用生态构建”演进,更加注重开放共享和跨学科应用支撑。
国内形成了以国家级超算中心为核心、区域性与行业超算中心协
同发展的格局。围绕基础科学研究、工程仿真和新兴技术领域需求,
我国超算中心在系统规模、运行稳定性和应用支撑能力等方面不断提
升,逐步构建起覆盖多领域的超算服务体系。在实践层面,天津、广
州、深圳、无锡、济南等国家级超算中心,持续为航空航天、新材料、
生命科学、气象预测和人工智能等领域提供算力支撑,并通过统一调
度平台和服务模式,推动超算资源向科研机构和产业用户开放。近年
来,国内超算中心在国产软硬件应用、能效优化和智能化运维方面取
得积极进展,逐步探索面向智算与高性能计算融合的新型超算中心建
设模式。
(3)芯片安全
48
芯片安全是保障计算设施可信性、数据安全与基础算力可靠运行
的关键环节,涵盖从设计、制造到运行全生命周期的安全技术。核心
技术包括硬件根信任(Root of Trust)、可信启动(Trusted Boot)、
硬件隔离和防篡改存储,确保芯片在上电和运行阶段的完整性与可靠
性;可信执行环境(TEE)与片上加密存储可对敏感数据进行隔离与
加密处理,防止侧信道、固件篡改和远程攻击;片上密钥管理单元
(KMU)、硬件随机数生成器以及防侧信道设计,则在密钥保护和
抗泄露方面提供技术保障。随着算力需求和应用场景复杂化,芯片安
全正呈现出异构算力协同防护、全生命周期安全、软硬件联合防护以
及对量子计算威胁的前瞻性加密设计等发展趋势,逐步从单点安全向
系统级、生态级防护拓展。
在国际层面,芯片安全技术和产业发展呈现出政策驱动与技术创
新并行的特征。欧美国家和日本等科技强国通过建立芯片安全标准、
认证体系和供应链审计机制,加快在关键领域部署可信计算和硬件防
护能力。例如,NIST提出硬件安全指南和量子抗性加密建议,企业
级 CPU与加速器普遍集成 TEE、安全启动、片上加密和侧信道防护
模块。产业方面,Intel、AMD、NVIDIA等国际厂商在 CPU、GPU、
FPGA及安全芯片中持续集成硬件安全特性,同时推动芯片级安全与
系统级安全的协同部署。全球趋势显示,随着云计算、AI和边缘计
算快速发展,芯片安全已成为支撑高性能计算、数据中心与大模型应
用可靠运行的关键基础设施能力。
国内芯片安全产业在国家信息安全战略和自主可控需求推动下
快速发展,形成了以国产 CPU、AI加速器及安全芯片为核心、产业
链协同推进的布局。在技术实践方面,国产芯片厂商已在可信启动、
49
硬件根信任、TEE、片上加密及侧信道防护方面逐步实现可用方案,
并结合国产操作系统和软件栈形成软硬件协同防护体系。在应用层
面,国产芯片安全技术已广泛应用于超算中心、智算中心、政务数据
中心及金融、能源等关键行业,提升基础设施可信度和数据安全能力。
未来,国内芯片安全产业将继续沿着全生命周期安全、异构算力协同
防护和软硬件一体化部署方向发展,形成自主可控、标准化、可验证
的芯片安全生态,为国家算力和数据安全提供坚实支撑。
(4)整机安全
整机安全主要围绕服务器、加速节点等整机设备在物理、固件、
系统和运行层面的可信性与防护能力展开。核心技术包括整机可信启
动与远程度量、固件与 BIOS 安全、硬件与固件一致性校验、BMC
安全防护以及整机级身份认证与访问控制等,用于防范设备篡改、固
件植入和非法接管等风险。同时,通过安全启动链、硬件根信任与芯
片级安全能力协同,实现从芯片到整机的可信传递。随着算力设施规
模化部署和集中运维趋势增强,整机安全正向自动化安全运维、全生
命周期管理、软硬件协同防护和跨节点一致性验证方向演进,成为支
撑云计算、智算中心和关键行业算力平台稳定运行的重要基础能力。
全球整机安全技术已成为云数据中心、高性能计算与 AI基础设
施的标配能力。国际厂商如 Dell、HPE、Lenovo、Supermicro等围绕
可信启动、固件防护、BMC安全和远程可信运维展开整体能力建设。
Dell的 iDRAC、HPE的 Silicon Root of Trust 与实时固件校验机制均
将硬件信任链、固件一致性和运维安全纳入系统级策略,结合标准化
的远程管理协议(如 Secure Redfish),推动整机安全与零信任架构
融合。整体产业趋势显示,国际整机安全能力正从“静态防护”向“动
50
态验证、自动修复和平台联动”演进。
国内整机安全技术在国家安全策略和自主可控要求推动下快速
发展。浪潮信息、华为、联想、超聚变等整机厂商在可信启动链、固
件完整性防护、BMC访问控制与运维安全 等关键能力上持续加强,
并结合国产芯片、安全操作系统和统一管理平台,构建起软硬件协同
的整机安全体系。同时,通过与安全运维、威胁检测等合作伙伴协同,
提升大规模计算设施运行环境的可控性与可审计性。未来国内整机安
全将向全链路可信、集群协同治理和生态深度融合方向发展。
四、先进计算技术发展推进建议
(一)加强关键核心技术研发
面向先进计算长期发展需求,应围绕高端处理器、先进存储、关
键互联与基础软件等核心环节持续加大研发投入,提升自主创新能力
和技术掌控力。在计算芯片方向,重点推进高性能 CPU、GPU、AI
加速器及可重构架构研发,强化先进封装、Chiplet与软硬件协同设
计能力;在存储与互联方向,加强 HBM、高速接口、光互联及存算
协同等关键技术攻关,缓解“存储墙”“互联墙”瓶颈;在基础软件
方向,推动操作系统、编译器、并行开发环境与 AI框架协同优化,
提升对国产硬件适配能力。同时,应建立面向前沿技术的持续研发机
制,在量子计算、类脑计算、光计算等方向保持前瞻布局,形成“应
用牵引—技术突破—产业反馈”的良性循环,逐步缩小与国际先进水
平差距,夯实先进计算产业发展的技术底座。
(二)打造产业各方协同生态
先进计算产业链条长、技术耦合度高,单一主体难以独立完成体
51
系化突破,需要构建产学研用深度协同的创新生态。应强化整机厂商、
芯片企业、软件厂商、系统集成商与应用单位之间的协同机制,推动
联合研发与协同验证,缩短技术从研发到应用的转化周期。依托重大
工程和示范项目,构建开放测试平台和验证环境,促进软硬件兼容适
配和系统级优化。鼓励龙头企业发挥生态引领作用,带动中小企业融
入供应链和创新链,形成分工合理、优势互补的产业体系。同时,通
过开源社区和开放平台建设,提升产业透明度与参与度,降低创新门
槛,逐步构建开放共赢、可持续演进的先进计算产业生态。
(三)推进先进计算标准制定
标准是推动产业规模化和生态成熟的重要基础,应加快构建覆盖
芯片接口、系统架构、互联协议、软件栈及测试评估方法的先进计算
标准体系。在硬件层面,推动高速互联、Chiplet接口、内存扩展及
加速器互联等标准协同发展,提升不同厂商产品互操作能力;在软件
与系统层面,加强对并行编程模型、算力调度接口和 AI框架适配规
范的研究,减少生态碎片化问题。在测试评估方面,建立统一的性能、
能效和可靠性评价体系,引导产业从“单点性能指标”转向“系统级
综合能力”评估。同时,积极参与国际标准化组织工作,提升我国在
先进计算领域的话语权和规则影响力,推动国内标准与国际体系兼容
互认,为产业国际化发展创造条件。
(四)持续探索前沿技术落地
在巩固现有产业基础的同时,应对量子计算、类脑计算、光计算
等前沿方向保持理性投入和场景驱动探索,推动从实验验证走向工程
化试点。可优先在科研计算、密码分析、特定优化问题、低功耗边缘
智能等领域开展示范应用,形成“小规模验证—行业试点—逐步推广”
的落地路径。通过建设试验平台和示范工程,验证新型计算范式与现
有算力体系的协同模式,避免与传统计算体系割裂发展。同时,加强
对前沿技术成熟度、经济性和安全性的评估,建立动态迭代机制,引
导资本和产业资源理性投入,推动前沿计算技术在可控风险下实现产
业化突破,为未来算力体系变革储备技术选项。
mailto:nieyi@
前言
一、先进计算技术发展背景
(一)先进计算技术体系概述
(二)先进计算技术成为计算技术发展关键突破点
(三)先进计算技术产业发展面临的国际形势
(四)发展先进计算技术是国家发展战略需求
二、先进计算技术总体发展现状
(一)计算处理器与关键部件
(二)计算架构与体系
(三)计算设备与系统
(四)计算设施与安全
三、先进计算重点技术发展情况
(一)计算处理器与关键部件
(1)计算处理器
(2)存储部件
(3)互联部件
(二)计算架构与体系
(1)异构计算
(2)存算一体
(3)可重构计算
(4)量子计算
(5)类脑计算
(6)光计算
(三)计算设备与系统
(1)通用服务器
(2)智算服务器
(3)超算服务器
(4)端侧设备
(5)存储技术
(6)高速互联技术
(7)基础软件
(8)开发/框架类软件
(四)计算设施与安全
(1)智算中心
(2)超算中心
(3)芯片安全
(4)整机安全
四、先进计算技术发展推进建议
(一)加强关键核心技术研发
(二)打造产业各方协同生态
(三)推进先进计算标准制定
(四)持续探索前沿技术落地
知识星球 行业与管理资源
知识星球 行业与管理资源