智库文档所有分类

先进计算技术发展研究报告（2025）.doc

下载

来自星星的小胖子

55页 | 707KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

先进计算技术发展研究报告 (2025）目录一、先进计算技术发展背景 ....................................................................1 （一）先进计算技术体系概述 ...............................................................1 （二）先进计算技术成为计算技术发展关键突破点 ...........................2 （三）先进计算技术产业发展面临的国际形势 ...................................2 （四）发展先进计算技术是国家发展战略需求 ...................................4 二、先进计算技术总体发展现状 ...........................................................5 （一）计算处理器与关键部件 ................................................................5 （二）计算架构与体系 ............................................................................5 （三）计算设备与系统 ............................................................................6 （四）计算设施与安全 ............................................................................7 三、先进计算重点技术发展情况 ............................................................8 （一）计算处理器与关键部件 ................................................................8 （二）计算架构与体系 ..........................................................................16 （三）计算设备与系统 ..........................................................................27 （四）计算设施与安全 ..........................................................................45 四、先进计算技术发展推进建议 ..........................................................50 （一）加强关键核心技术研发 ..............................................................50 （二）打造产业各方协同生态 ..............................................................50 （三）推进先进计算标准制定 ..............................................................51 （四）持续探索前沿技术落地 ..............................................................51 一、先进计算技术发展背景（一）先进计算技术体系概述先进计算技术体系由硬件底座、系统架构、计算设备以及基础设施等多个层面构成，旨在支撑多类型计算任务的高效执行。从整体框架来看，先进计算技术体系可划分为四个主要部分：计算处理器与关键部件、计算架构与体系、计算设备与系统、计算设施与安全。四者之间形成从芯片、架构、系统到设施的完整技术链条，相互支撑，共同构成先进计算体系的核心基础。计算处理器与关键部件是先进计算体系的最底层要素，涵盖多类通用与专用处理器，包括 CPU、GPU、ASIC、FPGA、DPU 等，并包含高速互联部件、新型存储器和光电互联模块等关键组件。该部分负责提供基础算力、通信带宽与存储访问能力，是构建各类上层计算系统所必需的硬件核心。计算架构与体系用于组织、协调和管理不同类型的处理器和关键部件，使其形成可协同运行的系统结构。内容涵盖异构计算架构、存算协同架构、可重构计算等，也进一步扩展至量子计算、类脑计算、光计算等新型范式的融合架构设计。该部分定义了计算资源的分工方式、执行模式和系统组织方式，是实现高效计算的结构基础。计算设备与系统是先进计算体系在工程层面的具体实现形态，包括通用服务器、智算服务器、超算服务器、端侧设备、存储系统以及互联系统等；同时，还包括操作系统、数据库和中间件等基础支撑软件及人工智能系统软件与开发框架。该部分直接面向实际部署与应用，是承载计算任务的主体单元。计算设施与安全作为体系的基础与保障层，主要包括数据中心、人工智能计算中心、超级计算中心等设施建设内容。安全部分主要围绕芯片安全与整机安全展开，涵盖硬件根信任、可信启动、固件与系统完整性保护、可信执行环境以及关键部件防篡改与隔离防护等能力，通过构建从芯片到整机的可信链条与协同防护机制，为先进计算系统的安全可控与稳定运行提供基础保障。（二）先进计算技术成为计算技术发展关键突破点先进计算能力正成为支撑数字经济发展的核心基础。在数字化、网络化、智能化加速推进的背景下，计算能力已成为重要的基础性资源。作为新一代信息技术产业的重要组成部分，先进计算持续向经济社会各领域延伸，其在产业发展和技术体系中的基础性、战略性作用不断增强。计算能力的提升不仅关系到数字化转型与智能化升级的推进进程，也逐渐成为各国在新一轮科技竞争中的关键支撑。多技术协同创新推动先进计算体系加速演进。当前，计算硬件、软件系统、算法模型以及体系结构等多个层面持续迭代，相互促进，推动计算技术整体能力不断提升。同时，量子计算、类脑计算等新型计算范式不断涌现，并与现有计算技术形成交叉融合的发展态势，进一步拓展计算技术的发展空间。在此背景下，统筹推进先进计算基础能力建设、完善相关技术体系，已成为提升国家信息化水平并支撑数字经济持续发展的重要方向。（三）先进计算技术产业发展面临的国际形势美国依然是全球先进计算产业创新高地。当前，全球先进计算技术加速发展，技术迭代与产业渗透双向提速。以美国为代表的西方阵营凭借先发优势占据领先地位。在核心技术层面，7 纳米以下先进制程与异构集成技术突破，驱动芯片性能指数级提升。美国科技巨头凭借半导体材料与芯片架构积淀，掌控高算力、高带宽、高互联领域，重塑全球计算产业链，筑起技术护城河。在软件生态构建层面，国际龙头加快软硬件协同创新，深度融合算法框架与硬件平台。从 PyTorch 到 CUDA，以软硬一体优化构建完整技术闭环，大幅提升算力供给能力。计算基础设施迈向集群化阶段，以万卡、十万卡级超大规模集群为核心，重塑高性能计算模式。美国率先建成十万卡级智能计算集群，通过 2 Tbps 节点带宽、自研互联技术及液冷方案，引领全球算力建设。在产业应用层面，美国在大模型、机器人、自动驾驶等领域拥有多家龙头企业，在全球先进计算产业发展中长期处于领先地位。欧盟、日本和韩国等经济体持续将先进计算作为数字竞争力与科技安全的重要基础方向。通过战略引导、持续投入和标志性工程形成系统化布局。欧洲以“数字主权”为牵引，依托《欧洲芯片法案》《欧洲数字主权战略》等强化在高性能计算、低功耗计算、AI 与量子计算等领域的自主能力建设，并通过“地平线欧洲”等科研计划加大对异构架构、能效优化及 AI-HPC 融合的支持力度，同时以 LUMI、Leonardo 等超算系统为代表，构建面向科研与产业开放的先进算力平台。日本长期围绕国家重大需求推进先进计算发展，通过系列科技与AI 战略持续投入，在超级计算、类脑计算和光量子计算等方向开展前沿攻关，以“富岳” 等自主超算系统为核心支撑基础科研、灾害预测和生命科学研究，体现出软硬件协同与自主技术突破并重的路径。韩国则以先进计算带动下一代 ICT 产业升级，通过《K-Cloud 战略》《国家AI 战略》等政策强化顶层设计，推动本土 AI 芯片和高性能计算平台研发，依托国家超级计算中心建设及与三星、SK 等龙头企业协同，在 HBM、CXL 互联及AI 服务器系统集成方面加快创新布局。（四）发展先进计算技术是国家发展战略需求发展先进计算技术是保障国家安全和实现高水平科技自立自强的战略支点。当前，先进计算已成为支撑国防安全、经济安全和数据安全的关键基础设施，是人工智能、空天信息、核能安全、生物医药等战略领域不可或缺的底座能力。在国际科技竞争和地缘政治博弈加剧背景下，高端计算芯片、系统架构和算力平台正成为受限最严、封锁最强的关键环节。加快推进自主可控的先进计算技术体系建设，有助于突破外部技术封锁，夯实关键领域核心能力根基，是维护国家安全和提升综合国力的必然选择。发展先进计算技术是推动经济高质量发展、培育新质生产力的重要引擎。随着数字经济向纵深发展，算力已与土地、资本、能源并列为关键生产要素，先进计算在支撑大模型训练、工业仿真、智能制造和智慧城市等场景中发挥着核心作用。通过持续提升算力供给能力和计算效率水平，能够加速科技成果转化，带动芯片、服务器、网络和软件等产业链整体升级，形成以先进计算为牵引的新型产业体系，为我国经济结构优化和长期竞争力提升提供持续动力。发展先进计算技术是提升我国在全球科技竞争中话语权和规则塑造能力的关键抓手。当前，先进计算相关的芯片架构、互联协议、软件生态和应用范式正加速演进，发达国家和头部企业通过技术标准、生态体系和产业联盟持续巩固先发优势。加快布局自主先进计算技术路线，推动关键技术标准制定和产业生态建设，有助于我国从技术跟随向并行甚至引领转变，在新一轮全球科技和产业变革中掌握主动权，为参与国际规则制定和深化高水平开放合作提供坚实支撑。二、先进计算技术总体发展现状（一）计算处理器与关键部件一是计算处理器总体呈现多架构并行、异构协同不断深化的发展态势。CPU 在先进制程带来的性能提升逐步放缓背景下，正通过多核多线程设计、微架构优化和异构计算能力增强来提升通用计算效率，并与 GPU、NPU、DPU 等专用处理器形成协同分工，支撑高性能计算与人工智能等复杂负载；AI 加速芯片则围绕更高算力密度、更低精度计算和更强系统级扩展能力快速演进，计算精度持续向 FP8、FP4 等方向发展，单芯片算力与集群级性能同步提升，软硬件协同和异构系统设计成为决定整体效能的关键。二是存储部件正由单纯提升容量和带宽，向服务算力体系和系统级协同优化转变。 DDR5 持续演进，HBM 已成为高端算力系统中的关键资源，直接影响模型规模和训练效率，3D NAND 通过堆叠层数提升和控制算法优化支撑大容量、低成本需求，新型非易失存储在特定场景加快探索，存储正逐步从被动配套部件转变为算力系统设计的重要变量。三是互联部件加速向更高带宽、更低时延和更低功耗方向演进。交换芯片与高速网络能力持续提升，光互联和光电融合技术不断深化，CPO、 OIO 等新型形态被用于突破板级互联和系统扩展瓶颈。（二）计算架构与体系一是计算架构总体呈现多路径并行、异构协同和可重构能力快速发展的态势。超节点、PD 分离推理、异构混合加速器和可重构数据流架构不断演进，通过高带宽互联和算力单元灵活配置，实现大模型训练与推理的高性能和高能效，国内外企业已相继推出量产系统验证工程化可行性。二是存算与系统级协同能力显著增强。存算一体技术结合新型非易失性存储器件和全链路架构优化，将计算功能融入存储单元，减少数据搬运开销，显著提升算力能效，同时支持EB 级数据处理与千亿至万亿参数模型的训练与推理，存储系统正从被动配套转向算力系统设计的重要变量，兼顾可靠性、安全性和扩展性。三是新型算力范式快速落地与产业化探索加速。量子计算通过芯片化、模块化和光子集成形成可扩展系统并与经典算力融合，类脑计算依托脉冲神经网络和异步架构实现低功耗高效能模拟，光计算通过光电融合和大规模光子集成提升矩阵运算吞吐并支撑生成式AI 任务，国内外企业已开展工程化部署。（三）计算设备与系统一是服务器体系正整体向异构化与系统级协同演进。通用服务器由 CPU 主导转向融合GPU、NPU、DPU 等多加速器平台，结合 PCIe 、CXL 等高速互联，实现资源池化与灵活调度，夯实数据中心基础底座；智算服务器以加速器为核心，通过多卡高密度部署、液冷散热和低精度计算优化，支撑大模型训练与推理，竞争日益体现为平台与生态能力；超算服务器面向科研与工程计算，强调高精度计算、大规模并行与长期稳定运行。二是端侧设备成为AI 计算的重要延伸载体。AI 手机、具身机器人、智能汽车与无人机等推动计算向端边侧下沉。SoC 集成 NPU 及专用单元成为主流，结合模型压缩、量化与稀疏计算，在受限功耗下提升实时推理能力，端侧智能由功能化向自主化升级。三是存储与高速互联从系统瓶颈环节转变为架构创新重点。存储从数据仓库演进为深度参与训练与推理流程的 AI 数据平台，通过分层架构、存算分离和高性能闪存技术，支撑PB 级数据供给与微秒级访问需求；同时，高速互联成为释放集群算力的核心纽带，围绕 Scale-up 与 Scale-out 双路径持续升级，在高带宽、低时延与内存语义互联方向加速突破，并与在网计算、DPU 卸载等融合，减少数据搬移开销。四是软件体系向AI 原生与云原生融合演进。操作系统强化异构资源调度与内生安全，数据库与中间件加速智能化与自动化，开发框架围绕自动并行、训推一体和云原生协同持续演进，推动软硬件由单点优化走向体系化协同，整体提升先进计算基础设施的可用性与扩展能力。（四）计算设施与安全一是智算中心加速由算力堆叠向体系化能力建设转变。智算中心围绕GPU/AI 加速器与 CPU 协同，构建高带宽互联和分层存储体系，强化对大模型训练、推理及行业智能应用的适配，同时通过统一调度、弹性供给和算力服务化运营，提高资源利用率与服务可达性，逐步形成面向多行业的公共算力平台与生态节点。二是超算中心在持续提升并行规模和峰值性能的同时，更加重视能效比、系统可靠性与长期稳定运行能力。超算中心加强对“仿真计算+数据处理+AI 计算”融合负载的支持，推动新型处理器、先进互联和高效编程框架应用，拓展在气象、生命科学、材料与工程等领域的综合科研支撑能力，向综合性科学计算基础设施演进。三是芯片安全从单点防护走向全生命周期与体系化防护。硬件根信任、可信启动、TEE 及片上加密逐步成为高端芯片标配，并结合密钥管理和抗侧信道设计提升可信度，国际上通过标准与认证强化治理并前瞻量子抗性加密，国内在自主可控牵引下形成软硬件协同防护体系并在关键行业落地。四是整机安全成为算力基础设施稳定运行的重要保障。围绕可信启动链、固件与 BMC 安全、远程度量与访问控制构建整机级防护体系，并与芯片级信任根协同实现可信传递，国际上正由静态防护向动态验证与自动修复演进，国内结合国产软硬件与统一管理平台强化集群级安全治理。三、先进计算重点技术发展情况（一）计算处理器与关键部件（1）计算处理器 CPU 围绕先进制程、多核化和异构计算、微架构优化等多技术路径发展，提升处理能力和能效，满足多场景计算需求。先进制程长期以来持续推动 CPU 性能提升，最新工艺节点已突破 2nm，但随着后摩尔时代到来，依靠制程工艺进步方式带来的性能提升已相对有限。通过多核、多线程架构设计提升并行处理能力，CPU 可同时执行多个任务，提高整体计算效率，满足低功耗、高并行处理能力需求。同时， CPU 正逐步结合GPU、NPU 等专用加速器形成异构计算架构，针对不同计算负载进行优化，不仅增强了系统灵活性和性能，还能有效降低功耗，满足高性能计算与低功耗需求的双重目标，是当前提升计算能力的重要发展方向。随着 RISC-V 架构的兴起，为开源、灵活、可定制的 CPU 设计提供了新路径，其开放指令集特性降低了研发门槛，支持企业根据应用需求进行定制化扩展，提升系统性能与能效比。此外，AI 技术的不断发展推动了 CPU 在内存带宽提升、缓存结构改进等方面的创新，以适应复杂计算场景。同时，基于AI 的自适应调度和资源管理技术也在逐渐融入 CPU 设计，提升系统智能化水平。 2025 年全球CPU 产业在架构多样化、技术节点推进与市场格局调整上均有显著进展。国际阵营方面，英特尔发布了新一代Xeon 系列，通过更高的 MCM 并行能力和AI 加速单元提升云与边缘计算性能；AMD 的第三代EPYC 继续采用先进制程与更宽向量执行引擎，优化 AI 与高性能计算任务；Arm 阵营在服务器与客户端市场持续扩张，高通与苹果的 Arm 架构产品在移动与笔记本端实现AI 推理本地化能力。RISC-V 生态在全球范围快速发展，多家国际厂商推出针对边缘和嵌入式应用的高效能 RISC-V 核心，开源生态逐步完善。国内 CPU 产业以自主可控与本土生态构建为核心推进路径，实现多技术路线协同发展。龙芯中科持续迭代基于 LoongArch 架构的龙芯 5000/6000 系列，提升通用计算性能与软件兼容性；飞腾发布新一代Arm 架构服务器 CPU 产品，面向云服务与行业计算场景增强 AI 与虚拟化支持；华为鲲鹏系列继续在生态适配和行业部署上扩大规模；兆芯与海光等x86 兼容 CPU 则围绕国产操作系统与关键行业应用推进兼容性与稳定性优化。国内 RISC-V 阵营同时加快从微控制器向高性能核演进，多款实验性高性能 RISC-V 处理器进入产业链验证阶段，为长期自主生态发展奠定基础。以 GPU、TPU、NPU 等为代表的AI 加速芯片作为AI 核心硬件支撑，正朝着高性能、高能效、低功耗和可定制化方向快速发展。 GPU 将向更高算力、更优功耗比方向发展，并通过集群互联实现系统计算性能提升，同时GPU 将更加注重与AI 软件生态的深度融合，通过 CUDA、TensorRT 等工具链实现算法优化，提升模型推理和训练效率。此外，GPU 还将向异构计算方向演进，结合 CPU、NPU 等构建更灵活的计算平台。TPU 是 Google 为深度学习任务专门设计的专用 AI 芯片，主要围绕算力提升、能效优化、算法适配等方面发展：一方面通过提升内存带宽和计算密度，支持更大规模的模型并行训练，并结合更先进制程工艺实现更高的浮点运算性能和张量计算效率；另一方面，通过架构创新和功耗管理技术，TPU 在保持高性能的同时降低能耗，并结合定制化指令集，实现更灵活的功耗控制策略；此外，随着 AI 生态多样化，TPU 逐步扩展对 PyTorch、JAX 等框架的支持，并进一步增强对多种AI 模型和任务的兼容性，提升通用性和灵活性。 NPU 主要面向终端侧应用，正朝着高性能、低功耗、高能效比方向发展，强化矩阵运算能力以提升 AI 推理效率。未来将加强算法适配性，支持多框架与多模型，提升灵活性和通用性。同时，结合量化、剪枝等优化技术，降低能耗，适应边缘计算需求。此外， NPU 将向可编程架构演进，并与 CPU、GPU 协同，构建异构计算平台，推动AI 在智能终端、自动驾驶等领域的广泛应用。 2025 年以来，国际与国内 AI 芯片厂商同步加快产品迭代，算力精度下探、显存体系升级和先进制程导入成为产业共识。国际方面，英伟达、AMD、谷歌等持续推动计算精度由FP16/FP32 向 FP8、FP4 演进，单芯片算力迈入 P 级时代，FP8 在大模型训练中的应用逐步成熟， FP4 被视为推理阶段进一步降低算力成本、提升能效的关键方向。英伟达 2025 年发布的 B300 已实现 15 PFLOPS 的 FP4 算力，并规划在 Rubin 与 Rubin Ultra 中持续跃升；AMD MI355X 首次引入FP4 算力，谷歌TPU v7p 开始支持 FP8。在存储与工艺方面，HBM3E 进入规模化应用阶段，HBM4 加速导入，3 nm 制程正成为新一代高端AI 芯片的重要选择。国内方面，华为昇腾在2025 年持续推进以昇腾 910B 为核心的算力平台升级，重点强化FP16/FP8 混合精度训练能力与集群级系统优化，支撑大模型在国产算力上的规模化训练；寒武纪基于思元系列持续迭代训练与推理产品，在云端推理和行业大模型部署中扩大应用；壁仞科技围绕 BR 系列产品推进高算力 GPU 的工程化落地，并在万卡级集群验证和软件栈完善方面取得进展；摩尔线程则以全功能 GPU 为基础，面向图形与AI 融合场景持续扩展算力产品线。图一英伟达 B300/AMD MI355X DPU 作为面向数据中心基础设施卸载的新型处理器形态，正从早期的专用加速部件演进为数据中心体系结构中的关键算力单元。随着以太网速率由 100GbE 向 200GbE、400GbE 乃至更高速率演进，数据中心东西向流量激增，网络协议处理、存储访问、虚拟化管理与安全防护等基础设施任务在服务器 CPU 侧占用的算力比例持续攀升，在部分大型云场景中基础设施开销已接近甚至超过 30%，对通用算力形成明显挤占。在此背景下，通过 DPU 以专用硬件方式卸载网络、存储、安全与虚拟化等任务，已成为提升系统能效和算力利用率的关键路径。技术上，DPU 正向高带宽接口集成、多核异构架构、可编程数据平面及软硬件协同优化方向发展，逐步具备在网处理、数据压缩、加密与隔离等综合能力。同时，DPU 与 CPU、GPU 协同构建“计算—网络—存储”解耦的新型架构，推动数据中心由以主机为中心向以资源池化和服务化为中心转变。 DPU 技术主要由头部芯片厂商和云服务商推动，并已在超大规模数据中心中实现规模化部署。英伟达 BlueField 系列DPU 已迭代至第三代，单卡支持 200GbE 及以上网络接口，并集成多核通用处理器及安全、存储加速单元，可在主机之外独立完成虚拟交换、数据加密和存储虚拟化等功能，已被广泛用于云计算和 AI 训练集群。AMD 通过并购 Pensando 进入DPU 市场，其相关产品强调可编程数据面能力，在云数据中心中支持分布式防火墙、负载均衡等网络与安全服务卸载。Intel 则以 IPU 技术路线布局超大规模云和电信网络场景，重点探索基础设施功能与主机计算资源解耦的部署模式。在国内方面， DPU 技术正围绕数据中心自主可控和行业应用需求加快落地，逐步由试点验证走向实际部署，重点服务于网络与存储卸载、裸金属服务加速和多租户安全隔离等场景，在运营商云、政务云及行业数据中心中开展应用探索。阿里云通过自研 CIPU 承担虚拟化、网络与存储等基础设施处理任务，推动算力与基础设施解耦；华为结合智能网卡与鲲鹏、昇腾平台，在云数据中心推进网络与安全卸载实践；中科驭数等企业推出面向数据中心的 DPU/智能网卡产品，在 100GbE 及以上环境下实现多类基础设施功能卸载，并在部分行业场景中验证了对CPU 负载和系统时延的优化效果。同时，相关厂商正加强与国产服务器、操作系统和虚拟化软件的适配，推动形成软硬件协同发展的DPU 应用体系。（2）存储部件 2025 年核心存储介质类部件围绕更高带宽、更低功耗与算存协同持续演进，成为制约和支撑先进计算系统性能的关键基础。DRAM 技术沿着DDR5 持续优化，在频率、容量与能效方面不断提升，同时面向服务器和数据中心的高可靠特性进一步强化。HBM 作为 AI 与高性能计算的核心存储形态，已成为大模型训练和智算中心的标配，高带宽、低延迟和高集成度推动其在GPU、AI 加速器和先进封装中的应用持续扩大。NAND Flash 方面，3D 堆叠层数不断提升，QLC 技术加速成熟，重点面向数据中心高容量、低成本存储需求，同时通过控制算法与缓存机制改善写入性能和寿命表现。新型存储器如 MRAM、ReRAM 和 PCM 在嵌入式和特定加速场景中持续推进工程化探索，重点解决非易失、低延迟和高可靠需求。在国际产业格局中，高端存储市场长期由少数头部厂商主导，并与数据中心及AI 算力需求形成高度联动。DRAM 与 HBM 领域呈现技术与资本双密集特征，三星、SK 海力士和美光构成第一梯队，持续围绕制程微缩、堆叠工艺和带宽提升展开竞争。其中，HBM 已成为高端 AI 加速器和智算服务器的关键瓶颈资源，产品迭代节奏与 GPU 平台升级高度协同，带宽、容量与能效指标不断提升。DDR5 则加快在服务器市场普及，推动内存子系统整体带宽升级。在 NAND Flash 方面，三星、铠侠、美光、西部数据等厂商持续推进 200 层以上 3D NAND，通过堆叠层数提升、QLC/PLC 技术导入及控制器优化，提高单位容量与性价比，满足云数据中心和企业级 SSD 的大容量需求。与此同时，国际厂商在存储控制器、固件算法和系统级优化方面形成深厚积累，使其在高端企业级市场仍具显著优势。整体看，国际存储产业正围绕“高带宽、高密度、低功耗”方向演进，并与先进封装和异构计算体系深度耦合，成为支撑AI 与 HPC 发展的关键基础。国内存储产业近年来在政策支持与市场需求牵引下加快发展，整体处于由追赶向提升竞争力过渡阶段。在 NAND Flash 领域，长江存储持续推进Xtacking 架构演进，在接口速度、堆叠层数和良率方面不断改进，产品已进入部分国产服务器、存储阵列及行业数据中心应用体系，带动本土 SSD 产业链发展。在 DRAM 方向，合肥长鑫围绕 DDR4 与 DDR5 持续投入，逐步提升工艺成熟度与产能规模，推动国产 DRAM 在通用服务器和行业应用中的导入比例提升。与此同时，国内模组厂商与整机厂商协同加强验证适配，提升国产内存在系统级应用中的稳定性。在新型存储方面，多家企业和科研机构布局 MRAM、ReRAM、PCM 等技术路线，重点面向嵌入式、工业控制及特定加速计算场景探索应用。（3）互联部件面向大规模智算与超算集群，交换芯片、交换机与智能网卡整体呈现“超高带宽、低时延、光电深度融合”的演进方向。交换芯片持续向更高端口速率和更大单芯片交换容量发展，单芯片能力由、向 100Tbps 级迈进，以支撑 GPU 直连、Leaf-Spine 及大规模多层组网需求。与此同时，网络架构更加关注拥塞控制、遥测与负载均衡能力，推动可编程交换架构与软硬件协同优化。光互联成为关键突破口，800G 光模块加速部署，进入规划期，CPO 通过将光引擎与交换ASIC 共封装，显著降低功耗与链路损耗，正从试点走向初步商用；OIO 则进一步将光互联引入计算芯片封装层面，被视为突破板级互联瓶颈的潜在路径，但仍处于研发验证阶段。智能网卡（DPU/SmartNIC）则持续强化对虚拟化、存储、网络与安全任务的硬件卸载能力，成为算网融合和数据中心资源解耦的重要支点。总体看，互联部件正由“数据传输通道”转变为“系统级算力基础设施” 的关键组成。全球高端互联产业由少数头部企业主导，形成芯片－整机－光互联协同推进格局。在交换芯片领域，博通长期保持领先，产品迭代节奏快，已量产并规划级产品，广泛应用于云与AI 数据中心；Marvell、英伟达等亦在高端交换与加速互联方向持续投入。交换机市场由思科、Arista、英伟达等主导，在系统设计、网络操作系统与生态方面优势明显。光互联方面，国际厂商在硅光子、相干调制与 CPO 方向布局领先，博通已推出 CPO 交换机产品，英伟达规划面向AI 集群的 CPO 系列方案，谷歌等云厂商亦通过自研光互联技术优化数据中心能效。智能网卡方面，英伟达（BlueField）、Intel、AMD 等形成较成熟产品体系，在超大规模云环境中实现规模部署。整体看，全球产业已进入以 AI 算力需求驱动的高速迭代阶段，技术领先优势与生态绑定效应明显。国内在高端互联领域整体处于快速发展阶段，围绕智算中心和行业数字化需求，已在交换机整机、网络部署和应用实践层面积累了较为丰富的工程经验。交换芯片方面，盛科通信已实现、产品小批量交付，并推进更高带宽产品研发，相关芯片在数据中心网络中开展应用验证。华为、新华三等厂商在交换机系统设计、网络操作系统和规模组网能力方面持续迭代，面向 400G 及以上速率推出多代产品，服务于运营商网络、云数据中心及政企市场。光模块产业链在器件、封装和模块制造环节较为活跃，800G 光模块逐步进入规模部署阶段，部分厂商推进硅光与 CPO 方向的样机研发和测试。智能网卡方面，多家企业围绕网络、存储及安全卸载开展产品研发，在运营商云和行业数据中心推进试点应用。总体看，国内产业正依托庞大的算力基础设施建设需求和丰富应用场景，持续推动互联技术、系统集成与工程化能力协同发展，带动产业链各环节加快迭代升级。（二）计算架构与体系（1）异构计算异构计算正由多处理器并存迈向系统级一体化设计，成为支撑大模型与复杂数据密集型负载的核心模式。在模型规模和并发度持续提升背景下，单芯片性能提升已难以独立满足需求，系统级创新成为关键方向。一方面，以超节点为代表的新型异构系统加快发展，通过 NVLink、MatrixLink 等高速互联，将大量GPU、CPU 及高带宽存储资源在单一逻辑域内紧密耦合，实现近似共享内存级的数据交换，显著降低跨节点通信开销，提升算力密度与集群效率。另一方面，计算架构持续向任务分解与异构协同演进，PD（Prefill-Decode）分离逐步成为大模型推理的重要架构思路，将不同阶段映射到差异化硬件资源，减少资源争用并优化时延与吞吐。与此同时，异构混合推理加快落地，通过 GPU、专用加速器及低精度计算单元组合，实现性能与能效的动态平衡。总体看，异构计算正从硬件堆叠转向体系化协同设计，软硬件协同调度、统一编程模型和系统级优化能力的重要性持续提升。全球异构计算产业由头部厂商引领，围绕超节点系统和大模型推理持续快速迭代。在系统形态上，英伟达持续推进以 GPU 为核心的超节点架构，在 CES 2026 发布 Vera Rubin 平台及NVL72 超级节点，集成新一代 GPU/CPU、高带宽内存与大规模 NVLink 互联，面向大模型训练与推理显著提升单节点算力密度与系统效率，并规划在云和企业级数据中心规模部署。AMD、Intel 等也在推进 CPU+GPU+专用加速器的异构平台布局，强化 AI 与 HPC 融合能力。在推理侧，PD 分离与分布式推理架构成为产业共识，vLLM、SGLang 等开源与商业推理框架广泛支持分离式部署，在长上下文场景中显著提升吞吐与资源利用率。硬件层面，面向特定阶段优化的加速器产品逐步出现，如针对大上下文和高吞吐推理优化的GPU 型号，推动形成多层次算力供给体系。图二 Scale up 超节点扩展国内异构计算在智算基础设施建设和行业大模型应用需求带动下加快发展，呈现出整机厂商、云服务商与芯片企业协同推进的态势。在系统形态上，头部 ICT 企业和服务器厂商积极探索高密度多加速器集成与高速互联架构，推动超节点及类超节点形态在智算中心中的应用，通过提升节点内互联带宽和算力密度，支撑万卡级集群部署需求。除华为展示 CloudMatrix 超节点系统外，浪潮信息、新华三、联想等厂商也在推进多GPU 高密度整机与整柜级方案，结合液冷、总线优化和拓扑设计，提高系统级能效与部署密度。在推理与调度层面，国内云服务商和平台企业围绕大模型服务化需求，推进PD 分离推理、分布式推理和异构资源池化管理，在实际业务中探索不同算力资源的协同调度，提升资源利用率和服务弹性。阿里云、腾讯云、百度智能云等均在大模型平台中引入异构算力调度与统一资源管理能力。在芯片与生态方面，寒武纪、壁仞、沐曦、燧原等 AI 芯片企业持续推进与 CPU、GPU 及国产服务器平台的适配，支持在训练或推理场景中的异构部署，并通过软件栈优化提升跨架构使用体验。（2）存算一体存算一体正由前沿探索技术逐步演进为面向高能效计算的重要体系结构方向，成为突破算力与能效瓶颈的潜在关键路径。作为突破传统冯·诺依曼架构“存储墙”与“功耗墙”的重要技术路线，存算一体通过在存储阵列内或近存储位置直接完成计算，减少数据在存储与处理单元之间的频繁搬运，从体系结构层面提升能效比与吞吐能力，正成为面向AI 与数据密集型计算的重要方向。当前技术路线呈现多元并行态势：在器件层面，基于STT-MRAM、RRAM、PCM 等新型非易失存储器的原位计算方案受到广泛关注，这类器件兼具存储与计算潜力，为矩阵与向量运算提供物理基础；在架构层面，围绕“存内计算、近存计算与分层协同计算”形成多种实现路径，并通过冗余编码、抗噪算法与误差容忍设计提升可靠性。同时，存算一体正由单点芯片创新走向“器件—架构—编译框架—模型适配”协同优化，通过与AI 模型结构协同设计，在特定负载中实现显著能效优势，整体已从概念验证迈入工程化探索与场景适配并行阶段。全球范围内，存算一体仍处于由研发验证向初步产业化过渡阶段，产业参与主体以科研机构、初创企业及部分大型半导体公司为主。在技术探索方面，欧美多家研究机构持续推进基于新型存储器的模拟存内计算研究，在神经网络推理、边缘智能等场景开展实验验证；部分企业推出面向AI 推理的近存计算或存内加速芯片，在低功耗视觉识别、语音处理等领域实现试点应用。与此同时，国际厂商也在将存算理念引入HBM-PIM、近存加速器等产品形态，通过在高带宽存储侧集成简单计算单元，降低数据搬运开销。在生态层面，开源社区与学术界开始探索面向存算架构的编译工具与映射方法，但通用软件生态仍不成熟。总体看，全球存算一体产业呈现“技术活跃、规模有限、场景先行” 的发展特征，重点聚焦特定高能效需求场景，而大规模通用计算替代仍需较长周期。国内在政策支持和AI 应用需求牵引下，持续推进存算一体相关研究与产业探索，形成了高校院所、初创企业与应用单位协同推进的格局。多所高校和科研机构在基于 RRAM、MRAM 等器件的存内计算方向开展研究，在神经网络加速与类脑计算方面取得一系列实验成果；部分企业推出面向边缘 AI 和低功耗推理场景的存算一体或近存计算芯片样片，在智能感知、物联网等领域开展应用验证。在系统层面，一些团队探索将存算加速单元与现有AI 计算平台协同使用，用于特定算子加速与能效优化。同时，国内也在推进相关EDA 建模、架构仿真与算法适配研究，为工程化落地提供支撑。（3）可重构计算可重构计算正由特定领域加速技术演进为面向多样化AI 负载的重要架构方向。在摩尔定律放缓、先进制程成本上升及“内存墙”问题持续存在的背景下，AI 芯片发展逐步由单纯依赖工艺升级和算力堆叠，转向以体系结构优化为核心的创新路径。当前大模型在矩阵计算、向量运算与不规则算子之间频繁切换，数据搬移和访存开销成为性能与能效瓶颈。围绕这一问题，业界通过重构数据流组织方式，重新设计计算、存储与互连关系，推动架构向“以数据流为中心”演进。以 CGRA（粗粒度可重构阵列）和可重构数据流为代表的新型架构，在硬件层面显式刻画算子依赖关系，将计算单元与本地存储紧耦合，并支持数据路径按需配置，从而减少中间访存和调度开销。该方向通常与专用矩阵计算、异构加速单元协同发展：脉动阵列侧重提升规则矩阵运算效率，可重构数据流侧重提升复杂模型与多算子混合负载的执行效率。从全球看，围绕数据流与专用计算的可重构架构已形成多路径并行探索，部分企业在体系结构创新与系统级产品化方面推进较快。 SambaNova 推出的 RDU 采用 CGRA 形态的可重构数据流结构，通过规则化计算与存储单元构成阵列，实现较高可编程性与数据局部性利用，面向大模型训练与推理场景提供整体解决方案；Groq 的 LPU 采用指令驱动的数据流执行通道，在规则算子序列和低时延推理场景中具备较高效率，但灵活性相对受限；谷歌TPU 持续强化脉动阵列与系统级扩展能力，在大规模训练场景中形成成熟应用生态。与此同时，部分国际厂商将可重构理念与 Chiplet、先进封装及高速互连结合，用于构建面向特定AI 负载优化的系统级平台。总体看，全球可重构计算产业呈现“架构多样化、软硬件协同强化、系统级产品先行”的特征，重点在于通过编译器、运行时和开发工具降低使用门槛，使可重构能力真正服务主流AI 负载。国内在政策支持与AI 应用需求带动下，持续推进可重构计算相关技术与产品探索，逐步形成科研机构、芯片企业与系统厂商协同推进的格局。在芯片层面，部分企业已将可重构数据流与 CGRA 理念引入AI 加速器设计。清微智能较早布局可重构数据流架构，在语音识别、低功耗视觉处理等场景推进落地；鲲云科技采用数据流驱动架构，面向视频分析和边缘推理提供高能效比方案，在智慧城市等领域开展应用实践；寒武纪、燧原科技、天数智芯等AI 芯片企业，虽以专用架构为主，但在片上数据流组织、算子级可配置与编译优化方面引入了部分可重构思想，以提升多模型适配能力。在可编程逻辑方向，紫光同创、安路科技等本土 FPGA 厂商持续推进高性能FPGA 及开发生态建设，为可重构计算提供底层硬件基础。科研机构和高校在可重构架构建模、任务映射及编译工具链方面开展了较多研究，为工程化应用提供支撑。在系统层面，部分整机与平台厂商探索将可重构加速单元作为异构算力节点接入服务器与AI 平台，用于特定负载卸载与能效优化。（4）量子计算量子计算正从实验室研究加速迈向产业化探索的关键阶段，全球量子计算发展呈现“技术攻坚、应用探索与产业培育”三线并进的鲜明特征。技术演进方面已呈现多元化并行竞争格局。超导、离子阱、中性原子、光量子、硅半导体及拓扑等多种硬件路线百花齐放，各自在量子比特规模、操控精度、相干时间等关键指标上持续突破，尚未有单一路线确立绝对优势。芯片化集成已经成为量子计算产业落地的关键，将量子比特、控制线路、读取电路及互联结构高度集成在单个芯片或模块上。这不仅是实现量子处理器小型化、可扩展和降低成本的关键路径，也是推动量子计算从实验室走向商业化产品的核心工程要务。同时，量子－经典混合计算模式通过融合双方优势，正成为推动实用化落地的关键路径；量子计算与人工智能的融合也为双方发展开辟了新方向，展现出双向赋能的巨大潜力。以美国、欧盟为代表的科技强国已形成由科技巨头主导、资本密集投入的多元化技术路线产业化竞争格局，并在芯片化集成与量子比特规模上持续领跑。美国通过《国家量子倡议》持续加码，欧盟发布了《塑造欧洲量子技术战略》，覆盖从科研到产业化的全链条。截至2025 年 4 月，全球公共部门对量子技术的投资总额已达 540 亿美元。美国在科研产出和专利数量上全球领先，拥有谷歌、IBM、微软、亚马逊等领军企业。 2025 年，谷歌发布 105 比特超导芯片Willow 并验证量子优越性；微软推出全球首款拓扑量子芯片 Majorana 1 采用了砷化铟-铝混合材料，旨在简化量子纠错；PsiQuantum 作为美国光量子计算的龙头企业，获得来自英伟达、贝莱德单笔超 10 亿美元的投资，潜力巨大，于 2025 年 2 月发布了其可制造的光子量子计算平台，其 Omega 芯片组将单光子量子比特与成熟的硅光子技术结合，实现了高保真操作和长距离芯片间互连，并计划利用现有半导体制造设施加速规模化。Quantinuum 公司聚焦离子阱路线，在容错量子计算、量子纠错以及量子－人工智能融合方面取得前沿突破。加拿大的Xanadu 公司于 2025 年初推出了可扩展、网络化和模块化的光量子计算机Aurora，突破单芯片物理限制，核心组件无需极低温运行，大幅降低系统复杂性，奠定了分布式量子计算基础。全球量子计算企业已超过400 家， 2025 年上半年投融资额突破 20 亿美元，资本市场高度活跃。金融、化工、制药等领域成为应用先锋。例如，高盛与 Quantum Motion 合作优化金融算法，三菱化学等利用量子计算加速材料研发。IBM、谷歌、亚马逊等提供的量子云平台（QaaS）显著降低了使用门槛，全球接入的量子处理器已超过 50 台。国内科研院所与初创企业为核心，在超导与光量子等特定路线上快速发展。在科研层面，我国在超导与光量子路线均实现量子优越性验证：中科大“祖冲之三号”105 比特超导量子计算机在随机线路采样任务上展现远超传统超算的处理能力，“九章四号”实现 3000 光子操控，持续刷新光量子计算规模纪录。产业层面，图灵量子推出可机房部署、室温运行的第二代可编程光量子计算机 TuringQ Gen2；本源量子“本源悟空”面向全球提供量子算力服务；华翊量子发布二维离子阵列原型机 HYQ-B100，推进量子模拟与量子 AI 探索。无锡建成国内首条光子芯片中试线，具备晶圆级可编程光量子芯片量产能力。当前国内量子计算企业已超过 40 家，初步形成覆盖芯片、测控、整机、软件与云平台的产业链，并在金融、生物医药、气象等领域开展应用探索，量子－经典混合计算与云化服务成为重要发展方向。当前量子计算正沿着“硬件可规模化、算力可融合、应用可落地” 的路径加速从科研原型走向工程化与产业化，整体进入体系化发展阶段。在硬件层面，芯片化、模块化与光子集成融合演进，通过将量子比特、控制与读出部件纳入半导体工艺体系，结合标准化模块封装与分布式组网，并依托光子集成实现高保真互联与并行读出，逐步突破单机规模与系统复杂度瓶颈，为构建可扩展量子系统奠定基础。在算力体系层面，量子计算不再孤立发展，而是以量子—经典混合计算为主要形态，深度融入超算与智算中心，通过专用互连与智能调度，将QPU 作为新型加速资源纳入异构算力体系，形成“量超融合”“四算融合”等新型基础设施，提升可用性与资源利用效率。在应用层面，量子算法由可行性验证转向优先场景试点，混合量子—经典算法成为主流范式，在化学模拟、材料设计、组合优化及金融、生物医药等高价值领域开展探索，量子机器学习与可验证专用算法不断取得进展，同时配合错误缓解与软件工具链成熟，持续降低开发门槛。多层协同推动下，量子计算正从单点技术突破迈向体系化能力构建，逐步形成面向行业应用的新型算力形态。（5）类脑计算类脑计算总体呈现以仿生机理牵引架构创新、以能效优势牵引场景落地的发展主线，正从科研探索走向系统化工程实现。其核心趋势一是计算范式由同步时钟驱动转向事件驱动与异步处理，通过脉冲神经网络（SNN）在“有信息才计算”的机制下显著降低冗余功耗，更接近生物神经系统工作方式。二是存算深度融合，计算与存储在神经元、突触级单元中耦合实现，减少数据搬运开销，缓解传统架构的“存储墙”和 “功耗墙”。三是系统规模持续扩展，从单芯片验证走向多芯片级联与晶圆级集成，配合片上网络（NoC）和三维互连技术，提升神经元与突触可模拟规模。四是软硬件协同逐渐成为关键，包括类脑编程框架、脉冲编码算法、训练与映射工具链等，推动模型从科研模型向可部署模型转变。应用上，类脑计算优先在低功耗感知、边缘智能、实时决策等对能效敏感场景探索落地，并与机器人、无人系统和传感网络结合，形成“感存算一体化”的新型智能节点形态。国际上，类脑计算已形成由头部科技企业和科研机构共同推进的格局。Intel 发布的 Hala Point 被视为代表性系统之一，基于 Loihi 2 神经形态芯片构建，通过异步电路与脉冲神经网络实现高能效计算，系统由上千颗处理器组成，可模拟上亿级神经元和千亿级突触规模，在特定SNN 任务上展现出相对传统GPU 更优的能效表现，并已在国家实验室开展研究部署。IBM 早期的TrueNorth 奠定了数字类脑芯片架构基础，近年来研究重心更多转向与AI 算法结合的低功耗智能系统。欧洲在类脑计算上依托 Human Brain Project 等长期计划，持续推进神经建模与硬件平台结合。整体来看，全球类脑计算尚未形成大规模商业化市场，但在科研计算、国防安全、边缘感知和自主系统等方向保持活跃探索，技术路线呈现数字类脑、模拟类脑与混合架构并行发展的态势。国内类脑计算近年来从单点芯片研究逐步迈向系统级集成与平台化发展。以清华大学、浙江大学、中国科学院相关院所为代表的科研力量在神经形态芯片、脉冲神经网络模型及系统架构方面持续推进。浙江大学发布的“悟空”神经拟态计算机采用多芯片级联与异步NoC 互连，基于“达尔文”系列芯片构建大规模系统，在神经元和突触模拟规模及系统能效方面达到较高水平，体现出在系统设计与集成能力上的进展。产业层面，部分企业与科研团队合作推动类脑芯片在智能感知、机器人控制、低功耗识别等场景试点应用，探索与边缘计算、物联网终端结合。整体上，国内已在芯片设计、系统构建和初步应用验证方面形成连续布局，类脑计算正与人工智能、机器人和智能传感等方向交叉融合，逐步从实验室验证走向面向特定场景的工程化应用探索。（6）光计算光计算正作为后摩尔时代突破算力瓶颈的关键路径，从理论探索全面转向以大规模集成化与生态构建为核心的宏观演进阶段。其首要趋势表现为光子集成电路（PIC）的大规模化与材料体系的多样化，通过硅基光子学、薄膜铌酸锂及三五族半导体的深度融合，光计算芯片正从单一的功能单元向具备数千个可调谐组件的超大规模片上系统跨越，极大地提升了在物理层面处理高维矩阵运算的计算密度。其次，光电深度融合的异构架构已成为行业共识，即利用光子在处理高通量线性运算方面的天然物理优势，配合电子电路在逻辑控制、非线性处理与精密存储上的成熟生态，构建起兼具极致能效与算法通用性的计算体系。在应用范式上，光计算正深度契合生成式人工智能的爆发式需求，通过在底层架构中模拟神经网络的并行特性，有望彻底化解大模型推理中的“功耗墙”难题。展望未来，随着标准代工工艺的成熟与流片成本的降低，光计算将不仅局限于高性能数据中心的算力加速，更将作为一种基础的物理算力资源，支撑起未来绿色算力网络与通用人工智能的底层底座。国外光计算研究已进入从原型机验证向数据中心级部署跨越的关键阶段。以美国为代表的研究体系正深度集成硅光子技术与成熟的半导体产业链，重点攻克高性能AI 推理加速难题。在学术层面，以斯坦福、MIT 及牛津大学为代表的机构正致力于突破全光存储与非线性激活函数的物理局限，试图构建从计算到存储完全由光子驱动的 “全光计算机”理论原型。在商业侧，光计算已形成成熟的风险投资与产业生态。Lightmatter 与 Celestial AI 等领军企业已进入大规模商用验证阶段，其核心产品 Envise 与 Orion 平台通过将硅光集成（SiPh）与先进封装技术结合，成功切入 AI 算力供应链。2025 年的最新趋势显示，国外巨头如 NVIDIA、Broadcom 及 Intel 正通过 CXL 协议将光互连与光计算深度耦合，试图利用光子的超高带宽重塑大模型集群的内存访问拓扑。整体而言，国外现状表现为：技术路径以硅基光子学为主流，商业应用紧扣云端 AI 推理加速，正通过构建“光子处理器+ 软件栈+代工标准”的闭环，力求在后摩尔时代定义下一代算力基础设施的工业标准。国内光计算研究则表现出明显的架构原创性与“换道超车”的战略意图，形成了高校尖端研究与本土初创企业深度联动的新格局。学术界已实现从单一团队向多路径并行的演进：清华大学的“太极”架构通过分布式广度计算突破了深度缩放限制；上海交通大学在 2025 年发布的 LightGen 芯片则展示了在生成式 AI 任务中超越传统 GPU 百倍的能效比；北京大学、华中科技大学及中国科学院上海微系统所等机构在薄膜铌酸锂、微环谐振腔等材料与器件集成度上屡创世界纪录。在商业侧，以图灵量子、曦智科技、光子算数为代表的企业已完成从原理样机到工程化产品的迭代，推出了适配国产AI 框架的光电混合计算卡。国内现状的显著特征是，在先进制程受限的背景下，通过衍射计算、干涉计算及模分复用等物理层面的架构创新，实现对高性能算力的底层重构。同时，依托上海、武汉等地的光学产业集群，国内正加速构建自主可控的硅光代工与先进封装链条，力求在全球算力竞争中建立独有的技术主权。（三）计算设备与系统（1）通用服务器通用服务器技术态势呈现出由传统通用算力向异构协同与智能调度融合演进的趋势。传统基于 x86 架构的通用 CPU 仍是数据中心服务器的核心，如 Intel Xeon 和 AMD EPYC 系列为高性能通用负载提供了稳定的基础算力平台，其中AMD EPYC 自 Zen 架构以来通过多核心与高内存通道提升了数据密集型计算性能。在此基础上，服务器正逐步集成异构计算资源，包括GPU、AI 加速卡和DPU，以应对 AI 推理、训练、大规模并行计算和网络卸载等复杂任务。例如，国际厂商戴尔的PowerEdge XE9680 服务器可配置多达 8 块高端GPU，以提升 AI 与数据密集型工作负载性能；HPE ProLiant Gen11 系列通过支持 PCIe 、DDR5 和最新 Xeon 可扩展处理器，在性能与能效上实现较大提升。互连技术也在加速升级，CXL（Compute Express Link）等技术正在推动内存池化与跨设备共享，使得服务器内部资源调度更灵活、更高效。系统级智能管理工具如 AIOps 平台正成为基础设施标配，通过自动化预测负载热点与资源调度优化提升整体利用率。传统结构性升级已无法满足新型复杂负载需求，因此异构协同与智能调度正成为服务器未来发展的核心方向。全球通用服务器产业表现出多架构并行与细分场景定制的特征。根据市场规模报告，全球通用服务器市场至 2026 年预计规模持续增长， x86 架构仍占据主流，但 ARM 架构与 AI 优化服务器的渗透率显著提升，推动整体产业向异构计算与高密度设计转型。在产品层面， HPE ProLiant Gen11 系列推出面向企业级负载的增强性能与安全性特性，支持新一代 Xeon 处理器与 PCIe 标准的应用优化。戴尔 PowerEdge XE9680 强调面向AI 与数据密集工作负载，可集成多 GPU 协同加速，进一步提升深度学习训练与推理性能。此外，国际大型厂商正推动液冷服务器设计，以实现更高的模块密度与能效优势，并针对超大规模数据中心提供整体系统解决方案。全球市场竞争格局呈多极化趋势，北美、亚太、欧洲等区域都有先进服务器产能布局。据行业研究数据，亚太地区贡献了全球服务器市场增长的重要动力，其中中国市场采购量占全球份额近三成。细分应用场景驱动服务器产品向更高性能、AI 优化及边缘部署能力演进。整体来看，全球通用服务器产业已从以“通用基础设施”为核心，逐渐转向“云+AI 应用场景驱动” 的系统级产品生态。国内通用服务器产业在近几年持续加速发展，形成了较为成熟的供应链与产品生态。根据产业研究机构统计，中国服务器市场规模持续增长，2023 至 2026 年保持近 7–8%的年复合增长率。国内厂商在云服务、政务、政企数字化建设等需求推动下不断推进产品迭代和技术升级。在产品层面，浪潮信息（Inspur）的服务器系列在国内市场和行业应用中份额领先，其产品线包括GPU 优化服务器、机架式服务器与多节点计算节点，支撑云计算与大数据场景。超聚变 FusionServer 系列是华为服务器产品的重要代表，近期推出的 G5500 V7 为 4U 双路 AI 服务器，支持最多 10 块双宽GPU 卡、高带宽内存与灵活存储选项，面向 AI 训练、推理及 HPC 场景优化。此外，超聚变还持续更新如FusionServer 5298 V7 等机架服务器产品，满足分布式存储、大数据与企业级应用需求。联想问天等品牌也推出如WR5220 G3 等模块化通用服务器产品，通过灵活组态与高扩展性满足企业计算与数据中心建设需求。在国内生态建设方面，国产操作系统如EulerOS 深度适配本地硬件平台，为商业级服务器应用提供从操作系统到中间件的全栈支持。（2）智算服务器智算服务器由传统通用计算向以加速计算为中心、系统级异构协同优化演进的趋势。与以 CPU 为核心的通用服务器不同，智算服务器通常以GPU、NPU 等专用加速器作为主要算力来源，CPU 侧重于控制、调度与通用计算，通过高速互连技术构建高带宽、低时延的异构计算体系，以满足大规模矩阵运算和并行计算需求。随着模型规模和并发度持续提升，单节点算力密度和节点内通信效率成为智算服务器设计的关键指标。在系统层面，智算服务器更加注重算力密度、能效比和集群可扩展性。一方面，通过高密度多加速器配置、液冷散热、高功率供电等设计，支撑持续高负载运行；另一方面，通过低精度计算、算子融合、并行策略优化和统一调度机制，在系统层面提升算力利用效率。围绕大模型训练和推理负载特征，智算服务器正从单一硬件性能提升，转向软硬件协同、算力与内存协同优化的发展路径，成为构建大规模智算集群和算力基础设施的核心节点。从全球产业格局看，智算服务器整体呈现出以 AI 应用需求牵引、平台化和生态化竞争加剧的特征。国际主流厂商围绕大模型训练和推理场景，持续推出高密度 GPU 服务器和智算节点产品，在互连架构、散热设计和系统集成能力等方面不断迭代，以满足超大规模算力部署需求。在产品层面，戴尔（Dell）推出的 PowerEdge XE 系列智算服务器面向AI 与数据密集型负载优化，支持多 GPU 高密度配置，成为国际市场中广泛部署的AI 服务器平台之一；HPE 的 ProLiant 及 Cray 系列智算服务器，通过支持新一代加速器、PCIe 与液冷技术，面向企业级 AI 训练和科研计算场景提供高性能算力节点。超微（Supermicro）等厂商则通过模块化 GPU 服务器设计，提供从中等规模到超大规模训练的多样化产品选择。国内智算服务器产业在人工智能发展战略和算力基础设施建设需求推动下加速发展，整机厂商牵引、国产芯片协同推进。围绕智算中心建设和行业智能化应用需求，国内服务器厂商不断完善面向训练与推理的智算服务器产品体系，在系统设计、散热架构和集群部署能力方面逐步成熟。在具体产品进展方面，浪潮信息围绕GPU 加速和智算中心建设，形成了覆盖多 GPU 配置的 AI 服务器产品线，广泛应用于云计算和人工智能训练场景；超聚变 FusionServer 系列智算服务器面向AI 训练、推理及HPC 场景进行系统级优化，其中G5500 V7 等机型支持多块双宽 GPU、高带宽内存和灵活存储配置，适用于高密度智算部署。联想问天系列亦推出面向AI 负载优化的智算服务器产品，通过模块化设计和高扩展能力，满足企业级和数据中心智算需求。同时，华为依托昇腾 AI 芯片与服务器平台的软硬件协同，在国产智算服务器体系中形成了较为完整的解决方案。总体来看，国内智算服务器正由“可部署、可运行”向“高效率、规模化应用与生态协同”阶段迈进，在产业体系完善方面持续推进。（3）超算服务器超算服务器技术态势呈现出由以通用处理器为主的高性能节点，向大规模并行、异构协同与系统级优化并重的方向演进。与以AI 负载为核心的智算服务器不同，超算服务器更强调对复杂科学计算、工程仿真和多物理场耦合计算的综合支撑能力，既要求高精度浮点计算性能，也关注大规模并行效率与长时间稳定运行能力。在体系结构上，超算服务器通常采用 CPU 为主、加速器协同的异构架构，通过高速互连网络构建低时延、高带宽的节点间通信环境，以满足大规模并行计算和高频数据交换需求。随着应用从单一数值模拟向“仿真+数据驱动+AI 融合”演进，超算服务器逐步强化对多类型负载的兼容能力，在节点设计中更加注重内存带宽、I/O 能力与存储层级优化。在系统层面，液冷散热、能效管理和可靠性设计成为关键指标，推动超算服务器从单纯追求峰值性能，转向性能、能效与稳定性协同优化的发展路径。从全球产业格局看，超算服务器整体呈现出以国家级科研需求牵引、系统工程能力驱动的发展特征。国际主流厂商围绕 E 级计算和大规模科研应用，持续推进高性能节点平台迭代，在处理器性能、互连带宽和系统集成方面不断突破。在产品与方案层面，HPE Cray 系列超算服务器长期服务于多个顶级超算中心，在高速互连、液冷系统和并行文件系统集成方面具备优势；Dell 通过高性能计算（HPC）服务器产品线，为科研机构和工业仿真用户提供高密度计算节点；联想在欧洲和北美 HPC 市场亦占据重要份额，其高性能服务器平台在气象、生命科学和工程计算领域广泛部署。总体来看，国际超算服务器竞争已从单机性能比拼，转向系统级设计能力、软件栈适配能力与整体交付能力的综合竞争。国内超算服务器产业整体呈现出整机厂商主导、国产软硬件逐步协同推进的格局。围绕国家级和区域超算中心建设需求，国内厂商在高密度计算节点设计、液冷散热和系统集成方面持续提升能力。在产品与实践层面，浪潮信息长期参与多地超算中心建设，其高性能计算服务器在气象、基因测序和工程仿真等领域形成规模应用；联想基于问天及 HPC 服务器平台，为科研和工业用户提供高性能计算节点；中科曙光在超算领域布局较早，在整机系统设计、液冷技术和国产平台适配方面具备较强经验，并参与多套国家级超算系统建设。同时，随着国产处理器和操作系统逐步成熟，国内超算服务器正加强自主平台适配与系统级优化。（4）端侧设备端侧设备正成为先进AI 计算的重要承载形态，其技术演进逐步形成体系化方向。一是计算模式由“云端集中处理”转向“端—边— 云协同”，更多实时推理、个性化模型与隐私敏感数据在本地处理，云端主要承担训练与知识更新职能。二是能力形态由单一语音或视觉处理走向多模态融合，终端需要同时处理视觉、语音、文本、位置与环境传感信息，对计算架构提出高带宽、低时延和异构并行能力要求。三是交互方式由被动响应转向具备上下文理解与任务规划能力的智能代理，终端逐步具备连续对话、跨应用调度与自主执行能力。在硬件层面，受制于功耗、面积与散热约束，端侧芯片强调能效比优化，推动NPU 专用化、存算一体、近存计算和 Chiplet 异构集成等方案应用；在算法层面，小模型高能力化成为重点，通过蒸馏、量化、稀疏化与结构化剪枝降低资源消耗。同时，操作系统级AI 框架和统一调度机制愈发关键，用于协调 CPU、GPU、NPU 及传感器资源，实现感知—决策—执行闭环，支撑端侧设备从功能智能向自主智能升级。全球主要科技企业正将端侧 AI 视为新一轮竞争焦点。AI 手机领域，苹果在A 系列与M 系列芯片中持续强化神经网络引擎能力，将本地大模型推理与系统功能深度结合；高通在旗舰 SoC 中提升端侧 AI 算力并完善AI 软件栈；谷歌依托 Tensor 芯片推进端侧多模态与情境感知能力。具身智能机器人方向，特斯拉、Figure AI、Agility Robotics 等推动VLA 模型与机器人控制系统结合，在物流分拣、仓储搬运等场景开展商业化探索。智能汽车领域，英伟达Drive 平台持续提升集中式车载算力并强化软件生态，Mobileye 与特斯拉在感知与决策算法上不断迭代，中央计算与驾舱融合逐步成为主流架构。无人机方面， Skydio 等企业依托视觉AI 实现高可靠自主飞行，在安防、巡检与应急领域应用深化。全球端侧 AI 从早期“把模型放进设备”阶段，进入软硬件深度协同优化阶段，系统级体验与生态整合成为差异化关键，端侧智能体正逐步成为连接个人、物理世界与数字服务的重要入口。国内端侧 AI 产业同步活跃推进，并在多类终端形态上形成较丰富布局。AI 手机领域，华为、荣耀、小米、OPPO、vivo 等在旗舰机型中强化端侧AI 能力，将本地大模型与影像、语音助理、办公与系统调度结合，提升多模态交互与个性化体验。具身智能机器人方向，优必选、傅利叶、达闼等企业在服务机器人、康养辅助和工业协作场景持续探索，结合大模型与运动控制算法提升任务泛化能力。智能汽车领域，华为、地平线、黑芝麻智能等提供车载AI 计算平台与解决方案，支持高阶辅助驾驶与座舱智能化，推动集中式电子电气架构应用。无人机方面，大疆在消费级与行业级市场保持领先，AI 视觉在巡检、测绘、农业植保等场景加快普及，多机协同与自主作业能力不断增强。（5）存储技术 AI 时代数据存储的作用从数据保险箱转向使能器，数据存储边界向 AI 数据平台跃升。随着 AI 应用爆发，驱动超大规模、超高速数据访问需求爆发，网络带宽增长约十倍，算力增长约百倍，而数据量正面临千倍增长。数据存储成为AI 记忆与思考的基石，其存取效能直接定义了大模型的训练速度与智能上限。数据存储的角色正发生着结构性的改变，从计算系统的配套角色，升级为与计算并重的核心支柱，它不再仅是数据的存储单元，而是通过与计算节点、网络通信的深度协同，更成为数据的加速器，跃升为主动参与人工智能全流程的 AI 数据平台。这一转变是数据存储产业在技术架构与商业模式上的核心演进，是支撑 AI 普惠的关键基础设施，并深刻影响 AI 大模型训练与推理效能。全球厂商与产业联盟对数据存储系统的战略升级。AI 大模型的训练与应用对数据存储提出了前所未有的挑战。传统存储架构存在带宽不足、延迟过高、扩展性受限三大痛点无法匹配算力。面对“算力空转”的存储瓶颈，美国头部厂商率先启动系统架构的战略调整，核心思路是将存储系统深度嵌入AI 算力集群，形成计算－存储－网络一体化的新型架构。NVIDIA 在 CES 2026 上正式发布新一代AI 计算平台 Vera Rubin 。其核心变革在于重构存储层级，引入 HBM4 、 LPDDR5X 和由 DPU 管理的 NAND 三层存储架构，旨在将 AI 推理的每秒处理令牌数提升 5 倍，解决内存墙瓶颈。2025 年 8 月，SNIA （全球网络存储工业协会）启动“”开放标准项目，旨在联合行业成员为AI 工作负载制定高效、非专有的数据服务标准，优化其性能、效率和成本。该项目强调构建一个开放的生态系统，以解决 AI 数据管道中最棘手的数据访问和管理挑战。上述事件揭示了美国科技产业在数据存储战略上的两个核心转变：一是定位转变，存储系统不再被视作被动存放数据的静态仓库，存储层正积极融入计算架构，成为可被 GPU 直接、高效调用的“智能内存”，直接决定了 AI 算力的实际利用率。二是架构革新，为平衡性能、容量与成本，统一的存储架构正被更精细的分层架构所取代。同时，存算分离成为主流，使计算和存储资源能够独立扩展，提供了应对 AI 工作负载不确定性的灵活性。国内数据存储产业正从跟跑向并跑迈进。国内企业在 3D NAND 闪存、DRAM 内存及全闪存存储系统等关键领域，已取得关键突破，正在逐步重塑全球产业格局。在产业链上游的存储介质领域，长江存储通过其创新的Xtacking（晶栈）架构，成功突破了高密度、高性能与低功耗难以协同的技术瓶颈，为全球 3D NAND 闪存技术演进提供了新的思路。另外根据 IDC 报告，在企业级外置存储市场，全球格局呈现 “总量稳增、结构优化、中美双强”的态势。DELL、NetApp 等美国厂商仍占据全球一半以上市场份额，而华为、曙光、浪潮等中国厂商凭借超 20%的全球市场份额，已成长为不可忽视的重要力量。随着 AI 大模型对高吞吐、低延迟存储需求的持续提升，中国厂商在技术创新与市场拓展方面的表现将深刻影响全球存储产业的未来走向。面向 AI 的存储关键能力正在成型，显著提升大模型训练与推理效率。随着数据量指数级增长和AI 应用普及，计算数据已成为核心生产要素，传统存储架构已难以满足“语料库+知识库”升级需求。大模型训练参数规模可达万亿级，单次训练数据读取量达PB 级，对存储带宽提出TB/s 级要求；推理场景则要求延迟低于 100 微秒，同时支持数据预处理与模型加载。AI 存储架构需在处理海量数据、跨域流动与训推规模巨大及成本有限之间取得平衡。核心能力包括六个方面：极致性能，加速数据供给、CheckPoint 保存及断点续训，缩短训练等待时间；大模型数据范式，支持向量、张量、KV-Cache 等格式，加速数据融合与检索；数据安全，提供高可靠性并结合加密防护保障服务连续性；高扩展性，跨域跨集群支撑异构计算与近存计算扩展；数据编织，实现全局可视化管理、版本和血缘控制，提升流动效率并保证数据质量；绿色节能，降低每TB 数据能耗与占用空间。通过这些能力，AI 存储系统不仅满足超大规模训练与推理需求，也为构建高效、安全、可持续的AI 基础设施提供支撑。（6）高速互联技术先进计算领域正经历从传统单点计算向大规模异构集群的深刻变革。在 AI 和 HPC 应用场景中，高速互联技术已成为突破算力瓶颈的关键，直接影响系统整体性能与能效。当前技术演进呈现两大方向： Scale up（纵向扩展）聚焦单机/超节点内多加速器的高带宽、低延迟通信； Scale out（横向扩展）关注跨节点集群的分布式互联。超节点架构作为 Scale up 的核心载体，正通过开放协议、光互连和 Chiplet 解耦等创新实现算力密度与能效的飞跃，而 Scale out 则在 RoCE v2 以太网与 InfiniBand 双轨并行中寻求性能与成本的平衡。Scale-up 高速互联作为突破单芯片性能极限、实现大规模算力协同的核心技术，近年来国内外均展开密集研究，涌现出一批具备低延迟、高带宽、智能化特征的技术方案。此外互联拓扑设计直接影响 Scale up 系统的通信效率，不同厂商采用不同拓扑设计应对带宽与延迟挑战，并且引入在网计算等新型计算通信融合模式提升系统整体性能。图三高速互联技术国外以科技巨头和芯片厂商为主导，向更高带宽密度、统一内存语义与开放化方向加速演进。英伟达在NVLink 技术上持续引领行业，第五代 NVLink 交换机支持 72 个 GPU 全互联，单链路通信速率达 NVLink Fusion 技术，允许定制 CPU、XPU 通过UCIe 接口或NVLink-C2C IP 与 NVLink 网络集成，实现半定制化 AI 基础设施部署；UALink 是由AMD、AWS、谷歌等科技巨头联合发起的开放互连标准，2025 年 4 月正式发布规范，支持单计算单元（Pod）内最多 1024 个加速器互连，单个通道速率达 200Gbps，该规范还基于内存语义优化，实现AI 芯片间直接的 Load/Store 等内存操作；博通于 2025 年 5 月推出单机柜XPU 互联标准框架 SUE，该框架以 “网络总线化”为核心思路，在保留以太网生态的同时解决了XPU 互联的性能瓶颈，实现了高密度集成。SUE 实例体积仅为传统网卡的 1/5，互联带宽达国内研究聚焦自主标准构建、适配智算场景需求，通过架构革新与硬件协同突破国外技术垄断。由中国移动等单位发起的全向智感互联架构（OISA）的核心特点是原生支持共享内存语义，通过将通信操作抽象为GPU 标准的内存读写和原子操作，并结合统一总线寻址以及硬件与软件栈协同的地址转换与一致性维护机制，致力于简化并行编程，提高带宽效率并降低通信延迟；华为的 UB 用单一协议取代了传统数据中心中PCIe、CXL、NVLink、TCP/IP 等多种混合协议，以消除协议转换带来的延迟、能耗和故障隐患，让端口无需转换即可直接通信，2025 年华为发布的 CloudMatrix 384 超节点，是 UB 技术的首个量产级落地成果；中兴自研 Olink 面向智算服务器的高带宽互联需求，重点强化低时延通信与统一编址能力，为国产算力系统提供自主可控的互联底座；阿里云推出以国际UALink 协议为基础的ALS，推动 UALink 在国内的发展。在互联拓扑研究方面，新一代加速器集群体系正向分层局部化和高维直连结构演进。谷歌在 TPU 集群中长期采用高维Mesh/Torus 等规则化直连拓扑，通过在芯片与加速器层面构建多维点对点互联网络，显著提升加速器间的带宽供给与通信并行度，并充分利用大模型训练过程中梯度同步与参数更新的通信局部性，从而减少跨层交换和长距离数据传输。在此基础上，TPU 集群结合拓扑感知的通信调度与路由机制，在大规模扩展条件下仍能保持较高的带宽利用率和训练效率。在数据中心级加速器互联方面，华为提出的 UB-Mesh 架构同样体现了分层局部化与直连优先的设计思路。 UB-Mesh 采用 nD- Ful lMesh 的分层网络拓扑，在机柜和节点内部优先构建高带宽、短距离的直接互联，以降低对集中式交换设备的依赖，并缩短关键通信路径长度，从而更好地适配大语言模型训练对带宽和时延的敏感需求。同时，该架构通过全路径路由与拓扑感知性能优化提升整体通信效率，并在系统设计中引入冗余与容错机制，以增强大规模集群运行的可靠性。相较于传统 Clos 网络，UB-Mesh 在成本效率、网络可用性和大模型训练线性扩展能力方面均展现出明显优势。基于在网计算的卸载加速方案逐渐成为高速互联领域热点。在网计算（In-Network Computing，INC）的核心理念是将原本由主机 CPU/GPU 执行的数据聚合、梯度同步、数据预处理等通信密集型任务下沉至具备算力的智能交换机、DPU 或可编程网络设备中完成，从而减少数据在节点间往返移动，降低通信延迟，提高整体吞吐和能效。英伟达在该方向上通过SHARP 技术将规约运算能力集成至交换机芯片，在网络侧直接完成 AllReduce 等操作，减少跨节点通信开销，并在新一代服务器与网络系统中进一步强化计算与通信路径的协同设计。亚马逊云服务（AWS）则从大规模云数据中心的工程实践出发，构建了以 Nitro 系统为核心的在网计算与卸载架构。Nitro 通过将网络、存储和虚拟化功能下沉至专用DPU 与 SmartNIC，实现主机计算资源与通信处理的解耦，提供低时延、高带宽的集群互联能力。在分布式AI 训练与高性能计算场景中，AWS 利用 DPU 侧的协议卸载、数据路径加速与通信调度优化，显著降低 CPU 介入度和通信抖动，为大规模并行任务提供更加稳定、高效的网络支撑，体现了 INC 在云级规模下的可落地性与可扩展性。此外，围绕在网计算的工程化探索持续深化，国内外相继出现基于可编程网络与智能网卡的实践方案，例如利用P4 实现网络侧压缩与聚合、在数据中心网络中引入 DPU 加速通信卸载，以及通过 SmartNIC 执行简单规约与量化操作等，为 INC 技术在异构计算集群中的应用提供了多样化路径。（7）基础软件操作系统、数据库和中间件作为数字基础设施的三大核心底座，其技术演进正由单点性能优化转向以智能化、融合化和内生安全为核心的协同进化。这一变革主要由云原生与人工智能两大技术力量驱动，目标是构建具备自适应、自优化和高可信能力的下一代基础软件体系。智能化成为贯穿演进的主线，并从功能增强走向架构级重构。操作系统逐步演进为AI 原生系统，在内核层集成智能算力调度能力，实现 CPU、GPU、NPU 等异构资源的动态优化配置，并通过系统级智能体重塑人机交互范式。数据库领域形成“AI for Database”和 “Database for AI”双向演进路径，一方面通过 AI 实现自运维、自调优，另一方面以向量数据类型和高效相似性检索为代表，原生支撑AI 应用。中间件则通过 AIOps 和低代码技术，推动运维与开发模式向自动化、智能化升级。融合化趋势进一步打破软硬件、端云和产品边界，云原生、存算分离、多模数据库和集成化中间件平台成为主流形态。同时，安全能力由外围叠加转向内生设计，通过可信计算、全流程加密与智能安全监测，构建“架构免疫型”安全底座。国际头部厂商以平台化生态和 AI 原生深度融合，系统性塑造基础软件的未来形态。操作系统领域，竞争已升级为“AI 原生操作系统+ 智能体生态”之争。微软通过 Windows AI Foundry 整合系统级AI 运行时、API 和本地模型优化能力，使AI 应用深度融入Windows 生态，并将 Copilot 升级为多智能体系统，推动操作系统从工具平台向智能任务协作平台转型。苹果依托软硬件垂直整合优势推出Apple Intelligence，在强调隐私保护的前提下强化设备端生成式 AI 能力；谷歌则持续增强Android 的端侧机器学习框架，实现系统级智能优化。数据库领域，国际厂商加速融合云原生与 AI 原生架构。Oracle AI Database 26ai 将向量数据类型、索引和 AI 代理框架直接嵌入内核，实现“数据就地智能计算”。Snowflake、Google Spanner 代表Serverless与全球分布式数据库的成熟形态，Aurora 和 Azure Cosmos DB 在多模与向量能力上持续演进。中间件方面，IBM 和 Oracle 正将集成平台升级为企业AI 智能体的编排中枢，通过自然语言驱动集成配置，打通传统系统与AI 数据平台，构建面向人和智能体的统一治理平面。国内基础软件发展聚焦自主可控与行业深耕，并加速推进与人工智能的深度融合。国产操作系统以“可用、好用、智能”为目标持续突破。银河麒麟和统信 UOS 已实现对 Intel、AMD 及飞腾、兆芯、海光等国产 CPU 的同源支持，并兼容Windows、Android 应用生态，有效降低国产化替代成本。同时，国产操作系统积极引入系统级AI 能力，在智能检索、办公辅助和生产力工具等方面开展探索，并通过架构隔离和可信机制强化安全与稳定性。国产数据库已由“替代导向” 转向“创新驱动”，在分布式、云原生和智能化方向取得实质进展。GaussDB、 OceanBase 在事务与分析性能上达到国际先进水平，并引入自调优、自诊断能力。OceanBase seekdb 通过融合向量、全文和结构化数据，实现 AI 原生混合检索闭环。达梦数据库则以 AI 驱动运维和资源调度提升系统弹性。国产中间件围绕国产化适配与智能化升级同步推进，东方通、宝兰德等厂商通过 AIOps 和智能体平台，构建覆盖运维、集成和算力管理的一体化能力，逐步形成面向行业应用的自主基础软件体系。（8）开发/框架类软件自动并行、训推一体与云原生深度融合成为框架演进主线。从整体技术趋势看，深度学习框架正加速向“高自动化分布式 + 训推一体 + 云原生协同”方向演进。其中，动态与静态统一的自动并行机制已成为大模型训练的核心能力，通过在计算图层面融合数据并行、模型并行、流水线并行和张量并行，显著降低分布式训练门槛并提升资源利用率。同时，训推一体化架构逐步成熟，框架不再局限于训练阶段优化，而是围绕模型压缩、混合精度、推理加速和服务部署形成贯通式设计，使模型能够在不同硬件与场景下高效落地。另一方面，云原生技术与分布式训练深度耦合，框架开始面向超大规模集群与超节点形态进行设计，通过原生容错、弹性调度和异构资源管理，保障万卡级集群的稳定运行。同时，生成式 AI 驱动的 AI 原生工具链快速崛起，代码生成、自动调优与测试逐步嵌入开发流程，推动模型开发从“人工调参”为主转向 “智能辅助与自动化优化”，整体呈现出算力规模化、系统工程化和开发智能化并行演进的趋势。在国外产业层面，PyTorch 依然保持在研究与产业界的主导地位，其分布式能力和算子生态持续演进。2025 年发布的PyTorch 重点强化了Pipeline Parallel 在跨节点场景下的协同能力，并原生集成 FlashAttention-3 等高效算子，使长序列模型的计算效率显著提升，进一步巩固其在大模型研究与训练中的优势。与此同时，Intel oneAPI 通过统一编程模型实现 CPU、GPU、NPU 的无缝切换，开发者仅需调整设备配置即可完成跨硬件部署，混合精度与算子融合能力不断增强，反映出国外框架对“硬件无关性”的高度重视。在云原生方向， Kubeflow 2025 在传统 AI 工作流基础上引入更复杂的异构与混合计算模式，支持经典—量子混合神经网络，并依托高速互联实现低时延边缘推理，拓展了框架应用边界。此外，GitHub Copilot X 等 AI 原生开发工具不断进化，将代码生成、性能优化与安全检测深度嵌入开发流程，显著提升工程效率，体现出国外在“AI 赋能软件工程” 方向上的系统化布局。图四深度学习框架国内方面，自主深度学习框架在分布式训练、国产硬件适配和工程化能力上实现显著突破。百度飞桨及后续版本推出动静统一自动并行方案，并结合 FP8 混合精度、动态显存卸载等技术，使文心大模型在超大规模集群中的预训练MFU 达到 47%，在易用性与效率上形成明显优势。在训推一体方面，飞桨依托高可扩展中间表示（PIR）架构，实现从训练、压缩到推理和服务部署的全链路优化，在单机与集群推理场景下显著提升吞吐性能；同时已完成对 53 个系列国内外芯片的适配，在部分国产硬件上训练性能已优于深度定制的 PyTorch 方案。华为昇思 MindSpore 同步推进自动并行与图编译技术，新增 Morph 自定义并行能力，支持 Dropless MoE 训练，在超大参数模型集群中显著降低通信开销，并通过插件化方式快速融入 vLLM 等推理生态。在云原生层面，百度和华为均围绕超节点集群构建弹性调度与高可靠训练能力，万卡级集群有效率接近甚至超过 98%，标志着国内AI 框架正从“功能可用”迈向“规模可控、性能领先”的新阶段。（四）计算设施与安全（1）智算中心智算中心正向以算力效率、系统协同和智能化服务能力为核心的方向演进。随着生成式人工智能和多模态大模型快速发展，智算中心的负载呈现出算力密集、通信密集和存储密集并存的特征，对计算架构、网络互连和资源调度提出更高要求。在体系架构层面，智算中心普遍采用以加速计算为核心的异构计算体系，通过多类型算力单元协同运行，提升大规模并行训练和高并发推理效率。同时，高带宽、低时延的网络互连和分层存储体系成为智算中心的重要基础设施，用于支撑参数同步、模型并行和数据高速访问。在运行与管理层面，围绕能效、成本和服务质量，智算中心加速引入智能调度、弹性资源管理和统一软件栈，推动算力供给由资源交付向服务交付转型。智算中心建设已成为各国布局人工智能竞争力的重要抓手，以头部科技企业和云服务商为主导、以平台化和生态化为特征。国际领先国家通过建设大规模智算中心，为大模型研发、AI 应用创新和产业孵化提供集中算力支撑，并逐步形成面向科研和产业开放的服务体系。在实践层面，国际云服务商和科技企业持续扩展智算中心规模，通过集中部署高性能加速算力，支撑超大规模模型训练和多行业推理服务。同时，一些国家和地区也在公共科研体系中推进智算中心建设，重点服务人工智能基础研究和高端应用开发。整体来看，全球智算中心正由“算力规模竞争”向“算力效率、应用支撑能力和生态服务能力”并重的发展阶段演进，算力基础设施与 AI 应用创新之间的协同关系日益紧密。国内智算中心建设在人工智能发展战略和新型基础设施建设政策推动下持续加快。围绕大模型研发、行业智能化应用和区域数字经济发展需求，各地加速布局智算中心，推动算力资源集中化、规模化和服务化供给。在应用实践方面，国内智算中心已广泛服务于自然语言处理、计算机视觉、生物医药、工业仿真和智能制造等领域，通过统一调度平台向科研机构、企业和创新主体提供算力服务。同时，在国产软硬件适配、能效优化和智能运维方面持续推进探索，逐步提升智算中心的自主可控水平和运行效率。总体来看，我国智算中心正由“快速建设”向 “高质量运营和应用深化”阶段转型，在支撑人工智能技术突破和产业规模化应用方面发挥着越来越重要的基础性作用。（2）超算中心超算中心正由以峰值算力和单一计算性能为核心的建设模式，向面向应用效率、系统协同与智能化运维综合优化的方向演进。随着科学计算与人工智能深度融合，超算中心的计算负载由传统数值模拟扩展至数据驱动计算和AI 辅助计算，对计算架构、网络互连和存储系统提出更高要求。在体系架构层面，超算中心普遍采用大规模并行与异构协同的系统设计，通过多类型处理器与加速单元协同运行，提升能效和应用适配能力。同时，高速互连网络、分层存储体系与并行文件系统成为超算中心的基础配置，用于支撑大规模节点通信与海量数据访问。围绕绿色低碳与长期稳定运行目标，液冷散热、功率感知调度和智能运维逐步成为超算中心的重要发展方向，推动超算系统由“性能导向”向 “性能—能效—可靠性—可持续性”协同优化转型。从全球范围看，超算中心建设呈现出以国家级科研需求为牵引、以系统集成和应用支撑能力为核心的发展格局。美国、欧洲、日本等国家和地区持续推进顶级超算中心建设，将其作为基础科学研究、国防安全、气候模拟和人工智能发展的重要支撑。国际领先的超算中心在架构设计上普遍强调异构计算、高速互连与系统级软件协同，以提升实际应用性能和资源利用效率。在建设实践方面，美国橡树岭国家实验室、阿贡国家实验室等机构部署的顶级超算系统，重点服务于材料科学、能源研究和人工智能应用；欧洲通过 EuroHPC 划推动跨国超算中心布局，建设面向科研和产业开放的高性能计算基础设施；日本在气象模拟、生命科学和工业设计等领域持续强化超算中心应用能力。整体来看，全球超算中心正由“单点算力竞争”向“平台化服务能力与应用生态构建”演进，更加注重开放共享和跨学科应用支撑。国内形成了以国家级超算中心为核心、区域性与行业超算中心协同发展的格局。围绕基础科学研究、工程仿真和新兴技术领域需求，我国超算中心在系统规模、运行稳定性和应用支撑能力等方面不断提升，逐步构建起覆盖多领域的超算服务体系。在实践层面，天津、广州、深圳、无锡、济南等国家级超算中心，持续为航空航天、新材料、生命科学、气象预测和人工智能等领域提供算力支撑，并通过统一调度平台和服务模式，推动超算资源向科研机构和产业用户开放。近年来，国内超算中心在国产软硬件应用、能效优化和智能化运维方面取得积极进展，逐步探索面向智算与高性能计算融合的新型超算中心建设模式。（3）芯片安全芯片安全是保障计算设施可信性、数据安全与基础算力可靠运行的关键环节，涵盖从设计、制造到运行全生命周期的安全技术。核心技术包括硬件根信任（Root of Trust）、可信启动（Trusted Boot）、硬件隔离和防篡改存储，确保芯片在上电和运行阶段的完整性与可靠性；可信执行环境（TEE）与片上加密存储可对敏感数据进行隔离与加密处理，防止侧信道、固件篡改和远程攻击；片上密钥管理单元（KMU）、硬件随机数生成器以及防侧信道设计，则在密钥保护和抗泄露方面提供技术保障。随着算力需求和应用场景复杂化，芯片安全正呈现出异构算力协同防护、全生命周期安全、软硬件联合防护以及对量子计算威胁的前瞻性加密设计等发展趋势，逐步从单点安全向系统级、生态级防护拓展。在国际层面，芯片安全技术和产业发展呈现出政策驱动与技术创新并行的特征。欧美国家和日本等科技强国通过建立芯片安全标准、认证体系和供应链审计机制，加快在关键领域部署可信计算和硬件防护能力。例如，NIST 提出硬件安全指南和量子抗性加密建议，企业级 CPU 与加速器普遍集成TEE、安全启动、片上加密和侧信道防护模块。产业方面，Intel、AMD、NVIDIA 等国际厂商在 CPU、GPU、FPGA 及安全芯片中持续集成硬件安全特性，同时推动芯片级安全与系统级安全的协同部署。全球趋势显示，随着云计算、AI 和边缘计算快速发展，芯片安全已成为支撑高性能计算、数据中心与大模型应用可靠运行的关键基础设施能力。国内芯片安全产业在国家信息安全战略和自主可控需求推动下快速发展，形成了以国产CPU、AI 加速器及安全芯片为核心、产业链协同推进的布局。在技术实践方面，国产芯片厂商已在可信启动、硬件根信任、TEE、片上加密及侧信道防护方面逐步实现可用方案，并结合国产操作系统和软件栈形成软硬件协同防护体系。在应用层面，国产芯片安全技术已广泛应用于超算中心、智算中心、政务数据中心及金融、能源等关键行业，提升基础设施可信度和数据安全能力。未来，国内芯片安全产业将继续沿着全生命周期安全、异构算力协同防护和软硬件一体化部署方向发展，形成自主可控、标准化、可验证的芯片安全生态，为国家算力和数据安全提供坚实支撑。（4）整机安全整机安全主要围绕服务器、加速节点等整机设备在物理、固件、系统和运行层面的可信性与防护能力展开。核心技术包括整机可信启动与远程度量、固件与 BIOS 安全、硬件与固件一致性校验、BMC 安全防护以及整机级身份认证与访问控制等，用于防范设备篡改、固件植入和非法接管等风险。同时，通过安全启动链、硬件根信任与芯片级安全能力协同，实现从芯片到整机的可信传递。随着算力设施规模化部署和集中运维趋势增强，整机安全正向自动化安全运维、全生命周期管理、软硬件协同防护和跨节点一致性验证方向演进，成为支撑云计算、智算中心和关键行业算力平台稳定运行的重要基础能力。全球整机安全技术已成为云数据中心、高性能计算与AI 基础设施的标配能力。国际厂商如Dell、HPE、Lenovo、Supermicro 等围绕可信启动、固件防护、BMC 安全和远程可信运维展开整体能力建设。 Dell 的 iDRAC、HPE 的 Silicon Root of Trust 与实时固件校验机制均将硬件信任链、固件一致性和运维安全纳入系统级策略，结合标准化的远程管理协议（如 Secure Redfish），推动整机安全与零信任架构融合。整体产业趋势显示，国际整机安全能力正从“静态防护”向“动态验证、自动修复和平台联动”演进。国内整机安全技术在国家安全策略和自主可控要求推动下快速发展。浪潮信息、华为、联想、超聚变等整机厂商在可信启动链、固件完整性防护、BMC 访问控制与运维安全等关键能力上持续加强，并结合国产芯片、安全操作系统和统一管理平台，构建起软硬件协同的整机安全体系。同时，通过与安全运维、威胁检测等合作伙伴协同，提升大规模计算设施运行环境的可控性与可审计性。未来国内整机安全将向全链路可信、集群协同治理和生态深度融合方向发展。四、先进计算技术发展推进建议（一）加强关键核心技术研发面向先进计算长期发展需求，应围绕高端处理器、先进存储、关键互联与基础软件等核心环节持续加大研发投入，提升自主创新能力和技术掌控力。在计算芯片方向，重点推进高性能 CPU、GPU、AI 加速器及可重构架构研发，强化先进封装、Chiplet 与软硬件协同设计能力；在存储与互联方向，加强HBM、高速接口、光互联及存算协同等关键技术攻关，缓解“存储墙”“互联墙”瓶颈；在基础软件方向，推动操作系统、编译器、并行开发环境与AI 框架协同优化，提升对国产硬件适配能力。同时，应建立面向前沿技术的持续研发机制，在量子计算、类脑计算、光计算等方向保持前瞻布局，形成“应用牵引— 技术突破—产业反馈”的良性循环，逐步缩小与国际先进水平差距，夯实先进计算产业发展的技术底座。（二）打造产业各方协同生态先进计算产业链条长、技术耦合度高，单一主体难以独立完成体系化突破，需要构建产学研用深度协同的创新生态。应强化整机厂商、芯片企业、软件厂商、系统集成商与应用单位之间的协同机制，推动联合研发与协同验证，缩短技术从研发到应用的转化周期。依托重大工程和示范项目，构建开放测试平台和验证环境，促进软硬件兼容适配和系统级优化。鼓励龙头企业发挥生态引领作用，带动中小企业融入供应链和创新链，形成分工合理、优势互补的产业体系。同时，通过开源社区和开放平台建设，提升产业透明度与参与度，降低创新门槛，逐步构建开放共赢、可持续演进的先进计算产业生态。（三）推进先进计算标准制定标准是推动产业规模化和生态成熟的重要基础，应加快构建覆盖芯片接口、系统架构、互联协议、软件栈及测试评估方法的先进计算标准体系。在硬件层面，推动高速互联、Chiplet 接口、内存扩展及加速器互联等标准协同发展，提升不同厂商产品互操作能力；在软件与系统层面，加强对并行编程模型、算力调度接口和AI 框架适配规范的研究，减少生态碎片化问题。在测试评估方面，建立统一的性能、能效和可靠性评价体系，引导产业从“单点性能指标”转向“系统级综合能力”评估。同时，积极参与国际标准化组织工作，提升我国在先进计算领域的话语权和规则影响力，推动国内标准与国际体系兼容互认，为产业国际化发展创造条件。（四）持续探索前沿技术落地在巩固现有产业基础的同时，应对量子计算、类脑计算、光计算等前沿方向保持理性投入和场景驱动探索，推动从实验验证走向工程化试点。可优先在科研计算、密码分析、特定优化问题、低功耗边缘智能等领域开展示范应用，形成“小规模验证—行业试点—逐步推广” 的落地路径。通过建设试验平台和示范工程，验证新型计算范式与现有算力体系的协同模式，避免与传统计算体系割裂发展。同时，加强对前沿技术成熟度、经济性和安全性的评估，建立动态迭代机制，引导资本和产业资源理性投入，推动前沿计算技术在可控风险下实现产业化突破，为未来算力体系变革储备技术选项。