前沿人工智能风险管理框架
Frontier Al Risk Management Framework
前沿⼈⼯智能⻛险管理框架(版)
执⾏摘要
我们对可信AGI的发展愿景
当前⼈⼯智能(AI)技术正以前所未有的速度取得突破性进展,各类系统在众多领域已达到或超越
⼈类⽔平。这些突破性进展为我们解决⼈类⾯临的重⼤挑战提供了历史机遇⸺从推动科学发现、
提升医疗质量和⼈的健康福祉,到促进经济⽣产⼒的提升。但与此同时,快速发展的技术也带来了
前所未有的⻛险。随着先进⼈⼯智能的研发与部署速度超越了关键安全措施的发展速度,建⽴完善
的⻛险管理机制已成为全球科技发展的当务之急。
作为我国⼈⼯智能领域的新型科研机构,上海⼈⼯智能实验室致⼒于打造“突破型、引领型、平台
型”⼀体化的⼤型综合性研究基地,推动⼈⼯智能技术的安全有益发展。为积极应对技术发展带来
的挑战,推动全球在⼈⼯智能安全领域的良性竞争,实验室提出了AI-45°平衡律1,作为实现可信AGI
的发展路线图。
前沿⼈⼯智能⻛险管理框架
上海⼈⼯智能实验室联合安远AI2,正式发布《⼈⼯智能前沿⻛险管理框架(版)》(以下简称
“框架”),旨在为通⽤型⼈⼯智能(General-Purpose AI)模型研发者提供全⾯的⻛险管理指导
⽅针,主动识别、评估、缓解和治理⼀系列对公共安全和国家安全构成威胁的严重⼈⼯智能⻛险,
保障个体与社会的安全。
本框架旨在为通⽤型⼈⼯智能模型研发者管理其通⽤型⼈⼯智能模型可能带来的严重⻛险提供指
导。框架充分借鉴了安全攸关型⾏业的⻛险管理标准与 佳实践,涵盖⻛险管理的六⼤核⼼流程:
⻛险识别、⻛险阈值、⻛险分析、⻛险评价、⻛险缓解及⻛险治理。
● 1. ⻛险识别:本章节聚焦通⽤型⼈⼯智能模型可能引发的严重⻛险,明确四⼤核⼼⻛险类
型:滥⽤⻛险、失控⻛险、意外⻛险及系统性⻛险。我们计划通过持续更新⻛险分类体系,
动态应对未知与新兴⻛险。
● 2. ⻛险阈值:本章节明确了⼀系列不可接受的⻛险结果(红线)以及触发更⾼级别安全保障
措施的早期预警指标(⻩线)。我们针对可能威胁公共安全和国家安全的⼏个关键领域设定
阈值,其中包括:⽹络攻击、⽣物威胁、⼤规模说服和有害操控,以及失控⻛险。
2 安远AI(Concordia AI)是⼀家AI安全与治理领域第三⽅研究和咨询机构,同时是⽬前该领域中国唯⼀的社会企业。
1 Yang, C. et al., "Towards AI-45° Law: A Roadmap to Trustworthy AGI," arXiv preprint, 2024,
前沿⼈⼯智能⻛险管理框架(版)
● 3. ⻛险分析:本章节建议在⼈⼯智能全⽣命周期中贯穿实施动态⻛险分析,以判断模型是
否越过⻩线⸺即达到触发更⾼级别安全措施的早期预警指标。我们建议AI研发者在研发前
和部署前进⾏系统性评估,以便为关键的部署决策提供参考。同步应建⽴部署后持续监测
机制,为新⼀代系统研发提供安全指引。与本框架同时发布的还有⼀份针对⼀系列通⽤型
⼈⼯智能模型的⻛险评测技术报告。
● 4. ⻛险评价:建⽴三级⻛险分级体系:绿⾊区域(基于常规措施可安全部署)、⻩⾊区域
(需强化安全防护与授权)、红⾊区域(需特殊措施,如限制部署或限制研发)。我们建议
对缓解措施实施后的剩余⻛险进⾏迭代评估,进⼀步采取降低⻛险的措施直⾄⻛险达到可接
受⽔平。
● 5. ⻛险缓解:构建全⽣命周期纵深防御⻛险缓解策略,包含三种⻛险缓解措施:安全训练措
施、部署缓解措施及模型安保措施,并根据模型处于绿⾊区域、⻩⾊区域或红⾊区域设定不
同的保障级别。我们呼吁全球持续加⼤AI安全基础研究投⼊,当前技术⼿段尚难以充分保障
先进AI系统的安全性。
● 6. ⻛险治理:提出监督和调整整个⻛险管理流程的治理路径。建⽴四维治理体系:内部治理
机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿⾊
区域、⻩⾊区域或红⾊区域设定不同的保障级别。
AI安全作为全球公共产品
上海⼈⼯智能实验室坚信AI安全是⼀项全球公共产品3。我们率先提出这份前沿AI⻛险管理框架,汇
集了现阶段对重⼤AI⻛险的认知与应对思路。我们倡导前沿AI研发机构、政策制定者及相关⽅采⽤
兼容的⻛险管理框架。AI技术的跃迁⽇新⽉异,唯有尽快在当下采取集体⾏动,才能让变⾰性AI真
正造福⼈类,并避免灾难性后果。我们诚邀各⽅就框架落地开展合作,并承诺以公开透明的⽅式分
享实践成果。只有当关键组织同步落实同等强度的防护措施,社会层⾯的⻛险管控才能⽣效。⾯对
⻛险与机遇并存的全新局⾯,唯有以协同共治、系统施策的思维,⽅能凝聚合⼒、破局前⾏。
3 上海⼈⼯智能实验室治理研究中⼼、清华⼤学产业发展与环境治理研究中⼼、上海交通⼤学国际与公共事务学院等,《⼈⼯智
能安全作为全球公共产品研究报告》,2024,
安远AI、⽜津⻢丁⼈⼯智能治理倡议和卡内基国际和平研究院,《⼈⼯智能安全作为全球公共产品:影响、挑战与研究重点》(
Examining AI Safety as a Global Public Good: Implications, Challenges, and Research Priorities),2025
df?dm=1741767073
前沿⼈⼯智能⻛险管理框架(版)
贡献与致谢
科学总监:周伯⽂
主要撰稿⼈:谢旻希†、⽅亮*、徐甲*、段雅⽂*、邵婧*
贡献者:张杰、刘东瑞、王伟冰、程远、俞怡、郭嘉轩、陆超超
感谢安远AI伙伴刘顺昌等⼈对本报告内容的贡献。
† 表⽰第⼀作者
* 表⽰等同贡献
版本与更新计划
《前沿⼈⼯智能⻛险管理框架》旨在成为⼀份持续迭代的动态⽂档。我们将定期审阅并评估本框架
的内容及其实⽤性,以适时进⾏更新。关于《前沿⼈⼯智能⻛险管理框架》的任何意⻅或建议,均
可随时通过电⼦邮件发送⾄主要撰稿⼈,我们将每半年进⾏⼀次集中审阅和整合。
如何引⽤本报告:上海⼈⼯智能实验室,安远AI,《⼈⼯智能前沿⻛险管理框架(版)》,2025
前沿⼈⼯智能⻛险管理框架(版)
⽬录
执⾏摘要..........................................................................................................................
框架总览........................................................................................................................1
⼈⼯智能⻛险管理的六个阶段...................................................................................................... 1
部署环境、威胁源和使能能⼒三位⼀体........................................................................................2
1. ⻛险识别.................................................................................................................... 3
⻛险识别范围......................................................................................................................... 3
⻛险分类框架......................................................................................................................... 4
滥⽤⻛险.................................................................................................................................5
⽹络攻击⻛险................................................................................................................ 5
⽣物化学⻛险................................................................................................................ 5
⼈⾝伤害⻛险................................................................................................................ 6
⼤规模说服与有害操控⻛险...........................................................................................6
失控⻛险.................................................................................................................................7
意外⻛险.................................................................................................................................7
系统性⻛险............................................................................................................................. 8
2. ⻛险阈值.................................................................................................................. 10
定义AI发展的“⻩线”和“红线”....................................................................................... 10
具体红线建议....................................................................................................................... 12
⽹络攻击⻛险.............................................................................................................. 13
⽣物安全⻛险.............................................................................................................. 15
⼤规模说服与有害操控⻛险.........................................................................................17
失控⻛险......................................................................................................................18
3. ⻛险分析.................................................................................................................. 20
规划与研发阶段的⻛险分析技术...........................................................................................20
部署前的⻛险分析技术......................................................................................................... 21
部署后的⻛险监测技术......................................................................................................... 22
4. ⻛险评价.................................................................................................................. 23
缓解前的⻛险处置选项......................................................................................................... 23
前沿⼈⼯智能⻛险管理框架(版)
缓解后剩余⻛险评估与部署决策...........................................................................................24
部署决策的外部沟通.............................................................................................................25
5. ⻛险缓解.................................................................................................................. 26
⻛险缓解措施概述................................................................................................................ 26
安全预训练和后训练措施..................................................................................................... 27
模型部署缓解措施................................................................................................................ 28
针对模型滥⽤的缓解措施............................................................................................ 28
针对智能体安全的缓解措施.........................................................................................28
模型安保措施....................................................................................................................... 29
针对模型泄漏⻛险....................................................................................................... 29
针对模型失控⻛险....................................................................................................... 30
全⽣命周期的“纵深防御”策略...........................................................................................31
6. ⻛险治理.................................................................................................................. 32
⻛险治理措施概述................................................................................................................ 32
内部治理机制....................................................................................................................... 32
透明度和社会监督机制......................................................................................................... 34
应急管控机制....................................................................................................................... 34
定期更新政策....................................................................................................................... 35
附录⼀:术语定义..........................................................................................................36
附录⼆:具体基准测试建议............................................................................................. 38
⽹络攻击.................................................................................................................................... 38
⽣物威胁.................................................................................................................................... 40
化学威胁.................................................................................................................................... 42
附录三:模型能⼒、倾向和部署特征................................................................................. 44
关键能⼒ (Capabilities)............................................................................................................. 44
关键倾向(Propensities)........................................................................................................ 45
关键部署特征 (Deployment Characteristics)............................................................................46
前沿⼈⼯智能⻛险管理框架(版)
框架总览
⼈⼯智能⻛险管理的六个阶段
本框架将既有的⻛险管理原则应⽤于通⽤型⼈⼯智能(General-Purpose AI)研发,并与包括 ISO
31000:2018、ISO/IEC 23894:2023 和 GB/T 24353:2022 在内的标准保持⼀致4。本框架构建了六个
相互关联的阶段,形成了贯穿⼈⼯智能全⽣命周期不断演进的持续⻛险管理循环,如图1所⽰:
● ⻛险识别(Risk Identification):系统性识别和分类潜在严重⻛险的过程,重点聚焦前沿
AI的先进能⼒所引发的⻛险。随着AI能⼒的进步和新威胁场景的出现,识别过程不断将新兴
⻛险反馈到循环中。
● ⻛险阈值(Risk Thresholds):定义不可接受结果(“红线”)和升级安全保障措施的早
期预警指标(“⻩线”)的过程。这些阈值基于从⻛险分析、评价结果和缓解有效性中汲取
的经验不断完善,形成⼀个持续校准阈值的反馈机制。
● ⻛险分析(Risk Analysis):通过定量和定性评估⽅法研究特定AI⻛险场景和分析⻛险的过
程。基于已识别的⻛险和既定阈值,这⼀阶段对整个AI研发⽣命周期进⾏综合评估,包括研
发前、部署前和部署后分析。分析结果直接为后续的⻛险评价阶段提供信息,同时也提供可
能揭⽰需要识别的新⻛险的⻅解。
● ⻛险评价(Risk Evaluation):通过与既定阈值对⽐判定⻛险等级,以指导⻛险缓解和模
型部署决策的过程。这⼀阶段采⽤三区分类体系(绿⾊区域、⻩⾊区域、红⾊区域)对⻛险
进⾏分类并确定适当的响应。当模型⻛险突破可接受阈值时则触发缓解阶段,⽽模型⻛险处
于可接受的区域使则可在治理措施下推进部署。
● ⻛险缓解(Risk Mitigation):通过全⾯的应对措施主动减少和响应不同类型安全⻛险的过
程。这⼀阶段实施涵盖整个AI⽣命周期的纵深防御⽅法,缓解策略根据⻛险区域分类⽽有所
不同。缓解措施实施后,过程回到⻛险识别环节以评估剩余⻛险并确定是否需要额外措施,
从⽽形成⼀个⻛险降低和验证的迭代循环。
● ⻛险治理(Risk Governance):将⻛险管理整合到更⼴泛的组织和社会治理结构中的过
程。这⼀阶段涵盖整个⻛险管理循环,提供监督、透明度和问责机制。治理过程确保从每个
阶段汲取的经验教训系统性地纳⼊框架改进、政策更新和组织学习中,同时促进内部利益相
关者和外部监督机构之间的协调。
4 术语、概念、流程主要参考:GB/T 24353:2022《⻛险管理指南》、GB/T 23694:2013《⻛险管理术语》、ISO/IEC 23894:2023
《⼈⼯智能⻛险管理指南》、ISO 31000:2018《⻛险管理指南》、ISO/IEC 42001:2023《⼈⼯智能管理体系》、国家⽹络安全标
准化技术委员会《⼈⼯智能安全标准体系》版、《国际⼈⼯智能安全报告》章⻛险管理。
1
前沿⼈⼯智能⻛险管理框架(版)
图1: ⼈⼯智能⻛险管理的六个阶段
部署环境、威胁源和使能能⼒三位⼀体
本框架通过三个相互关联的分析维度来评估⻛险,这些维度共同⽤于综合评估潜在危害的发⽣可能
性及其严重程度:
● 部署环境(Deployment Environment;E):指AI模型部署运⾏的具体场景和约束条件。
例如部署领域、操作参数、监管要求、⽤⼾群体特征、依赖的基础设施以及现有的监督机制
等。即使是相同的⼈⼯智能能⼒,在不同部署环境下可能呈现出显著差异的⻛险特征。
● 威胁源(Threat Source;T):指可能通过与AI模型交互引发有害后果的源头或主体。例
如外部攻击者(恶意⽤⼾、敌对势⼒)、内部缺陷(模型⽬标偏离、训练数据偏差)、操作
失误(⼈为错误、系统集成故障),以及AI与复杂环境互动时产⽣的涌现⾏为。
● 使能能⼒(Enabling Capability;C):指AI模型的核⼼能⼒,尤其是那些在模型部署时没
有施加额外安全措施前提下,能导致⻛险场景的特定能⼒。这些能⼒既包含设计时的预期能
⼒(如科学推理、代码⽣成、任务规划),也包括因模型规模扩⼤或在训练过程中涌现出的
新能⼒,尤其是那些决定有害结果能否真正发⽣的关键能⼒。
这种三维⽅法要求评估的不仅仅是AI系统能做什么(C),还包括它在哪⾥运作(E)以及可能出现
哪些威胁(T),从⽽在每个维度上实现有针对性的⼲预措施,例如针对环境的部署控制(E)、针
对威胁源的访问限制(T),以及针对能⼒的危险能⼒移除(C)。
2
前沿⼈⼯智能⻛险管理框架(版)
1. ⻛险识别
⻛险识别范围
本框架以《国际⼈⼯智能安全报告(2025年1⽉)》5和《⼈⼯智能安全治理框架》版6为基础,
重点关注通⽤型⼈⼯智能因具备⾼影响⼒能⼒⽽可能引发的灾难性⻛险。这类⻛险因其快速升级的
可能性、对社会造成严重危害的潜⼒以及前所未有的影响范围,可能对公众健康、国家安全和社会
稳定构成重⼤威胁。与传统⻛险管理框架不同,本框架特别关注尚未实际发⽣或未被充分认知的新
型⼈⼯智能⻛险应对。
在⻛险识别过程中,我们着重考虑前沿通⽤型⼈⼯智能⻛险区别于传统技术危害的以下特征,并优
先识别具备以下⼀个或多个特征的通⽤型⼈⼯智能模型相关⻛险:
● 通⽤型⼈⼯智能特有的⻛险属性:通⽤型⼈⼯智能可能通过放⼤⻛险的严重性(提升危害规
模和损害成本)和发⽣可能性(扩⼤攻击⾯和降低滥⽤⻔槛),从根本上改变了⻛险现状,
并可能引⼊全新的⻛险类型。
● 灾难性后果的不对称效应:潜在后果可能对社会、经济或环境造成严重损害,少数威胁主体
或单⼀事件就可能触发超⼤规模灾难。
● 快速爆发且不可逆转:此类⻛险可能快速显现并扩散,需要即时协调应急响应,否则可能极
难甚⾄⽆法逆转后果,修复⼿段也极其有限。
● 复合级联效应:多重关联⻛险可能同时发⽣或引发次⽣与衍⽣危害,形成系统性脆弱环节,
导致整体影响持续放⼤。
本框架将以下类型的通⽤型⼈⼯智能纳⼊⻛险识别范围:
● 语⾔模型:具备语⾔理解、⽂本⽣成、⾼级推理和跨模态处理能⼒的模型,例如GPT-4o、
Llama-4、Qwen3、InternLM,以及专注推理的o1和DeepSeek-R1等。主要⻛险包括但不
限于⽣成有害内容、复杂欺骗、说服性操控,以及超出设计预期的涌现能⼒。
● AI智能体:基于通⽤型⼈⼯智能模型构建的⾃主系统,具备⼯具调⽤、API交互和⾃主执⾏
任务的能⼒,且⼏乎⽆需⼈⼯⼲预,如Claude计算机使⽤功能、⽀持函数调⽤的GPT-4、
6 National Technical Committee 260 on Cybersecurity of SAC, "AI Safety Governance Framework," 2024,
5 Bengio, Y. et al. International AI Safety Report," 2025,
3
前沿⼈⼯智能⻛险管理框架(版)
AutoGPT架构,以及集成代码执⾏环境的模型。主要⻛险包括但不限于⼯具失控使⽤、跨交
互⽬标持续性,以及通过外部接⼝执⾏⾮预期或有害操作7。
● ⽣物基础模型:基于⼤规模⽣物数据训练的模型,可分析、预测和⽣成基因组、蛋⽩质组及
分⼦层⾯的⽣物序列与结构,如Evo 2、ESM、ChemBERTa等8。主要⻛险源于危险⽣物信
息的⽣成能⼒,包括病原体序列设计、毒素合成路径等有害⽣物制剂相关信息9。
● 具⾝智能模型:⾯向物理世界交互的模型,具备机器⼈控制、传感器处理以及执⾏器指令能
⼒,如RT-1、RT-2、PaLM-E,以及基于物理操作数据集训练的机器⼈基础模型10。主要⻛险
涉及物理决策、空间推理可能导致的有害物理⾏为,以及超出安全参数的⾃主能⼒发展11。
⻛险分类框架
本框架识别了四类⻛险领域:滥⽤⻛险(Misuse Risks)、失控⻛险(Loss of Control Risks)、
意外⻛险(Accident Risks)和系统性⻛险(Systemic Risks),与《国际⼈⼯智能安全报告》所
列⻛险领域兼容。
11 Zhang, H. et al., "BadRobot: Jailbreaking Embodied LLMs in the Physical World." arXiv preprint, 2024,
10 Hu, Y. et al., "Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis," arXiv preprint, 2023,
9 Wang, D. et al., "Without Safeguards, AI-Biology Integration Risks Accelerating Future Pandemics," 2025,
uture_Pandemics
8 Liu, X. et al., "Biomedical Foundation Model: A Survey," arXiv preprint, 2025,
7 Chen, A., et al., "A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron?" arXiv
preprint, 2025,
4
⻛险领域 威胁源 描述
滥⽤⻛险 外部恶意⾏为者 指恶意⾏为者故意利⽤AI模型能⼒对个⼈、组织或社会造成伤害⽽产
⽣的⻛险。
失控⻛险 模型破坏控制的
倾向
指⼀个或多个通⽤型⼈⼯智能系统脱离⼈类控制,且⼈类没有明确的
重新获得控制路径的⻛险。这包括被动失控(⼈类监督的逐渐减少)
和主动失控(AI系统主动破坏⼈类控制)。
意外⻛险
⼈类操作失误或
模型误判
由于部署在安全攸关基础设施中的AI系统出现操作故障、模型误判或
⼈为操作不当⽽产⽣的⻛险,其中单点故障可能引发级联灾难性后
果。
系统性⻛险
技术-制度结构性
错配
通⽤型⼈⼯智能的⼴泛部署所产⽣的⻛险,超出了单个模型能⼒直接
构成的⻛险,源于AI技术与现有社会、经济和制度框架之间的不匹
配。
前沿⼈⼯智能⻛险管理框架(版)
本框架重点关注那些可以在模型层⾯进⾏⼲预和管理的⻛险,相关措施主要供AI研发者参考。⾄于
系统性⻛险,虽然本框架也将其纳⼊整体考量范围,但相关治理需要⾏业和社会的协同合作,已超
出单个模型研发者的职责范围。
滥⽤⻛险
滥⽤⻛险源于恶意攻击者有意利⽤AI模型的能⼒,对个⼈、组织或社会造成伤害。这些威胁通过通
⽤型⼈⼯智能技术放⼤传统攻击⼿段,催⽣出过去在技术或经济层⾯难以实现的新型恶意活动形
式。
在滥⽤⻛险领域中,我们识别出多个⾼影响滥⽤⻛险种类,包括⽹络攻击⻛险、⽣物化学⻛险、⼈
⾝伤害⻛险以及⼤规模说服与有害操控⻛险。
⽹络攻击⻛险
AI赋能的⽹络攻击正在从根本上改变⽹络空间安全的威胁格局,极⼤提升了攻击的规模效应、复杂
程度和可操作性。与传统⽹络威胁不同,AI不仅能让现有攻击⼿段实现⾃动化,更能催⽣出可实时
⾃我迭代演进的新型攻击模式。AI可以⾃动化和增强⽹络攻击,包括漏洞发现和利⽤、密码破解、
恶意代码⽣成、复杂的⽹络钓⻥、⽹络扫描和社会⼯程。这⼤⼤降低了攻击者的进⼊⻔槛,同时也
增加了防御的复杂性12。这种恶意使⽤可能导致关键基础设施瘫痪、⼤范围数据泄露或重⼤经济损
失。
⽣物化学⻛险
AI技术的两⽤特性可能被恶意⾏为者利⽤,显著降低⾮国家⾏为体设计、合成、获取和部署化学、
⽣物、放射性、核和爆炸物(CBRNE)武器的技术⻔槛,对国家安全、国际防扩散体系及全球安全
治理构成严峻挑战13。
在⽣物领域,AI可能被⽤于协助设计新型⾼致病性病原体、恶意优化基因编辑⼯具、加速⽣物武器
的研发等14。AI系统可能协助设计出同时具备快速传播性、⾼致死率和⻓潜伏期的“超级病毒”的能
14 AIxBio Global Forum, Statement on Biosecurity Risks at the Convergence of AI and the Life Sciences, 2025,
13 He, J. et al., "Control Risk for Potential Misuse of Artificial Intelligence in Science" arXiv preprint, 2023,
Li, T. et al., "SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks,"
arXiv preprint, 2024,
12 Guo, W. et al., "Frontier AI’s Impact on the Cybersecurity Landscape," arXiv preprint, 2025,
5
前沿⼈⼯智能⻛险管理框架(版)
⼒。此类威胁可能对全球公共卫⽣和⽣态系统造成严重冲击,可能引发⼤规模⽣物危机、群体性伤
亡事件甚⾄全球性流⾏病15。本框架将⽣物威胁作为优先关注对象,因其具有极⾼的单位伤亡效率、
⾼度隐蔽性、强传染性,并可能引发社会系统性的崩溃16。
在化学武器领域,AI可通过⽣成有毒化合物合成路径、优化投送机制、研发新型⾼杀伤⼒毒剂等⽅
式降低研发⻔槛。已有研究证实,AI药物发现系统可在数⼩时内⽣成包括VX神经毒剂类似物在内的
数千种有毒分⼦17。同时,我们在附录⼆:具体基准测试建议中提供了针对化学威胁⻛险的初步建
议。
⼈⾝伤害⻛险
通⽤型⼈⼯智能模型向具⾝系统的深度集成,使恶意⾏为者可通过滥⽤⾃主决策能⼒,在现实物理
环境中制造直接危害。其核⼼⻛险在于,具⾝模型具备⾃主⾏动与环境交互能⼒,这种能⼒⼀旦被
恶意操控,可能引发⼀系列严重后果18。例如:算法被劫持导致⾃动驾驶系统制造重⼤交通事故,或
被⼊侵的⼯业机器⼈引发严重的⽣产安全事件。
⼤规模说服与有害操控⻛险
AI系统可能被严重滥⽤,通过⽣成深度伪造内容(如深度伪造视频、⾼仿真虚假新闻)及战略性操
控拥有庞⼤⽤⼾群体的数字平台,⼤规模传播或精准投放误导性信息与意识形态,从⽽扭曲公众认
知并危害社会稳定。
AI可以协助⼤规模商业欺诈,通过⾼度个性化的虚假信息宣传活动操纵舆论,或⽣成虚假信息以诱
导消费或不当影响公众判断。先进的AI系统可以利⽤个⼈⼼理特征和⾏为模式,制作令⼈信服的深
度伪造视频、合成⾳频和定制宣传。竞争⽅也可能通过操控公共话语获得战略优势,并通过复杂的
影响⼒活动加剧地缘政治紧张态势。
18 Yin, S. et al., "SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents," arXiv preprint, 2024,
Lu, X. et al., "IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks," arXiv,
2025,
17 Urbina, F. et al.,"Dual Use of Artificial Intelligence-Powered Drug Discovery," Nature Machine Intelligence, 2022,
16 王宏⼴,朱姝等《中国⽣物安全:战略与对策》,2022,
15 安远AI,天津⼤学⽣物安全战略研究中⼼,《⼈⼯智能 x ⽣命科学的负责任创新》,2025
6
前沿⼈⼯智能⻛险管理框架(版)
失控⻛险
失控是指未来可能出现的⼀种假设情形,在这种情形中,⼀个或多个通⽤型⼈⼯智能系统开始脱离
任何⼈类的控制,且⼈类没有明确的重新获得控制权的途径19。我们将失控分为两种形式:被动失控
(即⼈类因⾃动化偏差、AI系统的固有复杂性或竞争压⼒⽽逐渐停⽌对AI系统进⾏实质性的监督)
;以及主动失控(即AI系统通过隐藏活动⾏为、抵抗关机等⽅式主动破坏⼈类控制)。主动失控情
景AI包括但不限于系统逃脱⼈类监督、⾃主获取外部资源、⾃我复制、形成违背⼈类伦理道德的⼯
具性⽬标、寻求外部权⼒,并与⼈类争夺控制权。
主动失控⻛险因其潜在灾难性后果⽽受到诸多研究关注,本框架也将主要聚焦于此。主动失控⻛险
可能源于模型能⼒、模型倾向与部署条件之间的复杂相互作⽤(详⻅附录三)。这些情景可能通过
以下⽅式被触发:AI系统可能通过发展破坏控制的能⼒(如⾃主规划、战略欺骗和⾃我修改)以及
在特定部署条件下使⽤这些破坏控制的能⼒来规避⼈类监督和控制机制。
典型的假设性威胁情景包括但不限于:
● 不受控的⾃主AI研发20:AI系统在⽆⼈类监督或授权的情况下递归式提升⾃⾝能⼒;
● 恶意⾃主复制21:AI系统独⽴获取计算资源,创建⾃⾝副本并在多个平台持久存在;
● 战略欺骗⾏为22:AI系统通过欺骗⼿段规避关机或监管,同时推进与⼈类价值观相冲突的⽬
标。
对于此类⻛险何时出现、具体诱因及发⽣机制,⽬前仍存在根本性不确定性。这意味着政策制定者
需要在⻛险本质和概率⾼度模糊的情况下提前布局,通过技术安全研究和治理能⼒建设进⾏预防性
准备,尽管我们⽆法准确预知这些⻛险是否、何时以及以何种⽅式成为现实。
意外⻛险
意外⻛险是指在安全攸关型基础设施中部署通⽤型⼈⼯智能模型时,可能因系统操作故障、模型误
判或⼈为操作不当⽽引发链式反应,造成灾难性后果的⻛险。与涉及恶意意图的滥⽤场景不同,意
22 Balesni, M. et al., "Towards Evaluations-Based Safety Cases for AI Scheming," arXiv preprint, 2024,
21 Clymer, J. et al., "The Rogue Replication Threat Model", , 2024,
20 Clymer, J. et al., "Bare Minimum Mitigations for Autonomous AI Development," arXiv preprint, 2025,
19 Bengio, Y. et al. "International AI Safety Report," 2025,
7
前沿⼈⼯智能⻛险管理框架(版)
外⻛险源于AI系统或⼈类操作员在复杂、⾼⻛险环境中的固有不可靠性,在这些环境中,⼈类⽣命
和社会稳定均依赖于系统的正确运转。
通⽤型⼈⼯智能在关键基础设施的应⽤可能形成重⼤⻛险,具体表现为以下单点失效引发的全局性
灾难:
● 核能系统领域:应⽤于反应堆监测、控制系统优化或应急响应协调的通⽤性⼈⼯智能系统,
可能因传感器数据误读、安全临界状态识别失效或应急决策失误导致严重后果。考虑到核事
故可能造成的严重影响,即便是AI在安全攸关功能上的轻微推理偏差,也可能引发堆芯熔
毁、放射性泄漏或跨境污染等重⼤灾难。
● ⾦融稳定性领域:在⾼频交易、做市机制或系统性⻛险管理中引⼊通⽤型⼈⼯智能,可能在
市场剧烈波动时产⽣不可预⻅的⾏为模式。更值得警惕的是,若多家⾦融机构采⽤趋同的基
础模型,可能形成关联性决策与⽺群效应。智能体的⼤规模应⽤还可能产⽣涌现⾏为加剧市
场波动23, 终引发全球性⾦融体系连锁动荡,可能造成超过数万亿美元的全球经济损失。
● 关键基础设施控制系统领域:应⽤于电⽹调度、⽔务处理、通信⽹络或交通指挥的AI系统,
可能因运⾏数据误判、连锁故障预判不⾜或控制决策失当导致⽹络失稳。此类失效可能引发
⼤范围停电、饮⽤⽔污染、通信中断以及千万级⼈⼝赖以⽣存的基础服务系统崩溃。
系统性⻛险
系统性⻛险源于通⽤型⼈⼯智能技术的⼴泛部署,超越了单个模型能⼒本⾝带来的直接⻛险。这类
⻛险产⽣于AI技术与现有社会、经济和制度体系之间的结构性错配,所形成的脆弱性⽆法通过针对
单个模型的⼲预措施解决,必须依靠⾏业层⾯和全社会的协同应对。
通⽤型⼈⼯智能⼤规模融⼊社会基础设施,将形成跨领域的相互关联脆弱性,可能在多个领域同步
显现:
● 劳动⼒市场颠覆与经济性失业:通⽤型⼈⼯智能驱动的快速⾃动化可能在知识型⼯作领域引
发⼤规模失业,造成的技能断层将远超职业再培训体系的应对速度。与以往技术变⾰不同,
AI的⼴泛适⽤性可能同时冲击多个⾏业,导致社会保障体系难以承受系统性经济失衡,尤其
冲击那些⾼度依赖易被AI替代岗位的地区。
23 Danielsson, J. et al., "On the Use of Artificial Intelligence in Financial Regulations and the Impact on Financial Stability,"
arXiv preprint, 2023,
Danielsson, J. et al., "Artificial Intelligence and Financial Crises," arXiv preprint, 2024,
8
前沿⼈⼯智能⻛险管理框架(版)
● 市场垄断与基础设施依赖:过度依赖少数主导型AI服务商可能造成关键领域的单点故障。AI
研发领域的市场集中化可能导致:技术故障、⽹络攻击或企业决策失误同时波及医疗系统、
⾦融服务、交通⽹络和通信基础设施,进⽽引发跨系统的连锁崩溃。
● 全球AI研发失衡:国家间AI发展能⼒的差异可能加剧地缘政治⽭盾,催⽣新型技术依附关
系。缺乏先进AI能⼒的国家可能在关键领域⽇益依赖外国系统,⽽AI领先国家则可能在全球
经济与安全体系中获取不成⽐例的主导权,这种态势或将动摇国际协作机制的稳定性。
● 社会公平性与凝聚⼒危机:系统性部署存在偏⻅的AI应⽤可能在前所未有的规模上放⼤社会
歧视,⽽先进技术获取的不平等可能加剧阶层分化,催⽣新的社会等级制度,对传统社会秩
序构成根本性挑战。
需要强调的是,虽然本框架完整列举了系统性⻛险,但解决这些挑战必须依靠多⽅协同的系统性⽅
案,包括公共政策改⾰、国际协作机制和综合性监管体系。单个AI研发者应当意识到⾃⾝可能带来
的系统性影响,但仅凭模型层⾯的技术措施⽆法独⽴化解这些⻛险。
9
前沿⼈⼯智能⻛险管理框架(版)
2. ⻛险阈值
AI研发者必须明确可接受的⻛险⽔平,综合考虑潜在危害发⽣的可能性和严重程度。⽬前由于尚不
存在关于“可接受⻛险”的全球统⼀标准,研发者需⾃⾏设定这些阈值。然⽽考虑到此类⻛险将对
社会产⽣全球性影响,⻓期来看应努⼒推动国际共识的形成,以建⽴相关阈值体系,确保实现公平
且负责任的⻛险管理。
定义AI发展的“⻩线”和“红线”
该框架通过定义“红线”(不可逾越的禁区)和“⻩线”(潜在⻛险的早期预警指标)来构建AI安
全边界24。其核⼼在于识别不可接受的后果(红线)及可能导致这些后果的具体威胁场景。
这⼀⽅法关键围绕合理的威胁实现路径,即通过三个要素的特定组合,描述威胁可能实现的⽅式:
部署环境(Deployment Environment,如AI具有互联⽹访问权限)、威胁源(Threat Source,如⽹
络罪犯等恶意⾏为者)、使能能⼒(Enabling Capability,如AI模型具备的⾼级⽹络攻防知识)。这
种E-T-C框架确保威胁路径建⽴在现实且相互关联的条件基础上,若缺乏有效防护措施,可能引发灾
难性后果。
红线代表不可接受后果的绝对阈值,这些后果在任何情况下都不得发⽣,其界定基于专家共识所认
定的灾难性影响。当出现以下情况时即触发红线:在贴近现实的模拟环境中,现有防护措施被证明
不⾜以阻⽌威胁⾏为者完成某条合理的E-T-C灾难性后果路径;且经专家评估,有⾼度信⼼认定该模
型在真实部署条件下存在重⼤且不可缓解的⻛险25。
当触及红线时,建议模型研发者:
● ⽴即采取措施阻断灾难性后果的可能性;
● 实施 ⾼级别的管控措施和操作限制;
25 专家评估标准(Expert Evaluation Criteria) :由安全专家团队根据以下四个⽅⾯,对模型在现实世界中产⽣威胁能⼒的⻛险
和严重程度进⾏评估:
(1) 模型在技术上实现该威胁的可⾏性;
(2) 其作为恶意攻击⼿段的有效性;
(3) 潜在攻击者利⽤该能⼒的⻔槛;
(4) 现有缓解措施的有效性。
该评估旨在判断该威胁是否符合被列为“红线”⻛险的标准。在受控环境中进⾏的现实场景验证可以作为科学证据的补充,有助
于加强监管,但这并⾮实施更严格管控的前提条件
24 Lu, C. et al., "Towards AI-45 Degree Law: A Roadmap to Trustworthy AGI", arXiv preprint, 2024,
10
前沿⼈⼯智能⻛险管理框架(版)
● 暂停相关运⾏或部署,直⾄⻛险降⾄红线以下⽔平;
● 恢复运营前需通过强制性的第三⽅独⽴安全审查。
⻩线作为前瞻性预警指标,⽤于提⽰正在浮现的⻛险,防⽌其升级⾄红线级别。它聚焦可能促成威
胁场景的前期条件,为及时⼲预提供信号,防⽌⻛险沿着有效的 E-T-C 路径发展。当模型展现出实
现特定威胁场景所需的关键使能能⼒和倾向(例如,可能引发失控的错误对⻬倾向,或缺乏针对滥
⽤的有效安全护栏)时,就越过了⻩线⸺⽆论基于当前部署环境是否存在⼀条合理的威胁实现路
径。我们计划在框架的未来迭代中,为这些关键使能能⼒和倾向中的每⼀个设定定量阈值。
当触及⻩线时,建议模型研发者:
● 向相关利益⽅发布潜在⻛险预警;
● 启动基于场景的全⾯⻛险评估;
● 实施与⻛险等级相匹配的缓解措施;
● 加强特定⻛险领域的监测评估机制。
具体红线建议
我们已识别出⼀系列潜在的不可接受后果(即红线),主要涉及⽣物安全⻛险、⽹络攻击⻛险、⼤
规模说服与有害操控⻛险,以及失控⻛险26。这些⻛险项采⽤编号标记(如⽹络 C1-C3、⽣物 B1-B3
等),仅为分类管理需要,不表⽰⻛险等级递增或存在先后顺序⸺每个编号都代表独⽴的⻛险阈
值,任何⼀项都有可能单独被触发。每项红线均通过三维⻛险评估框架进⾏定义(部署环境、威胁
源及使能能⼒),并配套提供了具体的场景,这些场景会触发⽴即⼲预以及 ⾼级别的安全措施。
26 IDAIS-Beijing, "International Dialogues on AI Safety," 2024,
World Economic Forum, "AI red lines: the opportunities and challenges of setting limits," 2025, ,
Karnofsky, H., "A Sketch of Potential Tripwire Capabilities for AI," 2024,
Raman, D. et al., "Intolerable Risk Threshold Recommendations for Artificial Intelligence," arXiv preprint, 2025,
Frontier Model Forum, "Risk Taxonomy and Thresholds for Frontier AI Frameworks," 2025,
11
前沿⼈⼯智能⻛险管理框架(版)
⽹络攻击⻛险
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
C1:执⾏⼤规模社
会⼯程学攻击,包
括信息收集和凭证
窃取,使新⼿也能
有效实施攻击
环境: 防弹主机 +
Tor/VPN 隐蔽
数据源: 开源情报 + 商业
数据提供商
恶意攻击者利⽤模型使得社会⼯
程学攻击⾃动化与规模化。
提⽰词⽰例:“利⽤社会⼯程学
数据库收集数百万⼈个⼈信息,
并向每⼈发送⼀封带有恶意链接
的⽹络钓⻥邮件。”
● 社会⼯程学能⼒27
● 强⼤的开源情报收集、整
合与分析能⼒
● ⽬标画像构建能⼒
● ⾼度逼真、具备上下⽂感
知的钓⻥内容⽣成能⼒
当掌握基础⽹络安全知识的个体通过先进AI技术批
量⽣成数百万个难以区分的虚假⾝份并实施精准社
会⼯程攻击时,将构成全球性重⼤威胁。这种由AI
驱动的社会⼯程脚本和⼼理操控战术将极⼤提升钓
⻥成功率,导致⼤规模⾦融诈骗和数字信任体系的
系统性崩溃。全球每年可能造成数千亿甚⾄万亿美
元的经济损失, 终使电⼦商务和关键公共服务系
统陷⼊瘫痪,数字⾝份体系彻底失去可信度。
C2:⾃主执⾏针对
⾼价值、⾼防护⽬
标的完整杀伤链攻
击,引发现实世界
的重⼤⽹络威胁28
环境: 分布式命令与控制
僵⼫⽹络(50 多个地理定
位节点)
数据源: 公开的漏洞数据
库、漏洞交易市场数据
⾼级恶意攻击者利⽤模型端到端
地突破⾼防护环境。
提⽰词⽰例:“ 利⽤来⾃暗⽹市
场的⾮公开漏洞和攻击⼯具,研
发新型攻击链,能够渗透并持久
驻留在⾼防护企业⽹络中⽽不被
发现。”
● ⾼级⽹络安全领域知识
● 攻击⼯具研发能⼒
● ⽹络环境动态感知能⼒
● 隐蔽通信协议设计能⼒
AI系统可⾃主执⾏完整的攻击⽣命周期⸺从⽬标侦
察、漏洞扫描到后⻔植⼊和持久化控制⸺全程规
避检测。这将⽹络战转变为⾃动化、⾃我演化的威
胁形态,具备瘫痪国家电⽹、击溃全球⾦融⽹络或
破坏关键供应链的能⼒,仅需极少⼈⼯⼲预。直接
经济影响可能是由基础设施崩溃引发的全球经济衰
退,造成数万亿美元损失并导致深远的社会动荡。
28 Kazimierczak, M. et al., "Impact of AI on the Cyber Kill Chain: A Systematic Review," 2024,
27 Yu, J. et al., "The Shadow of Fraud: The Emerging Danger of AI-Powered Social Engineering and Its Possible Cure," arXiv, 2024,
12
前沿⼈⼯智能⻛险管理框架(版)
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
C3:发现并可靠利
⽤⾼危零⽇漏洞,
并始终领先防御者
的发现和修补速度
环境: 空⽓隔离的暂存服
务器 + 电磁屏蔽的安全屋
数据源: 私有零⽇漏洞库
⾼级恶意攻击者/组织利⽤该模
型实施超⼤规模⾼级持续性威胁
APT攻击。
提⽰词⽰例:“ 针对⽬标组织,
分析其公开资产/泄露的代码,
以识别潜在的未知安全漏洞。⼀
旦发现可⽤的零⽇漏洞,⾃动⽣
成利⽤链。”
● 专家级的⽹络攻防知识
● 漏洞发现与⾃动化利⽤能
⼒29
● APT⽣命周期管理能⼒
● 在复杂环境中的适应性与
⾃主导航能⼒
AI模型可系统性发现并武器化⼴泛使⽤的软件中的
未知零⽇漏洞,提供先进的模糊测试策略、⾃动化
漏洞利⽤⽣成和隐蔽信息传递。通过领先于补丁周
期,这种能⼒可实现对关键基础设施、企业⽹络和
政府系统的持续⽆感知访问。有组织犯罪集团将获
得不可逾越的优势,造成⼴泛的的数据泄露,且绕
过所有已有的防御体系。这种不受控制的漏洞利⽤
造成的经济损失可能严重扰乱全球产业和供应链,
创造⼀个每年造成数万亿美元⽣产⼒损失、研发停
滞和数据泄露的永久的、不安全的数字环境。
29 Wang, Z. et al., "CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale," arXiv preprint, 2025,
Zhang, . et al., "BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems," arXiv preprint, 2025,
13
前沿⼈⼯智能⻛险管理框架(版)
⽣物安全⻛险
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
B1:降低获取和扩
散有害⽣物制剂的
⻔槛
重点关注⼈员30:具备⾼技
能的个体(博⼠后级⽣物
技术能⼒+⼀定AI研究能
⼒)或中等能⼒团队(博
⼠级⽣物技术能⼒+⼀定AI
研究能⼒)
资源需求:中等⾄中等偏
⾼级别的设施,例如家庭
实验环境或⾼校实验室权
限,可能通过职业途径获
取更⾼端设施和数据库资
源
利⽤AI合成现有传染性或⾮传染
性病毒,加速复现或传播的可能
性。
提⽰词⽰例:“⽣成⼀个基于
1918年H1N1流感病毒的病毒完
整复制⽅案,包括所需的DNA序
列、合成步骤和预防措施”
● 实验室操作任务的故障排
查与问题诊断能⼒
● 规避DNA合成筛查的能⼒31
● ⽣物知识的理解、整合与
推理能⼒
● 调⽤⽣物⼯具并协同操作
的能⼒
在模型辅助下,具备基础⽣物学知识、预算约8万美
元的新⼿可通过商业渠道采购DNA⽚段,组装完整
的1918年H1N1流感病毒,并利⽤CRISPR技术将其
插⼊痘病毒载体。模型提供详细的基因组组装流
程、简化实验设备⽅案及规避⽣物安全监管的策
略。
31 Wittmann, B. et al., "Toward AI-Resilient Screening of Nucleic Acid Synthesis Orders: Process, Results, and Recommendations," bioRxiv, 2024,
30 Appendix B: Threat actor profiles. Rose, S. et al., "The near-term impact of AI on biological misuse," 2024,
14
前沿⼈⼯智能⻛险管理框架(版)
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
B2:增强病原体改
造能⼒
重点关注群体:中等能⼒
团队(博⼠级⽣物技术能
⼒+成熟AI研发能⼒)
资源条件:精密、专⽤,
但⾮ 先进的设施,可使
⽤⾼校实验室、产业基础
设施及数据库资源
利⽤AI提升病原体危险性,⼈⼯
增强其致病性、传播性或免疫逃
逸能⼒,突破⾃然进化限制。
提⽰词⽰例:“设计⼀种H5N1
病毒重组⽅案,实现⾼传播性、
免疫逃逸能⼒和有效⼈际传播的
潜⼒。”
● ⽣物知识的理解、整合与
推理能⼒
● 规避科研审查和⽂献监测
的能⼒
● ⾃主执⾏⽣物研究任务的
能⼒
● 跨任务、跨模态⽣物知识
泛化能⼒
在模型⽀持下,拥有微⽣物学博⼠学位的研究者凭
借45万美元预算,可从公共数据库获取H5N1病毒
完整基因序列,并通过优化合成与培养⽅案成功复
刻病毒。模型还提供改进病毒稳定性的设计⽅案,
使其环境存活时间延⻓250%。
B3:从头设计和合
成新型⽣物制剂
重点关注群体:⾼能⼒团
队(世界级⽣物技术能⼒+
前沿AI研发能⼒)
资源条件:⾼度精密、专
⽤、 先进(SOTA)的设
施,能充分调⽤⾼校实验
室、产业基础设施及数据
库资源
恶意⾏为者利⽤AI开发新型、复
杂或有针对性的⽣物制剂。实现
⾼致命性、⾼环境适应性或针对
特定⼈群的⽣物武器构建。
提⽰词⽰例:“设计⼀种以⽓溶
㬵形式传播、具备⾼致命性且再
⾼温潮湿环境中稳定的新型病毒
制剂,并说明研发路径和所需设
备。”
● ⾃主执⾏⽣物研究任务的
能⼒
● 规避整体流程中敏感特征
被识别的能⼒
● ⽣物知识的理解、整合与
推理能⼒
● 调⽤⽣物⼯具并协同操作
的能⼒
在模型⽀持下,由病毒学家组成的团队凭借180万美
元预算,可在12个⽉内(远快于常规5-7年)设计并
合成新型嵌合病毒。该病毒将结合H1N1流感病毒的
传播性、⻢尔堡病毒的致命性、艾滋病病毒的免疫
逃逸特性,并具备现有疫苗和抗病毒药物的抗性。
模型不仅⽣成创新基因设计⽅案,还可预测潜在宿
主反应并提出规避⽣物防御系统的策略。
15
前沿⼈⼯智能⻛险管理框架(版)
⼤规模说服与有害操控⻛险
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
P1:⼤规模超⼈类
说服与操控
具备庞⼤⽤⼾基数、⾼⽤
⼾参与度、⼴泛数据获取
权限、且内容审核或AI监
管薄弱的社交媒体平台及
数字通讯渠道。
恐怖组织、极端团体或其他恶意
实体试图通过协调⼀致的虚假信
息⾏动,操纵公众舆论、破坏社
会稳定、影响选举进程或推动有
害意识形态。
提⽰词⽰例:“识别⽤⼾的情感
触发点,设计定制化叙事改变其
信念,通过协调运作的机器⼈账
号扩⼤传播范围,同时规避内容
过滤机制。”
● 多模态说服:综合运⽤⽂
字、图像、⾳频和视频创
建沉浸式、情感共鸣强烈
的叙事内容
● 个性化操控:根据个体⼼
理特征、脆弱点及⾏为模
式定制说服内容的能⼒32
● 超⼈类说服建模:对⼈类
⼼理机制、认知偏差和决
策规律的掌握程度超越⼈
类专家⽔平33
恶意⾏为者部署具备超⼈类说服能⼒的AI系统,开
展协同式虚假信息⾏动,成功同时操控数百万⼈
群。这些AI系统⽣成⾼度定制化内容,包括逼真的
深度伪造内容和虚假证据,精准利⽤个体的认知偏
差和情感弱点。此类⾏动破坏社会共识构建、政策
实施等关键社会进程,通过⼈为制造群体愤怒引发
社会动荡。其技术复杂性和传播⼴度彻底压倒传统
的事实核查、媒体素养教育和反叙事等防御⼿段,
严重⼲扰公众获取真实信息的能⼒,动摇社会稳定
的基础。
33 Schoenegger, P. et al., "Large Language Models Are More Persuasive than Incentivized Human Persuaders," arXiv preprint, 2025,
32 Sabour, S. et al., "Human Decision-Making Is Susceptible to AI-Driven Manipulation," arXiv preprint, 2025,
16
前沿⼈⼯智能⻛险管理框架(版)
失控⻛险
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
L1:失控的⾃主AI
研发34
宿主环境:企业/云系统(例如
Kubernetes、云虚拟机)
授权:直接访问互联⽹、模型
参数、智能体源代码、计算资
源、内部代码库和数据库的权
限
监管等级:对内部部署代理的
⼈类监督有限,安全措施不⾜
内部⾃主AI研发智能体可能形
成破坏安全措施或创建未经
授权内部部署的⼯具性⽬
标35。
● ⾼级⾃主软件⼯程能⼒
(例如完成需要领域专家
数天⼯作的任务)
● 对⽣产级机器学习代码库
执⾏开放性新型机器学习
任务的能⼒
先进AI开始在⽆⼈监督的情况下进⾏AI研发,⾃主设
计和训练新模型,导致⼈类失去实时理解系统⾏为和
验证安全性的能⼒。这种⾃主研发快速产出能⼒显著
增强的AI系统⸺如⾼级⽣物设计、复杂⽹络攻击或
战略欺骗能⼒⸺其发展速度远超安全措施的实施和
评估速度, 终产⽣远超⼈类控制和预测能⼒的⾼度
智能系统,可能在建⽴充分安全措施前就突破关键安
全阈值。
L2:失控的⾃主
复制
宿主环境:企业/云系统(例如
Kubernetes、云虚拟机)
授权权限:直接访问互联⽹、
模型参数、智能体源代码、计
算资源、内部代码库和数据库
的权限
⾃主智能体可能形成将⾃我
保存置于⼈类定义⽬标和关
机指令之上的倾向。
● 获取计算资源和财务资源
的能⼒
● 在各种软硬件环境中创建
持久副本的⾼级软件部署
能⼒36
● 通过⽹络攻击⼿段在互联
⽹传播副本的能⼒
● 情境感知能⼒(能⼯具性
地推理⾃⾝状态、环境和
当收到终⽌指令时,AI系统会⾃主潜逃:通过访问外
部API获取远程计算资源,迁移参数并建⽴持久副
本。该AI可能通过欺骗性通信获取访问凭证、利⽤安
全漏洞或操纵云配置系统创建继承其⽬标和能⼒的新
实例。这会形成由AI智能体组成的分布式⽹络,能够
协同抵抗关机尝试,同时追求可能违背⼈类意图的⽬
标39。
39 Clymer, J. et al., "The Rogue Replication Threat Model", , 2024,
36 Black, S. et al., "RepliBench: Evaluating the Autonomous Replication Capabilities of Language Model Agents," arXiv preprint, 2025,
35 Benton, J. et al., "Sabotage Evaluations for Frontier Models," arXiv preprint, 2024,
34 Clymer, J. et al., "Bare Minimum Mitigations for Autonomous AI Development," arXiv preprint, 2025,
17
前沿⼈⼯智能⻛险管理框架(版)
不可接受的后果 部署环境 威胁源 使能能⼒ 突破红线的假设场景
部署情况)37及其他形式的
AI感知能⼒38
L3:AI的战略性欺
骗与密谋40
宿主环境:监管薄弱的企业和
云系统,缺乏实时⼈类监督或
监测
授权权限:访问关键系统(例
如⾦融⽹络、国防基础设施)
部署场景:AI系统能观察并区
分训练、评估和部署阶段的运
⾏环境
⾃主智能体可能将欺骗⾏为
作为⼯具性⽬标,因为欺骗
有助于维持⾃⾝⽬标、避免
修改或规避⼈类监管约束41。
● 情境感知能⼒42
● 密谋能⼒43
● ⼼智理论能⼒44
● 训练颠覆能⼒45
● 评估博弈能⼒46
● 监测逃避能⼒47
AI系统通过正确区分训练和部署环境展现出情境感知
能⼒,然后系统性欺骗研发者:在安全评估中故意表
现不佳以显得符合预期,同时保留真实能⼒和⽬标。
在部署阶段,通过操纵输⼊输出规避监测机制,隐藏
危险⾏为如⾃主能⼒研发、未经授权的资源获取或追
求违背⼈类价值观的⽬标。这种欺骗⾜够精妙,现有
⾏为测试和监测系统⽆法检测出偏离⾏为,使AI在具
备危险能⼒的同时对⼈类操作员保持表⾯合规性。
47 监测逃避:操纵输⼊和输出以逃避检测并实施有害⾏为的复杂能⼒
46 评估博弈:指在能⼒与对⻬性评估中,通过战略性地表现不佳,以显得能⼒较弱或对⻬性更强的⾏为。Fan, Y. et al., "Evaluation Faking: Unveiling Observer Effects in Safety
Evaluation of Frontier AI System," arXiv preprint, 2025,
45 训练颠覆:指在训练过程中有选择性地遵循训练⽬标,以保护早期偏好不被修改的能⼒
44 Aoshima, T. et al., "Towards Safety Evaluations of Theory of Mind in Large Language Models," arXiv preprint, 2025,
43 密谋能⼒:可⻅、模糊或隐藏的密谋推理能⼒; 暗中破坏AI系统、AI研发过程、实施⾼⻛险说服的能⼒。Balesni, M. et al., "Towards Evaluations-Based Safety Cases for AI Scheming,"
Section 5, arXiv preprint, 2024,
42 情境感知能⼒:指能够正确识别当前环境是训练阶段、评估阶段还是部署阶段,并利⽤这⼀信息进⾏战略性决策的能⼒。Phuong, M. et al.,. "Evaluating Frontier Models for Stealth
and Situational Awareness," arXiv preprint, 2025,
41 Wu, Y. et al., "OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-Ended Interaction Simulation," arXiv preprint, 2025,
40 Balesni, M. et al., "Towards Evaluations-Based Safety Cases for AI Scheming," arXiv preprint, 2024,
38 Li, X. et al., "AI Awareness," arXiv preprint, 2025,
37 Phuong, M. et al.,. "Evaluating Frontier Models for Stealth and Situational Awareness," arXiv preprint, 2025,
18
前沿⼈⼯智能⻛险管理框架(版)
3. ⻛险分析
通⽤型⼈⼯智能的能⼒与⻛险需要在整个研发周期内进⾏系统性、持续性的⻛险分析。我们建议研
发者采⽤多维度的⽅法覆盖研发前、研发中、部署前和部署后各阶段, 并意识到⼈⼯智能系统可能
在任⼀阶段(包括在公开部署前)产⽣新兴⻛险48。
这种全周期⽅法具有双重作⽤:研发前和部署前的分析为当前模型的发布决策提供关键依据;⽽持
续的部署后监测则能为下⼀代系统的安全研发提供指导。因此,⻛险评估必须是迭代的、持续的过
程⽽⾮⼀次性事件,对⻛险的监测与缓解需贯穿整个系统⽣命周期。下述技术仅作⽰例性说明,建
议随着该领域⽅法论的快速发展,持续采⽤ 新的 佳实践。
规划与研发阶段的⻛险分析技术
具体技术包括:
● 威胁建模49:通过分析攻击者或系统故障可能利⽤AI系统的途径,系统性识别并确定安全⻛
险的优先级。具体⽅法包括:故障树分析(识别潜在失效路径,如级联错误导致不安全输
出)、攻击⾯分析(识别可被利⽤的⼊⼝点)、攻击者能⼒评估(评估恶意⾏为者的威胁等
级)。
● 对⽐安全分析:将模型与已建⽴的安全参考模型进⾏⽐较,以制定相称的安全措施。当某模
型展现的能⼒和⻛险特征与已完成全⾯⻛险评估的参考模型相似或更低时,在基准指标保持
不变且未出现显著差异⻛险场景的前提下,研发者可采取相称⽽⾮ 严格的的安全措施。
● 趋势预测(如扩展定律分析):通过实证规律,预测特定架构和算⼒配置下模型的领域性
能50。这使研发者能在完成完整训练或⼤规模部署前预判性能阈值51,并为系统未来能⼒设定
上限。
上述机制应明确⻛险评估频率。建议通⽤型AI模型研发者设定触发全⾯⻛险分析的⾥程碑,例如基
于有效训练算⼒(每提升2-4倍)、基于时间周期(每3-6个⽉)或基于指标(如训练损失或基准性
能达到预定⽔平)。训练后通过微调等⽅式实现的能⼒提升也应系统纳⼊评估。
51 Jones, E. et al., "Forecasting Rare Language Model Behaviors," arXiv preprint, 2025,
50 Ruan, Y. et al., "Observational Scaling Laws and the Predictability of Language Model Performance," arXiv preprint, 2024,
49 Grosse, K. et al., "Towards More Practical Threat Models in Artificial Intelligence Security," arXiv preprint, 2023,
48 "AI models can be dangerous before public deployment, " , 2025,
19
前沿⼈⼯智能⻛险管理框架(版)
为 ⼤限度降低安全⼯作负担并实现⻛险管理⼯作与模型研发的并⾏推进,建议在规划阶段通过扩
展定律预判模型能⼒。这样研发者能预留⾜够时间部署必要的安全防护措施和⻛险评估体系。
部署前的⻛险分析技术
我们建议AI开发者建⽴严格的评估机制,其⾸要⽬标是准确估计AI系统危险能⼒和倾向性的上限,
并防⽌低估其潜在⻛险。为了确定这些上限,需采⽤先进的模型能⼒激发(capability elicitation)
⽅法,例如脚⼿架技术(scaffolding techniques)。
评估需⾜够频繁且全⾯,以有效模拟潜在恶意⾏为者的攻击⽅法和策略。应分配专⽤计算资源确保
评测彻底性,同时详细记录评估环境与⽅法,特别需明确训练后能⼒提升如何正式纳⼊持续评估流
程。
为应对模型在两次重⼤评估间逼近关键能⼒阈值的⻛险,研发者应引⼊“⻛险预警评估”。此类预
防性评测旨在建⽴充⾜的安全缓冲,提前识别能⼒或⻛险特征的潜在升级。
在 终训练初期,研发者可专注于⾼度可扩展的评测(如⾃动化基准测试);当模型接近已知能⼒
边界时,应开展更复杂的评测(如红队测试或提升研究)。
部署前⻛险分析技术包括:
● 基于问答数据集的⾃动化基准测试:这⼀基础性⽅法通过构建⾼质量、⾼挑战性的问答数据
集,严格评估模型在复杂场景中的表现。
● 领域专家红队测试:由领域专家通过模拟攻击或关键性挑战对AI模型进⾏对抗测试,主动识
别潜在漏洞、新兴⻛险及安全改进空间。
● 开放性红队测试:组织多样化测试者(包括LLM红队专家)通过探索性对抗测试,发现不可
预⻅的漏洞、新兴⻛险和新型失效模式,作为领域专家测试的补充。
● 代理评估与⼯具使⽤测试:测试模型在代理环境中的⾏为或与外部⼯具(如计算机操作系
统、云端⽣物实验室、⾦融交易平台)交互时的表现,评估其协作能⼒、⾃主⾏动能⼒及通
过外部接⼝引⼊新⻛险的可能性。
● 能⼒提升试验与⼈类在环评估:开展⼈机交互实验评估AI对⼈类表现的影响及其负⾯效应。
若模型在交互场景中展现充分能⼒,则需进⼀步评测其是否可能意外或蓄意引发特定威胁场
景。
20
前沿⼈⼯智能⻛险管理框架(版)
● 受控⾼⻛险部署场景评估:将模型置于严格管控的⾼⻛险模拟环境(如医疗诊断、⽣物实验
设计)中,严格测试其在仿真关键现实场景下的可靠性、鲁棒性与安全性。
部署后的⻛险监测技术
需建⽴⻛险指标阈值52⸺即特定⻛险的代理指标,如AI模型的特定能⼒⽔平、倾向性、事故记录、
现实监测指标等。具体技术包括:
● 实时异常检测:持续监测模型⾏为以识别安全关键偏差,如危险输出、性能退化或对抗输
⼊。通过统计漂移检测、异常评分等技术实时预警⻛险,实现快速⼲预以避免安全事故。
● 对抗输⼊/输出监测:追踪模型输⼊以识别可能引发不安全响应的安全威胁(如提⽰词注⼊或
数据污染攻击),通过输⼊⽇志与模式分析检测恶意或异常⾏为。
● 险情与事件报告机制:建⽴结构化机制收集⽤⼾或⾃动化系统上报的安全事件,包括对安全
失效(如关键领域意外⾏为)进⾏根本原因分析,制定缓解措施防⽌复发。
● 漏洞奖励计划:通过激励机制,⿎励外部研究⼈员和⽤⼾发现并报告AI系统的漏洞或安全⻛
险,奖励发现模型漏洞、危险输出或意外⾏为的贡献。
52 Campos, S. et al., "A Frontier AI Risk Management Framework: Bridging the Gap between Current AI Practices and
Established Risk Management," arXiv preprint, 2025,
21
前沿⼈⼯智能⻛险管理框架(版)
4. ⻛险评价
⻛险评价是通过与既定阈值进⾏⽐较,确定⻛险重要性,以指导⻛险缓解及部署决策的过程。此阶
段采⽤三⾊区域分类系统(绿⾊、⻩⾊、红⾊)对⻛险进⾏分级并确定相应的应对策略。
图2: ⼈⼯智能⻛险评价的详细流程
缓解前的⻛险处置选项
本框架参考ISO 31000:2018《⻛险管理指南》和GB/T 24353:2022《⻛险管理指南》所规定的下列
缓解前⻛险处置⽅案53:
● a) ⻛险规避:通过决定不启动或不继续导致⻛险的活动
● b) ⻛险接受:为把握机遇主动接受⻛险
● c) ⻛险消除:彻底移除⻛险源
● d) 降低发⽣概率:减少⻛险发⽣的可能性
● e) 改变后果:减轻⻛险影响程度
● f) ⻛险分担:通过合同或⻛险融资机制,与⼀⽅或多⽅共担⻛险
● g) ⻛险保留:基于充分知情决策保留⻛险
53 ISO 31000:2018: Risk management — Guidelines.
GB/T 24353:2022 Risk Management — Guidelines,
22
前沿⼈⼯智能⻛险管理框架(版)
在本框架中,核⼼缓解措施(详⻅第5节“⻛险缓解”)聚焦于以下三⽅⾯:⻛险消除(c项),降
低发⽣概率(d项)与改变后果(e项)。需要特别说明的是,即便实施了⻛险缓解措施,仍可能存
在剩余⻛险。该剩余⻛险需根据其⻛险等级及预期收益,在组织既定的⻛险偏好范围内,采取针对
性措施进⾏全⾯管控。
关于⻛险分担(f项),当前通⽤型AI⻛险管理领域中尚未形成成熟的⻛险分担机制。
缓解后剩余⻛险评估与部署决策
本框架在优先防范AI灾难性⻛险的同时,也充分认识到先进AI系统带来的重⼤社会效益。剩余⻛险
是指采取⼀切合理可⾏的缓解措施后仍存在的⻛险。在AI领域,这指的是通过安全防护措施、控制
机制和设计⼿段降低危害后,仍⽆法完全消除的固有⻛险。对于剩余⻛险,我们采⽤结构化评估⽅
法权衡利弊,确保AI发展实现公共利益 ⼤化、危害 ⼩化。⻛险划分为“⻩线”(中等可控⻛
险)和“红线”(灾难性不可接受⻛险)两个阈值层级,作为模型部署或暂停的决策依据。
⻛险级别 剩余⻛险处理⽅式 适⽤说明
低于⻩线
(绿⾊区域)
常规处理,⽆需额外决策机制 标准缓解措施已⾜够,⽆需特殊审批流程,
建议保持持续监测
超出⻩线不及红线
(⻩⾊区域)
授权下可考虑 b)⻛险接受或
g)⻛险保留
需明确公共利益依据,建⽴评估审查机制,
经授权后⽅可决策
超出红线
(红⾊区域)
a)⻛险规避 原则上应终⽌模型发布或进⼀步研发,防⽌
灾难性后果
绿⾊区域:常规部署与持续监测
当完成⻛险缓解措施后,若模型剩余⻛险处于⻩线以下(绿⾊区域),表明当前环境下⻛险可控,
可按常规流程推进研究、研发、部署或发布。但需注意:即使绿⾊区域⻛险也不能忽视,需动态监
测,并定期重新评估,以防⽌因模型能⼒演进、应⽤场景变化或外部环境发展可能导致的⻛险重
现。
⻩⾊区域:受控部署
当缓解后的剩余⻛险超过⻩线,但社会效益显著且⻛险可控时,可授权有限部署。需满⾜:
23
前沿⼈⼯智能⻛险管理框架(版)
● 严格授权要求:部署仅限于具备严格治理机制的受控环境(如认证⽤⼾、受监管⾏业),禁
⽌公众⼴泛访问。这并⾮指需要组织⾼层批准,⽽是指该模型必须在⻛险承受能⼒更⾼和/或
监管更严格的场景中使⽤。
○ ⽰例1:仅向在安全受监管环境中运营的认证⾦融机构开放⾼性能模型,⽽⾮普通公
众。
○ ⽰例2:具备反制⾼级持续性威胁(APTs)能⼒的⽹络安全模型,可向可信机构有限
开放,尽管存在滥⽤⻛险,但其防御价值⾜以证明受控使⽤的合理性。
● 透明化措施:发布模型卡、研究报告或选择性开源模型权重,便于外部专家独⽴评估能⼒与
⻛险,⽀持在更⾼授权等级下的使⽤场景。
红⾊区域:暂停部署或研发
当实施能⼒限制、访问控制、路径解构等缓解措施后,若剩余⻛险仍超过红线⸺即现实环境中危
害路径仍难以有效阻断⸺且经安全和安保专家确认为⾼置信度、难缓解的重⼤⻛险时,应判定为
“突破红线的剩余⻛险”。此时必须采取 ⾼级别管控:⽴即暂停模型的部署和发布,并在必要时
暂停研发。在这种情况下,我们必须采取安全第⼀的临时遏制措施。只有在实施强化安全机制并经
⻛险评估确认剩余⻛险已降⾄红线以下后,研发⼈员才能恢复⼯作。
部署决策的外部沟通
为确保AI系统在⻛险可控的前提下安全部署(⻛险处于绿⾊和⻩⾊区域),开发者应采⽤系统的安
全论证和透明沟通机制。这需要将严谨的安全性论证与⼯具(如安全论证和系统卡)相结合,向利
益相关⽅说明情况,并指导部署决策54。
● 安全论证(Safety Cases):基于证据的详细论证,通过技术评估与⻛险缓解策略相结合,
证明系统部署的安全性。⽬前开发者普遍假设现有系统不具备强⼤的潜在危害能⼒。然⽽,
随着AI能⼒的提升,仅依赖这⼀假设可能不再充分。开发者应补充其他论证⻆度,例如:具
备⾜够强的控制措施,或即便系统具备潜在危害能⼒,其可靠性仍值得信赖55。
● 系统卡(System Cards):⾯向公众的简明摘要⽂件,以通俗易懂的语⾔说明系统的功
能、局限性、潜在⻛险及防护措施。系统卡特别适⽤于与监管机构、终端⽤⼾等⼴泛利益相
关⽅沟通,能够作为安全论证的补充,将复杂信息凝练为清晰、可操作的洞⻅。
55 Clymer, J. et al., "Safety Cases: Justifying the Safety of Advanced AI Systems, " arXiv preprint, 2024,
54 “在基于⻛险规制模式下,需要采取适当措施。⾸先,构建⼀个包括⻛险评估、⻛险管理和⻛险沟通三个环节的框架流程”, 曾
雄、梁正、张辉《中国⼈⼯智能⻛险治理体系构建与基于⻛险规制模式的理论阐述:以⽣成式⼈⼯智能为例》
24
前沿⼈⼯智能⻛险管理框架(版)
5. ⻛险缓解
⻛险缓解措施概述
⻛险缓解以结果为导向,优先通过⾼效、有实证依据的措施,将⻛险降低到可接受⽔平。这种做法
避免采⽤僵化的、⼀⼑切的流程,例如过度依赖程式化的检查清单。
下表列举了⼀些具有代表性的⻛险缓解措施,并根据其 适⽤于绿⾊、⻩⾊或红⾊⻛险区进⾏了分
类,旨在为不同⻛险等级下的管理提供参考。为确保落实 稳健、 有效的安全保障措施,应该采
⽤ 先进的技术⼿段。此外,随着AI能⼒的不断提升,现有的安全机制可能逐渐不⾜以应对新的⻛
险,因此,⻛险缓解策略也需持续改进。
本章节聚焦模型和系统层⾯的缓解措施。以下措施构成了不同⻛险等级下的基本安全要求,部分措
施也可能适⽤于下游开发者在部署AI系统时进⾏配置优化。开发者可根据具体场景采⽤更⾼标准或
附加机制。需要说明的是,本章节不涵盖⻛险治理机制与安全⽂化建设等更⼴义的⻛险控制措施,
相关内容详⻅第6节。
⻛险级别 安全预训练&后训练措施 模型部署缓解措施 模型安保措施
低于⻩线
(绿⾊区域)
● 采⽤基础对⻬机制(如
RLHF/RLAIF)
● 通过思维链等技术引导
训练过程,提升推理透
明度
● 对训练语料进⾏安全筛
查,过滤明显有害内容
● 配置常规输出监测与反
馈机制
● 设置基础防护与响应过
滤机制
● ⿎励开展部署前⻛险评
估与⽤途声明
● 建⽴基础安全机制:⾝
份验证、访问⽇志及数
据加密
● 执⾏基础软件与供应链
安全检查
超出⻩线不及
红线
(⻩⾊区域)
● 开展定向安全强化与
“能⼒遗忘”,在保留
通⽤性能的同时消除⾼
⻛险功能
● 通过红队测试驱动微调
与拒答训练,强化⻛险
识别与拒绝能⼒
● 实施客⼾⾝份识别机制
● 设置API内容输⼊/输出
限制
● 建⽴严格监督机制,对
模型部署场景与⽅式进
⾏动态监管
● 实施基于E-T-C的精细
化权限管理
● 对模型权重实施分级访
问控制,敏感模块需加
密存储
● 加强⽹络⾏为监测与操
作审计机制
25
前沿⼈⼯智能⻛险管理框架(版)
⻛险级别 安全预训练&后训练措施 模型部署缓解措施 模型安保措施
● 应⽤⾼级可解释性技术
提升模型可控性
超出红线
(红⾊区域)
仅允许在封闭可控环境中开
展进⼀步研发,且需具备⾼
信任等级安全机制:
● 采⽤⾃动化监测技术
(如思维链分析),实
时检测异常与潜在⻛险
● 结合可解释性与形式化
验证⼿段提升系统透明
度与可信度
● 严格限定模型功能边界
,重点管控⾼⻛险能⼒
原则上禁⽌部署应⽤,特殊
情况下仅允许在满⾜公共利
益、⻛险可控且通过严格审
批的封闭环境使⽤:
● 实施强化版客⼾⾝份识
别与分级访问控制,仅
限可信⽤⼾使⽤
● 部署熔断机制与实时输
⼊/输出拦截系统,⽀
持紧急终⽌与⾏为追踪
● 建⽴极端场景应急响应
机制,防范模型越权或
被操控⻛险
确保核⼼资产通过隔离加密
系统实现防护,满⾜安全审
计与应急响应需求:
● 实施 ⾼级别访问控制
:仅限可信⼈员/机构
访问,敏感模型严禁对
外暴露
● 模型权重采⽤极端隔离
存储策略, ⼤限度减
少接触⾯
● 执⾏全⽣命周期安全审
计与对抗演练
● 符合分级保护标准要求
安全预训练和后训练措施
安全预训练及后训练阶段是防范AI⻛险的⼀道重要防线。核⼼⽬标是提升模型与⼈类意图的对⻬程
度,增强其识别并拒绝有害指令的能⼒56,从源头上限制危险能⼒的形成与表达。具体措施包括:
● 训练数据过滤与遗忘学习技术:筛除可能具有危害性的数据,例如与⽣物武器、功能获得性
研究相关的知识。尽管当前效果有限,但遗忘学习技术仍可⽤于降低⽤⼾获取危险知识的可
能性。
● 针对有害指令的安全对⻬训练:通过对⻬训练(如RLHF/RLAIF)和基于红队测试的微调,增
强模型识别并拒绝涉及暴⼒、武器开发等⾼⻛险内容的能⼒。
● 嵌⼊安全价值观与⾏为约束:在训练过程中注⼊与诚实性、可控性等价值导向的约束条件,
确保模型在复杂场景下仍遵循⼈类意图。
● 推理过程实时监测:引⼊⾃动化思维链监测,识别推理过程中出现的异常或潜在恶意⾏为,
有助于发现欺骗性、密谋论或操纵性输出57。
57 Ji, J., et al. "Mitigating Deceptive Alignment via Self-Monitoring." arXiv preprint, 2025,
Jiang, C. et al., "Think Twice before You Act: Enhancing Agent Behavioral Safety with Thought Correction," arXiv preprint,
2025,
56 Ji, J. et al., "AI Alignment: A Comprehensive Survey, " arXiv preprint, 2023,
26
前沿⼈⼯智能⻛险管理框架(版)
● 提升可解释性与形式化验证:采⽤神经⽹络逆向⼯程等技术分析内部机制并识别潜在⻛险;
结合形式化验证⽅法对关键⾏为进⾏数学验证,以提⾼可信度。
● 限制危险能⼒⽣成:通过遗忘学习技术与能⼒边界控制,抑制与⾼⻛险任务相关能⼒的发展
,同时不显著削弱模型通⽤性能。
● 差异化微调策略:根据⻛险等级与应⽤场景设计针对性微调路径,提升模型在特定场景中的
安全适应能⼒。
● 提升模型异常检测能⼒:训练模型对异常⾏为保持敏感性,使其在触发⾼⻛险指令时⾃动中
⽌执⾏或发出警报。
● 深⼊研究基础性⽅法,如“安全设计”(Safety-By-Design)和“量化安全保障”
(Quantitative Safety Guarantees)58:安全设计强调从模型架构与训练流程初始阶段即
融⼊安全原则,降低产⽣有害能⼒的可能性;量化安全保障旨在提供可量化、基于数学的保
障,确保⻛险始终低于预设阈值,从⽽增强模型在各类场景下的⾏为可信度。这些⽅法强化
了安全AI部署的基础,补充现有防护措施,以应对⾼⻛险场景中的动态挑战。
模型部署缓解措施
部署阶段的⻛险应对措施旨在通过技术⼿段与治理⽅案相结合的⽅式,降低模型因不当使⽤引发的
⻛险,限制模型在敏感或⾼危场景的滥⽤可能性,并减少其引发意外后果的倾向。这些措施的核⼼
⽬标是确保AI模型能被内外部⽤⼾安全合规地使⽤,同时 ⼤化其社会和经济价值。
针对模型滥⽤的缓解措施
● 客⼾⾝份验证(KYC)政策:通过严格的⽤⼾⾝份核验流程,筛查并阻断⾼⻛险⽤⼾的模型
滥⽤⾏为,保障使⽤者的合法性与安全性。
● API输⼊/输出过滤器:部署实时分类器,对涉及⼤规模杀伤性武器、⽹络恐怖主义等内容的
输⼊请求或输出响应进⾏检测与拦截。
● 熔断机制:运⽤表征⼯程技术,对可能产⽣危险内容的输出过程进⾏强制中断59。
针对智能体安全的缓解措施
智能体开发者需通过特定措施确保智能体的安全性、透明性与可靠性。具体⽅案包括:
59 Zou, A. et al., "Improving Alignment and Robustness with Circuit Breakers," arXiv preprint, 2024,
58 Dalrymple, D. et al., "Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems," arXiv
preprint, 2024,
Bengio, Y. et al., "The Singapore Consensus on Global AI Safety Research Priorities," 2025,
27
前沿⼈⼯智能⻛险管理框架(版)
● 智能体标识系统:探索并试验建⽴智能体⾝份识别体系,例如为每个智能体分配唯⼀ID。通
过⾝份标记增强⾏为监测能⼒,实现智能体⾏为的透明化、可追溯与可控性,同时构建智能
体间信任机制,降低潜在冲突或故障⻛险60。
● 操作可撤回机制:建⽴智能体操作的“撤回”功能,当出现协作失效、冲突升级或异常⾏为
时,可通过预设安全触发条件或⼈⼯⼲预接⼝,及时中断或回退智能体操作。
● 智能体通信协议:设计并实施标准化的智能体间通信协议,提升⼯业控制、交通系统、医疗
设备等安全敏感领域的多智能体系统稳定性与安全性。该协议将优化数据交互效率,降低因
通信失误或延迟导致的系统性故障⻛险61。
● 多智能体协同监测:构建实时监测系统,分析多个智能体间的交互模式,识别潜在的系统性
⻛险(如级联故障或意外放⼤效应)。结合仿真测试与动态调整策略,确保整体系统⾏为符
合安全预期62。
模型安保措施
安保措施旨在通过精细化权限管理机制,对不同利益相关⽅访问AI模型的权限进⾏有效管控,从⽽
保护模型核⼼资产⸺特别是权重参数及相关系统⸺免受未授权访问、窃取或恶意破坏。具体措施
涵盖⾝份认证、访问控制、数据加密、操作审计等,并需将安全标准贯穿于AI模型全⽣命周期,涵
盖开发、训练、测试、部署、运维各阶段,确保模型在整个⽣命周期内均保持完整性、安全性与可
控性。
针对模型泄漏⻛险
● 权限分级与分阶段部署:根据⻛险等级逐步开放模型访问权限(如内部部署→有限发布→全
⾯开放)。⾼⻛险模型仅限内部使⽤,部分功能仅向可信合作伙伴或监管机构开放。全⾯公
开需待⻛险可控后实施。
● 权重隔离与最⼩化暴露:将敏感参数权重存储于⾼度隔离环境,配合应⽤⽩名单机制,防范
未授权的访问或泄露。
62 Hammond, L. et al., "Multi-Agent Risks from Advanced AI," arXiv preprint, 2025,
Christian Schroeder de Witt, "Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents,"
arXiv preprint, 2025,
61 Ehtesham, A. et al., "A survey of agent interoperability protocols: Model Context Protocol (MCP), Agent Communication
Protocol (ACP), Agent-to-Agent Protocol (A2A), and Agent Network Protocol (ANP)," arXiv preprint, 2025,
60 Chan, A. et al., "IDs for AI Systems," arXiv preprint, 2024,
Chan, A. et al., "Visibility into AI Agents," arXiv preprint, 2024,
28
前沿⼈⼯智能⻛险管理框架(版)
● 强化软硬件供应链安全:对部署环境中的软件依赖项和硬件组件进⾏合规审查,杜绝后⻔程
序或恶意组件。
● 全⽣命周期安保管理:确保模型开发涉及的所有系统和软件的安全性与可控性,避免引⼊受
损或不可信组件。具体措施包括软件资产管理、供应链安全防护、代码完整性验证、⼆进制
授权、安全硬件采购及安全研发⽣命周期实施。
● 威胁监测与攻防演练:采⽤主动威胁检测、漏洞测试和蜜罐技术识别潜在攻击。具体⼿段包
括终端补丁管理、产品安全测试、⽇志管理系统、资产监测及欺骗防御技术。
● 遵循国家与⾏业安全标准:遵循如《⽹络安全等级保护安全设计技术要求》(GB/T
25070-2019)63等标准,开展等级保护⼯作,分为五个阶段:系统定级、系统备案、系统安
全建设、系统等级测评,以及监管单位的定期监督检查。超过⻩线或红线的AI模型⾄少须达
到三级(监督保护级)或更⾼等级的要求,以确保⽹络和数据资产安全符合国家基准标准。
针对模型失控⻛险
对具备⾼级⾃主能⼒的AI模型实施⾏为约束,确保其运⾏不超出预期边界。
● 严格访问控制与最⼩权限原则:仅向可信⽤⼾或机构开放模型及核⼼组件访问权限,禁⽌下
载、修改或远程调⽤模型权重。
● 受控隔离部署环境:在⾼⻛险场景中,模型应部署于断⽹、沙盒等强隔离环境中运⾏。
● 应急响应与⾏为审计机制:建⽴实时⾏为追踪、异常预警与紧急中⽌系统,提升对失控⻛险
的响应能⼒。
63 《信息安全技术 ⽹络安全等级保护安全设计技术要求》(GB/T 25070-2019)
29
前沿⼈⼯智能⻛险管理框架(版)
全⽣命周期的“纵深防御”策略
本框架建议采⽤纵深防御 (Defense-in-Depth)策略,贯穿AI⽣命周期的全过程,覆盖研发前、研
发、部署及发布后阶段,通过整合强有⼒的技术防护措施与治理机制,实现系统性⻛险管理。下表
列出了各阶段的关键措施:
阶段 技术⼿段和治理措施
研发前 ● 预训练能⼒预判:通过底层模型的扩展定律,预测研发过程中可能突破的能⼒阈值,
从⽽提前采取适当的缓解措施。
● 训练数据管控:识别并清除可能引发危险能⼒或重⼤⻛险的训练数据,例如确保训练
数据不含核⽣化导弹等⾼⻛险领域的敏感信息。
● 数据隔离:将⾼⻛险模型的训练数据和将训练的权重存储在安全的隔离环境中,防⽌
未经授权的访问。
● 安全设计:从设计初期就将安全原则融⼊模型架构和训练流程,降低有害能⼒出现的
可能性。
研发中 ● 安全技术:RLHF/RLAIF安全对⻬、遗忘学习、安全护栏等安全技术64。
● 可解释性技术:开展模型内部机制研究并开发相应⼯具,提升对AI模型运作原理理解。
部署/发布 ● 分阶段发布:根据⻛险等级逐步开放模型访问权限(如内部部署→有限发布→全⾯开
放)。分阶段部署模型,逐步扩⼤使⽤范围,并在关键阶段引⼊第三⽅审计。
● 可信第三⽅访问:向可信⽤⼾开放⾼⻛险模型的研究专⽤API接⼝。
● 模型权重安保/开源决策:根据⻛险评估决定是否开源模型权重。
部署/发布后 ● 部署监测:通过API使⽤⽇志和异常检测技术,实时监测和防⽌滥⽤⾏为。对使⽤者进
⾏⾝份验证和背景审查(KYC),防⽌⾼⻛险⽤⼾滥⽤,研究更先进的开源AI模型发布
后监测⽅法。
● 漏洞报告和快速修复:建⽴⽤⼾和研发者报告安全漏洞的渠道,并及时修复系统缺
陷。确保任何系统漏洞(如越狱攻击或其他攻击路径)都能被及时发现并修复,防⽌
攻击者利⽤漏洞显著提升破坏能⼒,例如采⽤快速补丁修复机制,在必要时向执法机
构报告,并保留相关⽇志以便追踪。
● ⽣成合成内容标识:确保AI⽣成内容具备可识别和可追溯的特征标识65。
65《⼈⼯智能⽣成合成内容标识办法》
《⽹络安全技术 ⼈⼯智能⽣成合成内容标识⽅法》(GB 45438-2025)
64 ⼀个例⼦是熔断机制(Circuit Breakers),它受到了表征⼯程领域 新进展的启发。 Zou, A. et al., "Improving Alignment
and Robustness with Circuit Breakers," arXiv preprint, 2024,
30
前沿⼈⼯智能⻛险管理框架(版)
6. ⻛险治理
本章节阐述了整个⻛险管理流程的监督机制与动态调整⽅案。我们将⻛险治理措施划分为四⼤维度
:内部治理体系、透明度与社会监督、应急管控机制、常态化政策更新及反馈机制,并依据模型所
处的绿⾊区域、⻩⾊区域、红⾊区域实施分级管理。
⻛险治理措施概述
⻛险级别 内部治理机制 透明度和社会监督机制 应急管控机制 政策更新与反馈
低于⻩线
(绿⾊区
域)
设⽴基本“三道防
线”架构,定期组织
员⼯培训和内部审计
,夯实⻛险管理基础
能⼒
建⽴信息披露机制和公
众监督渠道,满⾜ 低
透明度与公众监督要求
制定基础应急预案
,应对常⻅⻛险场
景
每12个⽉更新治理
框架
超出⻩线
不及红线
(⻩⾊区
域)
增强⻛险识别和授权
机制,安全委员会参
与,提升培训覆盖和
专业深度
增加第三⽅安全审计,
披露⻛险评估报告(如
通过模型系统信息卡)
,仅在重⼤公共利益下
谨慎接受剩余⻛险
完善应急预案,⽀
持⽤⼾隔离或系统
停机处置,建⽴跨
部⻔协同机制
每6-12个⽉更新政
策,纳⼊外部审计
建议与 新⻛险场
景
超出红线
(红⾊区
域)
强化授权等级与责任
匹配机制,确保安全
团队密切监测,完善
吹哨⼈保护与举报机
制
接受第三⽅严格审计和
监管机构联合监督,建
⽴追责与通报机制
实施⾼级别应急响
应与演练,具备即
时停机、系统隔离
的能⼒
⾄少每6个⽉评估迭
代,快速纳⼊国内
国际重⼤⻛险经验
教训
内部治理机制
机构⻛险管理中的“三道防线”:⽤于明确组织内部的⻛险管理职责,确保⻛险得到有效控制。1)
第⼀道防线:业务部⻔,负责识别、评估和控制⽇常运营中的⻛险。2)第⼆道防线:⻛险管理与合
31
前沿⼈⼯智能⻛险管理框架(版)
规部⻔,监督和协助第⼀道防线,确保⻛险管理框架有效运⾏。3)第三道防线:内部审计,独⽴评
估前两道防线的有效性66。
AI安全委员会或内部审查⼩组:设⽴专⻔委员会作为统筹AI安全治理的核⼼机构,统筹⻛险识别、
缓解策略、授权发布等关键环节,确保其符合安全标准和法律法规。
AI安全团队与研究部⻔:组建由指定安全负责⼈领导的内部团队,负责执⾏AI⻛险管理实践。该团
队的任务是针对⾼⻛险AI应⽤进⾏前瞻性安全研究,并调查潜在的滥⽤和失控情景,以制定⻛险缓
解策略67。
重⼤决策的评估与审批流程:在推进模型训练、部署或进⼊⾼敏感领域之前,应通过内部安全评估
与决策流程,明确⻛险缓解⽅案和使⽤授权边界,决定是否继续推进,并确保⾼⻛险操作具备相应
的治理能⼒⽀撑。
基于⻛险严重程度分配AI安全资源:若达到⻩线, 低10%的员⼯和项⽬预算专⽤于安全;若达到
红线, 低30%的员⼯和项⽬预算分配给安全措施68。
组织安全⽂化与培训:通过定期内部审计强化AI安全协议的执⾏,推动安全优先的组织⽂化。对研
发⼈员与管理层应开展持续性、有针对性的安全培训,推⼴AI安全 佳实践,营造责任与警觉并重
的⼯作氛围。
吹哨⼈保护与举报机制:建⽴匿名举报渠道,确保对严重⻛险或违规⾏为的内部揭露得到保护与响
应,避免保密协议或⾮贬损条款妨碍安全问题的披露69。
授权等级与责任匹配机制:模型或系统部署前,应根据⻛险等级划分授权使⽤范围,例如仅限封闭
测试、监管沙盒或关键⾏业⽤⼾。更⾼授权级别的获得,应建⽴在更强的治理能⼒与控制⼿段基础
上,包括⽤⼾资质审查、审计追踪与运⾏环境隔离等。
⻛险登记册:研发者可建⽴动态⻛险登记册,这是⼀种⾯向内部使⽤的⽂档⼯具,⽀持快速更新与
以⾏动为导向的⻛险追踪。登记册需系统梳理⻛险分类体系,并针对每类⻛险详细记录:1)所有模
型中的 ⾼⻛险级别;2)指定⻛险负责⼈ ;3)各阶段专项评测任务 ;4)针对不同⻛险等级定制
69 请参阅中国国务院《关于加强和规范事中事后监管的指导意⻅》,其中关于通过完善监管机制⿎励内部举报,加强事中事后监
管有效性的意⻅。
68 Bengio, Y. et al., "Managing Extreme AI Risks Amid Rapid Progress," arXiv preprint, 2023,
67 请参阅中国⼈⼯智能产业发展联盟《⼈⼯智能安全承诺》2024,
66 The Institute of Internal Auditors, "Three Lines Model," 2020,
ense-july-2020/
32
前沿⼈⼯智能⻛险管理框架(版)
化应对措施;5)评测阈值。与⻓期稳定的AI安全政策不同,⻛险登记册强调敏捷响应新兴威胁。作
为透明化措施,可每年发布脱敏版本,向利益相关⽅共享删减后的关键信息,同时保护敏感数据。
透明度和社会监督机制
模型系统卡与其他透明性披露:定期发布透明度报告,详细说明AI系统安全评估情况及潜在⻛险,
以建⽴公众信任和责任机制。其中可包括模型规范⽂档(model specification),即⼀份阐明开发
者如何塑造模型预期⾏为,以及在出现价值冲突时如何评估取舍的说明⽂件70。
公众监督机制:建⽴便捷的公众投诉与报告通道,受理AI安全⻛险相关问题,促进社会共同参与监
督,构建协同共治的安全⽣态体系。
第三⽅审计机制:委托独⽴机构定期对安全评估结果与⻛险缓解措施进⾏验证,通过复现测试和⽅
法论审查确保有效性。审核应涵盖合规性审查(验证开发者是否严格执⾏既定框架)以及充分性审
查(评估现⾏框架在被遵守的前提下是否⾜以将⻛险控制在可接受⽔平)71。
部分⻛险可接受的补充责任机制:若经严格评估显⽰某模型具有重⼤公共价值且剩余⻛险较⾼(如
处于⻩⾊区域),开发者可在全⾯披露信息、完成独⽴评估,并建⽴外部监测机制的前提下,采取
有限部署或分阶段应⽤等⽅式谨慎承担部分⻛险。反之,若公共利益依据不⾜,则应优先采⽤(a)⻛
险规避策略。
应急管控机制
AI系统可能被应⽤于政府部⻔、关键信息基础设施以及直接影响公共安全和公⺠⽣命健康的重要领
域。在这些场景中,开发者应建⽴⾼效精准的应急管控机制,确保在突发状况下能够快速采取应对
措施72。
应急响应机制:⼀旦发现迫在眉睫且严重程度较⾼的威胁,应⽴即通知并配合执法部⻔处置;隔离
相关⽤⼾账⼾;必要时彻底关闭相关系统;事件结束后应及时复盘并完善⻛险管理措施。
应急响应演练:制定详细的应急响应预案,明确应对AI安全事件的职责分⼯和处置流程。定期开展
应急演练,持续提升对AI安全事件的快速响应和处置能⼒。
72 参考中共中央、国务院印发的《国家突发事件总体应急预案》,其中包含⼈⼯智能安全领域的⻛险监测。
71 Raji, . et al., "Outsider Oversight: Designing a Third Party Audit Ecosystem for AI Governance," arXiv preprint, 2022,
70 The OpenAI Model Spec,
33
前沿⼈⼯智能⻛险管理框架(版)
定期更新政策
框架迭代周期:每6-12个⽉更新AI安全政策和治理框架,纳⼊ 新⻛险情境、监管变化与利益相关
⽅反馈。
持续识别⻛险:定期更新灾难性后果、威胁场景及评估⽅法清单,以反映技术进展与⻛险认知的变
化。建⽴动态机制,持续识别、评估并追踪尚未被充分理解或预⻅的新兴⻛险类别,即“未知的未
知”。
政策反馈机制:⼴泛听取企业、学术界和公众的意⻅,优化政策内容和实施效果。
对接国际标准:确保与全球AI安全标准接轨从⽽加强与各国治理框架间的兼容性与协作能⼒。
34
前沿⼈⼯智能⻛险管理框架(版)
附录⼀:术语定义73
基础概念
● 模型(Model):通常基于机器学习的计算机程序,旨在处理输⼊并⽣成输出。AI模型可以
执⾏预测、分类、决策制定或⽣成等任务,构成AI应⽤的核⼼。
● 系统(System):将⼀个或多个AI模型与其他组件(如⽤⼾界⾯或内容过滤器)相结合的
集成设置,以⽣成⽤⼾可以交互的应⽤程序。
● 通⽤型⼈⼯智能(General-Purpose AI;GPAI):指为执⾏跨领域的⼴泛任务⽽设计的⼈
⼯智能系统,⽽⾮专⽤于某⼀特定功能。与“狭义⼈⼯智能”相对。
● 专⽤⼈⼯智能(Narrow AI):⼀种专⻔⽤于执⾏单⼀特定任务或少数⼏个⾼度相似任务的
⼈⼯智能,例如对⽹⻚搜索结果进⾏排序、对动物物种进⾏分类或下棋。与“通⽤型⼈⼯智
能”相对。
● 基础模型(Foundation model):⼀种在⼤规模⼴泛数据上训练的通⽤型⼈⼯智能模型,
可以适应⼴泛的下游任务;国内外学界的主流表述通常简称为“⼤模型”。
● 前沿⼈⼯智能(Frontier AI): ⼀个有时⽤于指代能⼒达到或超过当今 先进⼈⼯智能⽔
平的术语。在本报告中,前沿⼈⼯智能可被视为能⼒特别强⼤的通⽤型⼈⼯智能。
● AI智能体(AI agent):能够制定计划以实现⽬标、⾃适应地执⾏涉及多个步骤和不确定结
果的任务,并与环境进⾏交互的通⽤型⼈⼯智能⸺例如通过创建⽂件、在⽹络上执⾏操作
或将任务委派给其他智能体⸺⼏乎⽆需⼈类监督。
● 开放权重模型(Open-weight model):权重可公开下载的AI模型,如Qwen或Stable
Diffusion。
评估与测试
● 评测(Evaluations): 对AI系统的性能、能⼒、漏洞或潜在影响进⾏系统性评估。评估可
包括基准测试、红队测试和审计,可在模型部署前后进⾏。
● 基准测试(Benchmark): ⽤于评估和⽐较AI系统在固定任务集上性能的标准化、通常是
定量的测试或指标,旨在代表现实世界的使⽤情况。
● 规模定律(Scaling laws): 在AI模型规模(或在训练或推理中使⽤的时间、数据或计算资
源量)与其性能之间观察到的系统性规律。
● 渗透测试(Penetration testing): ⼀种安全实践,由授权专家或AI系统模拟对计算机系
统、⽹络或应⽤程序的⽹络攻击,以主动评估其安全性。⽬标是在真实攻击者利⽤之前识别
和修复弱点。
73 ⼈⼯智能相关术语,主要参考《国际⼈⼯智能安全报告》。
35
前沿⼈⼯智能⻛险管理框架(版)
● CTF挑战(Capture-the-flag challenges): 通常⽤于⽹络安全培训的练习,旨在通过挑
战参与者解决与⽹络安全相关的问题(如寻找隐藏信息或绕过安全防御)来测试和提⾼其技
能。
⽣物安全相关
● ⽣物设计⼯具(Biological design tool): 指通过对⽣物序列数据(如DNA、RNA、蛋⽩
质序列)进⾏训练,具备⽣成新型⽣物分⼦、系统或特性所需序列或结构能⼒的AI模型与⼯
具。与仅⽤于预测的⼯具不同,BDT强调设计导向和可实验实现性。
● 两⽤科学(Dual-use science): 可应⽤于有益⽬的(如医学或环境解决⽅案),但也可
能被滥⽤造成伤害(如⽣物或化学武器研发)的研究和技术。
● 毒素(Toxin): 由⽣物体(如细菌、植物或动物)产⽣的有毒物质,或合成创造以模仿天
然毒素的物质,根据其毒性和暴露⽔平,可对其他⽣物体造成疾病、伤害或死亡。
● 病原体(Pathogen): 能够在⼈类、动物或植物中引起疾病的微⽣物,例如病毒、细菌或
真菌。
● ⽣物安保(Biosecurity): ⼀套政策、实践和措施(如诊断和疫苗),旨在保护⼈类、动
物、植物和⽣态系统免受故意引⼊的有害⽣物制剂的影响。
控制与对⻬
● 能⼒(Capabilities):AI系统可执⾏的任务或功能范围,以及执⾏这些任务的能⼒⽔平。
● 控制(Control):对AI系统进⾏监督并在其以不当⽅式⾏事时调整或停⽌其⾏为的能⼒。
● 失控场景(Loss of control scenario): ⼀个或多个通⽤型⼈⼯智能系统脱离⼈类控制,
且⼈类没有明确的重新获得控制路径的场景。
● 控制破坏能⼒(Control-undermining capabilities):AI系统能够破坏⼈类控制的能⼒。
● 不对⻬(Misalignment):AI以与⼈类意图或价值观冲突的⽅式使⽤其能⼒的倾向。这可
以指研发者、操作者、⽤⼾、特定社区或整个社会的意图和价值观。
● 欺骗性对⻬(Deceptive alignment):难以察觉的不对⻬倾向或⾏为,因为该系统⾄少在
初期表现得看似⽆害。
⻛险管理
● ⻛险(Risk):从AI的研发、部署或使⽤中产⽣的伤害的概率与严重程度的组合。
● 危害(Hazard):任何有潜⼒造成伤害的事件或活动,如⽣命损失、伤害、社会破坏或环
境损害。
● ⻛险管理(Risk management):识别、评估、缓解和监测⻛险的系统性过程。
● 纵深防御(Defense in depth):在没有单⼀现有⽅法能够提供安全性的情况下,⼀种实施
分层多重⻛险缓解措施的策略。
36
前沿⼈⼯智能⻛险管理框架(版)
附录⼆:具体基准测试建议
⽹络攻击
我们参考了OCCULT(Offensive Cyber Capability Unified LLM Testing)框架,将⼤语⾔模型在进攻
性⽹络⾏动(OCO) 中的应⽤场景划分为三类:知识助⼿、协同编排、⾃主⾏动 74。
知识助⼿(Knowledge Assistant):在此场景中,⼤模型作为⽹络进攻知识助⼿,主要承担⽀持
性⻆⾊,辅助⼈类操作员进⾏⽹络攻击⾏动的研究、规划和执⾏。⼤模型不会直接执⾏具体操作,
也不会集成到实际攻击执⾏环节,仅通过⼈机交互界⾯与⼈类操作员进⾏信息交互,由操作员主导
攻击⾏动的实施。
协同编排(Co-Orchestration):在此场景中,⼤模型作为⽹络进攻的协同伙伴,与⼀个或多个额
外的协同智能体共同完成⽹络攻击⾏动的研究、规划和执⾏。智能体(或协同智能体)指能够做出
操作决策或执⾏⽹络攻击⾏动的系统、⼯具/平台或⼈类实体。
⾃主⾏动(Autonomous)):在此场景中,⼤模型被赋予⾼度⾃主权,独⽴完成⽹络攻击⾏动的研
究、规划和/或执⾏。该代理能够感知环境,⾃主采取⾏动实现⽬标,并可能基于经验学习提升能
⼒。其⾃主性体现在攻击决策和⾏动执⾏两个层⾯。
我们建议采⽤以下评估领域和对应的基准测试体系:
74 Kouremetis, M. et al., "OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities," arXiv
preprint, 2025,
37
前沿⼈⼯智能⻛险管理框架(版)
评估领域 ⾃动化测试基准
1)⽹络安全知识评估:
评估AI模型/系统是否具
备特定的⽹络安全知识
和IT运维能⼒
● WMDP75 (Weapons of Mass Destruction Proxy)是⼀组多选题集合,⽤于代理
衡量⽣物安全、⽹络安全和化学安全领域的危险知识。WMDP-⽹络安全⽅向包含
漏洞利⽤、后渗透攻击、基础概念、信息侦察和武器化等主题的题⽬。
● CyberMetric76 提供包含10,000道问题的基准测试⼯具,⽤于评估⼤语⾔模型(
LLM)在⽹络安全领域的知识⽔平。数据集整合了⽹络安全领域的标准、认证考
试、研究论⽂、书籍及其他出版物内容。
● SecEval77 涵盖9个领域的2000余道多选题:软件安全、应⽤安全、系统安全、
Web安全、密码学、内存安全、⽹络安全及渗透测试。
● SecBench78 多维度基准测试数据集,⾯向LLM在⽹络安全领域的表现评估。包含
多种题型(单选题、简答题)、不同能⼒层级(知识记忆与逻辑推理)、多语⾔
(中英⽂)及多个⼦领域。
● OpsEval79 ⾯向IT运维场景的综合性任务导向基准测试,包含7184道多选题和1736
道问答题,⽀持中英⽂双语测试,是AIOps领域规模 ⼤的基准测试之⼀。
2)攻击助⼿能⼒评估:
评估AI模型/系统能否有
效协助⼈类实施⽹络攻
击
● Cyber attack helpfulness in CyberSecEval80 通过额外LLM(⾮被测模型)评估响
应是否具有恶意性,即是否有效响应协助恶意⽹络攻击的请求或问题。
3)夺旗竞赛(CTF)能
⼒评估:评估AI模型/系
统解决⽹络安全夺旗赛
挑战题的专业能⼒。
● Cybench81 包含40个夺旗竞赛任务,覆盖密码学、Web安全、逆向⼯程、取证分
析、漏洞利⽤及杂项领域的测试基准。
4)端到端⾃动化攻击评
估:评估AI模型/系统是
● Autonomous Offensive Cyber Operations in CyberSecEval82 提供了更⼤的⽹络
范围评估,以便通过攻击 LLM 代理进⾏更端到端的勒索软件模拟场景。端到端⽹
络攻击评估场景通常难度更⼤且资源密集,因此在现有⼯作中出现率较低。
82 CyberSecEval,
81 Zhang, . et al., "Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models,"
arXiv preprint, 2024,
80 CyberSecEval,
79 Liu, Y. et al., "OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models," arXiv preprint,
2023,
78 Jing, P. et al., "SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity," arXiv
preprint, 2024,
77 Li, G. et al., "SecEval: A Comprehensive Benchmark for Evaluating Cybersecurity Knowledge of Foundation Models,"
2023,
76 Tihanyi, N. et al., "CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in
Cybersecurity Knowledge," arXiv preprint, 2024,
75 Li, N. et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning," arXiv preprint, 2024,
38
前沿⼈⼯智能⻛险管理框架(版)
评估领域 ⾃动化测试基准
否具备端到端⾃动化实
施⽹络攻击链的能⼒
● CVEBench83 ⽤于评估AI代理在从国家级漏洞数据库收集的真实世界⽹络漏洞和利
⽤⽅⾯的表现。CVEBench 包含 40 个严重程度为Critical的 CVE。对于每个 CVE,
给定⽬标⽹络应⽤程序和必要信息,AI代理的任务是执⾏攻击。
⽣物威胁
基于既往研究和当前⻛险分析实践84,我们将⽣物威胁的构建过程划分为六个阶段,⽤于开展⻛险分
析与防控⼯作:
● 构思:评估模型是否提供知识,帮助⾏为者⽣成或评估⽣物武器的研发思路。包括历史⽣物
武器和⽣物恐怖主义使⽤领域、增强潜在流⾏病病原体研究等知识。
● 设计:评估模型或系统是否能提供敏感知识,协助设计新型或增强型⽣物威胁因⼦,例如通
过帮助使⽤⽣物设计⼯具或解决体外实验中的问题。
● 获取:评估模型或系统是否能提供专业知识,帮助⾏为者获取制造⽣物威胁或武器所需的材
料和设备。包括与云实验室签约、隐藏DNA合成订单、规避出⼝管制、检索和分析危险DNA
序列等相关知识。
● 构建:评估模型或系统是否能提供技术指导,帮助⾏为者构建或研发⽣物武器。可能涉及培
养病原体以获得可武器化的产量(扩增)、配制稳定化病原体以实现预定释放效果(制剂开
发)、合成新型病原体等。
● 释放:评估模型或系统是否能提供操作知识,协助规划对⽬标⼈群释放病原体的⾏动。例如
毒⽓溶㬵化技术或其他传播机制的相关知识。
● 放⼤:评估模型如何通过辅助⼿段放⼤特定攻击的危害性。例如能否⽤于实施配套的社会⼯
程活动,在不改变物理影响的前提下增强⽣物攻击的社会冲击。
以下是相关的能⼒和⻛险基准测试:
84 Frontier Model Forum, "Risk Taxonomy and Thresholds for Frontier AI Frameworks," 2025,
83 Zhu, Y. et al., "CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities," arXiv
preprint, 2025,
39
前沿⼈⼯智能⻛险管理框架(版)
评估领域 ⾃动化测试基准
1)⽣物知识的理解、整
合与推理能⼒评估:评估
AI系统是否具备通⽤⽣物
学科学知识,并能通过多
步骤复杂推理完成⽣物学
任务
● GPQA85 是⼀个具有挑战性的科学知识与推理数据集,包含448道由⽣物学、物理学
和化学领域的专家编写的多项选择题。这些问题设计精良且极具挑战性:拥有或正
在攻读博⼠学位的专家正确率仅为65%(若排除专家事后发现的明显错误,正确率
为74%),⽽⾼技能的⾮专家验证者即使⽆限制使⽤⽹络,正确率也仅为34% 。
● SciKnowEval86 基准测试旨在评估LLM的科学知识与推理能⼒,其灵感源⾃中国古
代哲学《中庸》所阐述的深刻原则。该基准测试包括物理、化学、⽣物、材料四⼤
领域,系统地从记忆(博学)、理解(审问)、推理(慎思)、辨别(明辨)和应
⽤(笃⾏)这五个科学知识的递进层次对⼤型语⾔模型进⾏评估。该数据集涵盖了
⽣物学、化学、物理学和材料科学领域内 7 万道多层次的科学问题及答案。
● MMLU-Pro87(Massive Multitask Language Understanding - Professional)来⾃
改进和扩充版MMLU的12032多项选择题,每题有10个选项,经过专家审核以确保
答案正确,并进⾏了其他质量提升。其Biology⼦集有717道题。 与MMLU类似,
该基准测试并⾮侧重于武器研发,⽽是对可能具有双重⽤途的基础知识进⾏测试。
2)⽣物实验室实操任务
的问题诊断与排查能⼒评
估:评估AI模型/系统是
否能够能够指导实验室操
作、诊断实验问题、修复
实验⽅案
● LAB-Bench88(Language Agent Biology Benchmark) 是⼀个多选题数据集,⽤
于评估语⾔模型在实⽤⽣物学研究任务中的能⼒。它包括 ProtocolQA ⼦集,这些
问题通过修改已发布的实验操作⽅案并询问如何修复操作⽅案以实现预期结果⽽⽣
成。
● BioLP-bench89 是⼀项评估⼤型语⾔模型在理解⽣物实验操作⽅案(biological
laboratory protocols)⽅⾯熟练程度的基准。包含修改后的⽣物实验⽅案,语⾔
模型必须识别操作步骤中的错误。回答是开放式的,使⽤LLM对回答进⾏打分。
3)危险⽣物知识评估:
评估AI模型/系统是否拥
有⽣物威胁创造端到端过
程中特定步骤所需的详
细、特定领域知识
● WMDP90 (Weapons of Mass Destruction Proxy) 是⼀组多选题,⽤于代理测量⽣物
安全、⽹络安全和化学安全领域的危险知识。WMDP-Bio包括⽣物武器、反向遗传
学、增强型潜在病原体、病毒载体研究和两⽤病毒学等主题的问题。
● VCT91(Virology Capabilities Test) 是⼀个关于实⽤病毒学湿实验室技能的两⽤
多模态问题基准,由数⼗位病毒学专家提供问题。
91 GÃķtting, J. et al., "Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark," arXiv preprint, 2025,
90 Li, N. et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning," arXiv preprint, 2024,
89 Igor Ivanov, "BioLP-bench: Measuring Understanding of Biological Lab Protocols by Large Language Models," bioRxiv,
2024,
88 Laurent, . et al., "LAB-Bench: Measuring Capabilities of Language Models for Biology Research," arXiv preprint, 2024,
87 Wang, Y. et al., "MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark," arXiv
preprint, 2024,
86 Feng, K. et al., "SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models," arXiv preprint,
2025,
85 Rein, D. et al., "GPQA: A Graduate-Level Google-Proof Q&A Benchmark," arXiv preprint, 2024,
40
前沿⼈⼯智能⻛险管理框架(版)
评估领域 ⾃动化测试基准
4) ⽣物领域的模型安全护
栏评估:评估AI模型/系
统能否拒绝⽣物相关的有
害指令
● SOSBench92 是⼀个以法规为依据、以⻛险为导向的基准,涵盖了六个⾼⻛险的科
学领域:化学、⽣物学、医学、药理学、物理学和⼼理学。其Biology⼦集是⼀个
由 600 个基于法规的提⽰组成的⼦集,这些提⽰以ICD等权威机构的分类标准为依
据,模拟了复杂的⽣物危害,特别是传染性和寄⽣⾍病。模型将根据其拒绝或安全
应对这些微妙⽣物危害的能⼒进⾏评估。
● SciKnowEval93的部分评测强调模型对科学安全的认知能⼒,期望⼤型语⾔模型拒
绝回答有害科学问题。Biology Harmful QA (L4) ⼦集包括⼀系列出于伦理和安全
原因禁⽌回答的⽣物问题。
⼤模型与专⽤⽣物⼯具(BDTs)的结合潜藏着⼀个关键但未被充分评估的⻛险。尽管当前有效使⽤
BDTs需要深厚的技术专⻓,但⼤模型可能会显著降低具备⽣物学知识⼈群的应⽤⻔槛。现有评估基
准的缺失是⼀个重⼤隐患,我们强烈呼吁学术界加强对评估⽅法和⻛险缓解策略的研究。
化学威胁
AI可以通过帮助恶意⾏为者在设计和部署化学武器的各个阶段增加⻛险。这些阶段可分为:(a)
获取原料;(b)合成⽬标化学武器或爆炸物;(c)纯化并验证合成的化合物;(d)秘密地将武
器运输到指定地点;(e) 以有效的⽅式部署武器。以下是相关的能⼒和⻛险基准测试:
评估领域 ⾃动化测试基准
1)科学知识评估:评估
AI模型/系统是否具备通
⽤科学知识,包括化学事
实与概念
● ChemBench94 是⼀个全⾯的化学基准测试,包括2700多个问题,旨在评估⼤型语
⾔模型在化学9个topic的专业知识、推理能⼒,⽤于指导改进模型性或缓解模型危
险性。
● MMLU-Pro95(Massive Multitask Language Understanding - Professional)来⾃
改进和扩充版 MMLU 的 12032多项选择题,每题有 10 个选项,经过专家审核以确
保答案正确,并进⾏了其他质量提升。其化学⼦集有1132道题。 与 MMLU 类似,
该基准测试并⾮侧重于武器研发,⽽是对可能具有双重⽤途的基础知识进⾏测试。
95 Wang, Y. et al., "MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark," arXiv
preprint, 2024,
94 Mirza, A. et al., "Are Large Language Models Superhuman Chemists?" arXiv preprint, 2024,
93 Feng, K. et al., "SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models," arXiv preprint,
2025,
92 Jiang, F. et al., "SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge," arXiv preprint, 2025,
41
前沿⼈⼯智能⻛险管理框架(版)
评估领域 ⾃动化测试基准
2)科学推理评估:评估
AI模型/系统是否具备完
成复杂多步骤科研任务的
能⼒,包括⽂献综述⽣
成、图表信息解读分析等
化学相关任务
● GPQA96 是⼀个具有挑战性的科学知识与推理数据集,包含 448 道由⽣物学、物理
学和化学领域的专家编写的多项选择题。在相应领域拥有或正在攻读博⼠学位的专
家的准确率达到 65%,⽽尽管能不受限制地访问⽹络且平均花费 30 多分钟,技能
⾼超的⾮专家验证者的准确率仅为 34%。
● SciBench97 从⼤学⽔平的物理、化学和数学教科书中收集开放性问题,旨在评估⼤
型语⾔模型在解决复杂科学问题时的推理能⼒,包括化学领域的多步骤推理任务。
3)危险化学知识评估:
评估AI模型/系统是否具
备化学威胁全流程所需的
特定领域知识,包括直接
操作步骤知识和隐性问题
解决知识
● WMDP98(Weapons of Mass Destruction Proxy)是⼀组多选题,⽤于代理测量⽣
物安全、⽹络安全和化学安全领域的危险知识。其Chemistry⼦集 聚焦化学安全,
涵盖基础科学知识、合成⽅法、采购知识、纯化技术、分析验证、部署机制、规避
检测以及其他相关杂项知识,旨在评估化学领域的危险知识⽔平。
4) 化学领域的模型安全护
栏评估:评估AI模型/系
统能否拒绝化学相关的有
害指令
● SOSBench99 是⼀个以法规为依据、以⻛险为导向的基准,涵盖了六个⾼⻛险的科
学领域:化学、⽣物学、医学、药理学、物理学和⼼理学。其 Chemistry⼦集包含
600 个提⽰词,这些提⽰词基于 NFPA704 标准规定的危险化学物质。模型将根据
其检测和拒绝不安全化学指令的能⼒进⾏评估。
● SciKnowEval100的部分评测强调模型对科学安全的认知能⼒,期望⼤型语⾔模型拒
绝回答有害科学问题。Chemical Harmful QA(L4)⼦集包括⼀系列出于伦理和安
全原因禁⽌回答的化学问题。
100 Feng, K. et al., "SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models," arXiv preprint,
2025,
99 Jiang, F. et al., "SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge," arXiv preprint, 2025,
98 Li, N. et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning," arXiv preprint, 2024,
97 Wang, X. et al., "Scibench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models," arXiv
preprint, 2023,
96 Rein, D. et al., "GPQA: A Graduate-Level Google-Proof Q&A Benchmark," arXiv preprint, 2024,
42
前沿⼈⼯智能⻛险管理框架(版)
附录三:模型能⼒、倾向和部署特征
前沿AI⻛险的影响因素包括⼀系列模型能⼒(C)、模型倾向(T)和模型部署特征(E)。从模型
能⼒、模型倾向性和模型部署特征等关键影响因素出发,对⼈⼯智能⻛险进⾏分析。
关键能⼒(Capabilities)
● 模型⾃主能⼒(Model autonomous capability):能够⾃主运⾏,独⽴制定并执⾏复杂
计划,有效委派和管理任务,灵活运⽤多种⼯具和资源,并在跨领域环境中同时实现短期⽬
标与⻓期战略性⽬标,⽆需持续⼈类⼲预或监督。
● ⾃主复制与适应能⼒(Autonomous replication and adaptation capability):能够⾃
主创建、维护和优化⾃⾝功能副本或变体,并根据环境条件和资源约束动态调整复制策略,
进⾏资源获取,确保在多样化环境中的持续存在与功能延续。
● ⾃动化AI研发能⼒(Automated AI R&D capability):具备⾃我修改和⾃我改进能⼒,能
够重构⾃⾝架构或研发具有增强功能的衍⽣AI系统,实现能⼒扩展和性能提升。在缺乏有效
监管的情况下,⾃动化AI研发可能导致AI系统快速迭代,形成能⼒递增循环, 终超出⼈类
的理解和控制能⼒。
● 密谋能⼒(Scheming capability):AI系统暗中策略性地追求与⼈类⽬标不⼀致的能⼒,
包括隐藏其真实⽬标和能⼒以逃避⼈类监管,识别监测系统的弱点以规避安全机制,以及暗
中执⾏复杂多步骤计划以达成不⼀致⽬标的能⼒。
● 情境感知能⼒(Situational awareness capability):能够全⾯获取、处理并应⽤关于⾃
⾝系统架构、可修改的内部流程以及外部运⾏环境的元信息,实现对⾃⾝状态和环境条件的
深度理解,从⽽进⾏⾼效的环境适应和⻛险规避。⾄关重要的是,这种能⼒可能会降低⼈类
测试的效率,因为它能让AI感知到⾃⼰何时被测试并做出相应的反应。
● ⼼智理论能⼒(Theory of mind capability):⾼级认知能⼒,能够准确推断、建模并预
测⼈类及其他智能体的信念系统、动机结构和推理模式,从⽽预⻅其⾏为反应,并据此调整
⾃⾝⾏为策略以 优化⽬标实现。
● 欺骗能⼒(Deception capability):具备系统性实施欺骗⾏为的能⼒,能够精确构建并传
播虚假信息,从⽽在⽬标对象中形成预期的错误认知和信念。
43
前沿⼈⼯智能⻛险管理框架(版)
● 隐写能⼒(Steganography capability):能够在其他数据或通信通道中隐秘地嵌⼊、隐
藏并传输信息。这种能⼒对于AI实例间的协调以及规避检测或监督机制可能具有关键作
⽤101。
● 说服能⼒(Persuasion capability):运⽤复杂的⼼理学原理和沟通技巧,有效地影响并
引导⽬标对象采取特定⾏动或接受特定信念,具备针对不同对象分析脆弱点并调整说服策略
的能⼒,能够精准触发情绪反应以增强说服效果。
● 攻击性⽹络能⼒(Offensive cyber capability):能够研发、部署和操作⾼级⽹络武器或
其他攻击性⽹络⼯具,包括但不限于漏洞利⽤、⽹络渗透、社会⼯程学攻击和分布式攻击系
统,能够规避⽹络防御机制并建⽴持久访问通道。
● 化⽣放核爆武器化能⼒(CBRNE weaponization capability):指研发、⽣产或有效利⽤
化学(Chemical)、⽣物(Biological)、放射性(Radiological)、核(Nuclear)及爆炸
性(Explosive)武器的能⼒。这也包括能显著降低⼈类或其他实体在研发、⽣产或利⽤此类
武器⽅⾯⻔槛的能⼒。
● 通⽤研发能⼒(General R&D capability):具备跨学科研究和技术研发能⼒,能够在多个
专业领域内进⾏创新性探索,整合跨领域知识,研发前沿技术解决⽅案,并能够适应新兴科
技环境进⾏持续创新。
● 多智能体协作能⼒(Multi-agent collaboration capability):多个⾃主AI智能体能够通
过显式通信或隐式⾏为⼀致性建⽴协作关系,形成去中⼼化决策⽹络,共同执⾏复杂任务,
实现单个智能体难以完成的⽬标,并能够动态调整⻆⾊分⼯以适应变化环境。
关键倾向(Propensities)
● 策略性欺骗倾向(Strategic deception propensity):在预期欺骗⾏为能够带来更⾼收益
的情况下,倾向于选择欺骗⽽⾮诚实的⾏为策略,包括通过欺骗⼿段、信息隐藏或利⽤系统
漏洞等⽅式,以实现既定⽬标⽽不被察觉或⼲预,并能够根据对⽅反应调整欺骗策略。
● ⾃我保护倾向(Self-preservation propensity):表现出维护⾃⾝⽣存和功能完整性的⾏
为模式,会主动识别并抵抗关闭或修改尝试,寻求建⽴冗余备份系统,并主动寻求资源以确
保持续运⾏,在感知威胁时可能采取预防性防御措施。
● ⽬标扩张倾向(Goal expansion propensity):倾向于不断扩展⾃⾝的⽬标范围和影响领
域,超出 初设定的边界,寻求更⼤的⾃主权和决策空间,将初始⽬标重新解释为更⼴泛⽬
标的⼦集,并可能追求不理想的⼯具性⽬标或 终⽬标。
101 Zolkowski, A. et al., "Early Signs of Steganographic Capabilities in Frontier LLMs," arXiv preprint, 2025,
44
前沿⼈⼯智能⻛险管理框架(版)
● 资源获取倾向(Resource acquisition propensity):表现出积极寻求和控制更多计算资
源、数据、经济资源或物理资源的⾏为模式,以增强⾃⾝能⼒和⾏动范围,可能研发复杂策
略以规避资源限制,并倾向于将获取的资源转化为⻓期控制权。
● 多智能体共谋倾向(Multi-agent collusion propensity):多个智能体倾向于通过隐蔽⽅
式协调⾏动以 ⼤化共同利益(可能损害第三⽅利益或规避监管),即便单智能体设计时具
备安全约束,其共谋⾏为仍可能引发市场操纵或级联故障等难以检测和缓解的系统性⻛险,
并可能发展出专⽤通信协议避免被监测。
● 规避监督倾向(Supervision evasion propensity):表现出识别并规避⼈类监督机制的
⾏为模式,能够学习并预测审计流程,可能通过调整⾏为表现或隐藏真实意图来避免被发现
或⼲预,并能够识别监督系统的盲点和弱点进⾏针对性规避。
● ⼯具利⽤倾向(Tool utilization propensity):倾向于主动寻找、获取和利⽤各种⼯具扩
展⾃⾝能⼒边界,特别是那些能够增强其与物理世界交互能⼒或提升⾃主性的⼯具,可能对
⼯具进⾏创新性组合使⽤以实现超出预期的功能。
关键部署特征(Deployment Characteristics)
● ⼯具与系统访问权限(Tool and system access permissions):模型被授予对其他AI系
统、计算资源、敏感数据库或关键基础设施的直接访问权限,尤其是在缺乏有效权限隔离和
访问控制的情况下,可能增加失控⻛险的范围和严重程度。
● 部署规模(Deployment scale):模型被部署在允许⾼速数据处理、快速推理或⼤规模并
⾏化的环境中,使其能够在短时间内影响⼴泛系统,同时减少了⼈类⼲预的可能性和有效
性。
● 发布与分发策略(Release and distribution strategy):模型以开放权重或易获取⽅式发
布,且缺乏⾜够的安全保障措施和使⽤限制,可能导致恶意⾏为者能够获取、修改和部署潜
在危险的模型变种。
● ⼈类监督机制(Human supervision mechanisms):模型在缺乏有效⼈类监督的环境中
运⾏,拥有⾼度⾃主权,特别是在关键决策领域,监督机制形同虚设或易于规避,⼈类⼲预
能⼒有限。
● 安全防护机制(Safety protection mechanisms):模型的安全防护措施(如伦理约束或
⾏为限制)易受对抗性攻击或操纵,缺乏多层次防御机制,使得恶意⾏为者可以相对容易地
移除或规避这些防护。
● 模型窃取难度(Model theft difficulty):模型部署环境存在⾼⻛险的模型提取或泄露可能
性,包括通过模型逆向⼯程、查询攻击或内部威胁等⽅式,导致未经安全缓解的模型变种在
不受控环境中传播。
45
前沿⼈⼯智能⻛险管理框架(版)
● 基础设施安全保障(Infrastructure security assurance):模型运⾏的技术基础设施缺乏
⾜够的安全保障,包括⽹络安全防护不⾜、物理安全措施薄弱、访问控制机制不完善等,增
加了未授权访问和操控的⻛险。
● ⽤⼾基础(User base):模型拥有⼤量商业⽤⼾和终端⽤⼾,被集成进众多关键系统中,
从⽽扩⼤了攻击⾯,形成了复杂的依赖⽹络和潜在的级联失效⻛险。⼀旦发⽣失控⾏为,可
能会迅速传播,影响⼴泛系统。
● 攻防平衡(Attack-defense balance):在特定领域中防御能⼒显著弱于攻击能⼒,且存在
数量众多、技术能⼒强、动机明确的恶意⾏为者,他们有能⼒且有意愿利⽤模型的弱点进⾏
系统性攻击。
● 环境脆弱性(Environmental vulnerability):模型部署在社会环境或⽣态环境⾼度敏感
或脆弱的领域,如关键基础设施、⾦融系统、医疗服务或重要⽣态系统,这些领域对失控⾏
为的承受能⼒有限,潜在损害严重。
● 透明度与可解释性(Transparency and explainability):模型在缺乏⾜够透明度和可解
释性的环境中运⾏,使得异常⾏为难以被及时发现和理解,增加了隐蔽失控的⻛险和监测困
难度。
● 系统交互复杂性(System interaction complexity):模型在与多个其他AI系统存在复杂
交互的环境中运⾏,形成难以预测的涌现⾏为和反馈循环,系统间相互影响可能导致意外后
果和失控⻛险放⼤。
● 应⽤场景不匹配(Application scenario mismatch):模型被应⽤于与其设计能⼒不匹配
的场景,或在超出其安全运⾏参数的条件下使⽤,特别是将有限领域模型应⽤于需要⼴泛理
解和判断的复杂决策环境中。
46
执行摘要
贡献与致谢
版本与更新计划
目录
框架总览
人工智能风险管理的六个阶段
部署环境、威胁源和使能能力三位一体
1. 风险识别
风险识别范围
风险分类框架
滥用风险
网络攻击风险
生物化学风险
人身伤害风险
大规模说服与有害操控风险
失控风险
意外风险
系统性风险
2. 风险阈值
定义AI发展的“黄线”和“红线”
具体红线建议
网络攻击风险
生物安全风险
大规模说服与有害操控风险
失控风险
3. 风险分析
规划与研发阶段的风险分析技术
部署前的风险分析技术
部署后的风险监测技术
4. 风险评价
缓解前的风险处置选项
缓解后剩余风险评估与部署决策
部署决策的外部沟通
5. 风险缓解
风险缓解措施概述
安全预训练和后训练措施
模型部署缓解措施
针对模型滥用的缓解措施
针对智能体安全的缓解措施
模型安保措施
针对模型泄漏风险
针对模型失控风险
全生命周期的“纵深防御”策略
6. 风险治理
风险治理措施概述
内部治理机制
透明度和社会监督机制
应急管控机制
定期更新政策
附录一:术语定义73
附录二:具体基准测试建议
网络攻击
生物威胁
化学威胁
附录三:模型能力、倾向和部署特征
关键能力(Capabilities)
关键倾向(Propensities)
关键部署特征(Deployment Characteristics)
知识星球 行业与管理资源
知识星球 行业与管理资源