a»üAi:#9%ę$a"
R e E x a m i n g'
i
1
2024 医疗人工智能年度报告
R
生
e-Exam
成
ing
式 AI:重新审视
主编 Editor in Chief
陈 旭
执行主编 Executive Editor
刘鸣谦
策划团队 Planning Team
刘鸣谦 朱雅文 刁 茁
责任编辑 Assignment Editors
趋势:刘鸣谦
观 点 : 陈 旭
医疗大语言模型十问:宋晓霞
WiNGPT:路惠童 许祥军 洪 平 高玉杰 李 锐
研究:刘鸣谦 路惠童
案例:宋晓霞 胡嘉伟 高雪虹 姜 陆 乔嘉成 虞明星
展 望 : 陈 旭
校对 Proofreader
朱雅文 刁 茁
设计 Designer
唐雯婷 李钰莹
引言
过去一年,人工智能无疑是最为重要的话题之一,这从
两项诺贝尔奖授予人工智能领域的科学家便可见一斑。人工
智能不仅是一种工具,更在深层次上影响着社会结构和我们
的思维方式,促使我们重新审视对世界的认知。面对人工智
能逐步承担部分人类职能的现实,我们不禁思考:未来社会
将如何定义人类?我们又该如何与这股强大的力量共存,并
探索新的价值和方向?
2024 年初,人工智能领域的产学研各届围绕“AGI”- 通用
人工智能的定义及“何时实现 AGI”展开了广泛讨论。包括
Geoffrey Hinton,Yann LeCun,李飞飞在内的多位知名研究者,
对当前大型语言模型所展现的“智能”提出了质疑,这促使我
们重新审视“智能”的概念。尽管人工智能能够生成逼真的文
本,进行复杂的逻辑推理,但这是否就意味着它真正具备了
“理解”和“思考”的能力?我们对智能的理解,可能仍旧受限
于人类自身的认知框架,我们所认为的“智能”也许只是冰山
一角。
此外,技术发展的路径同样值得我们重新审视。去年,
多项关于 Scaling Law 局限性的研究表明,人工智能的发展
不能单纯依靠算力的堆砌。我们需要探索更精巧的算法和更
有效的训练方法,以实现真正的 AGI。开源与闭源、通用与
垂直等多样化的发展路径,映射出不同的理念和价值观。如
何在技术进步、商业利益和社会责任之间寻求平衡,将决定
人工智能的未来走向。
这种平衡在医疗领域同样至关重要,尤其是伦理和社会
影响在医疗领域尤为敏感。人工智能生成内容的准确性和可
靠性直接关系到患者的生命安全。人工智能的滥用风险、隐
私泄露以及算法偏见等问题,可能导致医疗资源分配不公,
甚至加剧医疗不平等现象。因此,我们在研究、产品开发以
及对外传播内容时,必须以严谨和审慎的态度评估并应对这
些挑战。
此外,在医疗实践中,我们还必须重新审视“人工智能与
人”的关系。过去一年中,国内外众多专家学者已达成共识,
即人工智能不应成为医生的竞争对手,而应是其合作伙伴。
尽管人工智能能够生成逼真的医疗报告、医学影像图片, 并进
行复杂的病情分析,但这并不等同于真正的“医学理解” 和“临床
思维”。我们对医疗服务的理解可能仍然受限于自身的认知。
更重要的是,如何将人工智能的“智能”与医生的经验、直觉
和同理心相结合,形成人机协同的诊疗模式, 仍然极具挑战。
去年,我们的年度报告《生成式人工智能 - 破局新生》
聚焦于生成式人工智能技术的突破及其在各个领域的潜力。
今年,我们在此基础上深化探讨,重新审视每个医疗场景并
思考优化策略。本报告汇集了卫宁健康人工智能实验室的洞
见与过去一年的工作成果,涵盖了对行业数据与分析、技术
与研究、应用案例、伦理挑战和社会影响等多个维度的思考,
重点关注生成式人工智能模型在医院场景中的实际案例,并
分享了相关经验。
我们衷心希望这份报告能够为医疗行业的同仁或对人工
智能感兴趣的朋友提供有价值的参考和启示,共同推动人工
智能在医疗领域的健康、可持续发展,为构建更加智能、高
效和人性化的医疗体系贡献力量。
速读
速读
重新思考人工智能的本质和人类的价值
报告从人工智能的快速发展引发的哲学和社会思考出发,
探讨了人类在人工智能时代的价值定位,并着重强调创造力、
思辨力及同理心等人类独有特质的重要性。
医疗人工智能的市场现状和政策导向
报告深度解析了医疗人工智能的市场规模、FDA 审批情
况、国内医疗大语言模型进展及政策框架,展现了行业发展
的整体态势。
医疗大语言模型 WiNGPT 的实践与挑战
报告深入探讨了WiNGPT 开发过程中面临的实际问题,
包括模型大小的选择选型、数据隐私、应用对接、推理速度
等,并提出了相应的解决方案和建议。
重新定义智能和重塑临床环境
报告从临床研究的角度探讨了 AI 与人类智能的差异,
以及 AI 与临床环境的深层联系,为推动医疗保健的全面变
革提供了参考。
生成式 AI 在临床实践中的应用
报告详细介绍了 WiNGPT 在临床实践中的应用,包括
电子病历生成、语音生成查房记录、CDSS+RAG、PACS 质控、患
者血液管理和企业智能助手等多个方面,并分享了相关的研
究成果和实践经验。
人机协同的未来
报告展望了人工智能与人类创造力协同发展的前景,强
调了人机协同、多元数据、创新评估和伦理监管的重要性,
并呼吁全球医疗界共同推动医疗人工智能的健康可持续发展。
目 录 Contents
趋势
观点
问答
WiNGPT
08
大语言模型 + 医疗软件的现状和发展
让我们用数据和政策解读来揭开大语言模型的发展趋势。
13
超越比较:人工智能的独特发展之路
超越模仿! AI 的独特进化之路,将如何反哺人类文明?
15
SORA 降临:我们应该如何理解这个世界
Sora 炸场!万亿级 AI 风暴,重新定义创造力与真实!
17
生成式 AI:重塑临床环境,推动医疗保健全面变革
颠覆传统!生成式 AI 如何撬动医疗变革,打造健康新生态?
19
医疗大语言模型十问
大语言模型实践中的热点问题。
25
WiNGPT 2024 回顾
这一年,WiNGPT 让智慧医疗迈向新的阶段。
40
WiNGPT 私有化部署方案
让我们一起探索 WiNGPT 的工程化奥秘,将安全与高效贯彻到底。
42
WiNGPT 开源之路
我们不仅站在巨人的肩膀上,更为开源社区奉献,推进未来之路。
44
WiNGPT 临床评价
通过一次实验看怎么评价大模型的使用效果。
47
混合专家模型(MoE)技术在胸片领域的应用
在较
研
高
M
水
oE
平
-C
。
XR 胸片模型使用更少的激活参数,将疾病诊断能力维持
53
Copilot 深入应用:大语言模型驱动的最佳实践探索
Copilot,大语言模型深入赋能医疗场景的纽带。
57
融合 RAG 与大语言模型:CDSS 创新发展的新引擎
RAG+LLM,让知识更准确,决策更可靠。
61
基于大语言模型探索 PACS 质控工作新可能
如何用好大语言模型,我们的尝试从未停止……
65
WiNGPT 在患者血液管理中的应用与前景
支持。
智能融合与即时跟踪,LLM 为医生提供更快更精准的输血管理
69
企业智能助手小宁:大语言模型与RAG 结合的知识库应用
AI 加持,让知识与经验不再扁平,真正成为触手可及的数据资产。
73 75
人工智能与人类创造力的共生之道 总结
当 AI 遇上医者仁心:共绘医疗创新的未来图景。
76
参考文献
研究
案例
展望
趋势
2024 年,大语言模型技术蓬勃发展,国内外基座模型
层出不穷,医疗大语言模型更是如雨后春笋般涌现,市场繁
荣且潜力无限。在这里,通过数字与政策分析我们可窥见市
场全貌。
医疗人工智能市场规模预测
尽管不同预测模型对“人工智能 + 医疗保健”市场规模的
预估数据来源各异,但它们均认同一个观点:该市场规模将
极为庞大。2024 年,涵盖硬件制造厂商、云服务提供商、信息化企
业、政府相关部门、医疗器械提供商、软件提供商、
新药研发企业和人工智能初创企业的上下游参与者,共同
推动该市场达到 149 亿美元。预计至 2030 年,该市场将以
% 的复合增长率迅猛增长,规模可达 1641 亿 美元[1]。
FDA 审批通过的人工智能相关医疗器械数量
截至 2024 年 5 月,美国食品药品监督管理局批准了882
个由人工智能和机器学习驱动的医疗软件 / 设备。排名前五的
应用领域是放射学(671 台)、心血管(90 台)、神经病学
(32 台)、血液学(17 台)和胃肠泌尿学(13 台)[1]。
使用人工智能技术的医疗软件企业数量
在一项针对美国医疗机构的调查中,约 70% 的卫生系
统受访者认为,人工智能将对他们的组织产生更大的影响,
并将人工智能战略从 IT 部门转移到最高管理层。这与 80%
的美国医疗服务提供者正在加快 IT 和软件支出的事实相一
致,其中人工智能是首要任务。
大语言模型 + 医疗软件的现状和发展
837 882
616
461
221
332
141
77
11 13 15 18
21
27 33
51
b
20
o
1
r
0
e
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024
医疗软件中的人工智能指导原则
医疗人工智能软件正积极促进行业发展,引领行业的走
势,并持续地影响上下游的企业、医院。尤其在人工智能、
大语言模型的应用方面,这些影响源自用户、工具、数据和
伦理道德的交汇,人工智能技术和应用的发展正在指引未来
软件的设计和开发趋势。以下将介绍国内外的人工智能指导
原则 [2]:
一 . 人类为中心的人工智能
强调人工智能技术对个人和社会的影响。以人类价值观、
需求和目标为指导,旨在通过建立在用户体验设计方法的基
础上,放大、增强、授权并提高人类表现,同时确保人类的
控制。
二 . 数据驱动的人工智能
数据是人工智能训练、评估和改进的基础要素。人工智
能模型的质量与用于训练数据的质量直接相关,因此需深入
理解并有效利用数据。这将需要对数据集本身进行彻底审查,
加强数据治理,以指导整个企业和医院的数据政策。
三 . 可扩展和互操作强的人工智能
人工智能的开发应该采用循序渐进的方式,一方面需要
构建符合整体系统架构的设计,另外一方面,从具体的应用
场景出发,采用“大蓝图,小步走”策略,不断评估和优化流
程,实现人工智能工作的规划和交付。
四 . 负责任的人工智能
人工智能模型的设计和实施需要维护社会明确的道德价
值观即社会伦理和系统安全。伦理是针对不良结果风险的社
会行为指南,主要侧重于六个领域,以应对人工智能的竞
争风险和收益:公平和公正、透明度和可解释性、问责制和
合规性、安全和安保、隐私以及可靠性和稳健性。这些领域
旨在通过最有效和最值得信赖的方式引导人工智能努力实现
其预期影响。
国内医疗大语言模型
根据 IDC 的调查和网络搜索,据不完全统计,全国已
公开发布了约 20 款医疗大语言模型,吸引了众多厂商投身
研发,其中涵盖互联网科技企业、人工智能企业、互联网医
疗企业和传统的信息化企业等。各类企业凭借自身优势积极
参与,但均面临医疗数据隐私安全、复杂场景应用、AI 模
型研发等挑战,需克服各自难题。
国家政策
2024 年 11 月,为贯彻落实党中央、国务院关于开展“人工智
能 +”行动的决策部署,国家卫生健康委、国家中医药局、国
家疾控局研究制定了《卫生健康行业人工智能应用场景参考
指引》[3],积极推进卫生健康行业“人工智能 +”应用创新发
展。
《参考指引》将医疗领域的人工智能应用场景划分为四
大部分,十三个类目,共列出 84 个典型应用场景:
“人工智能 +”医疗服务管理:医疗服务、医药服务、医
保服务、中医药管理、医院管理;
“人工智能 +”基层公卫服务:健康管理、公共卫生、养
老托育;
“人工智能+”健康产业发展:医用机器人、药物研发、 中医
药产业;
“人工智能 +”医学教学科研:医学教学、医学科研。
( 一 ) 医疗服务
( 九 ) 医用机器人
( 六 ) 健康管理 ( 七 ) 公共卫生 ( 八 ) 养老托育
( 四 ) 中医药管理 ( 五 ) 医院管理
医学
辅助诊断
能
智能辅助决策 辅助规划 预
智
问
能
诊
智
度
能
调
满
查
意
智能辅助质控
医学
辅助治疗
能 智能
分诊
诊
陪诊 院后管理
临床
辅助决策
能
智能辅助勾画
智能
咨询
医
随访 辅助生成
中医
辅助诊疗
能
智能检测
中药
审方
能 中医
智能质控
案
思
名
想
中
智
医
能
学
传
术
承
中
智
医
能
药
辅
科
助
研
智能
质控辅助
书
质量管理 人员管理
智能
管
手
理
术室
智能
管理
房 智能
管理
材
设备管理
智能
管理
流
停车管理
智能
安全管理
勤
管理决策支持
智能
管理
康
健康管理
智能
管
慢
理
性病
自助服务
智
评
能
估
心
与
理
护
分
理
级
健康管理服务
智能
筛查与预测
病 慢性
筛
非
查
传
与
染
预
性
测
疾病
智
传
能
染
监
病
测 应急管理
群体数据分析 查漏补种
智能
监测与干预
疸
生
智
长
能
发
婴
育
幼
分
儿
析
智能
畸变剂
射性
量估算
体 智能
风险评估
康
智
健
能
康
老
管
年
理
人
咨询服务
人员学习辅助 培训应用
智能
监管辅助
业 智能
质量
托育
评估
构
安全隐患预警
( 二 ) 医药服务
核智能辅助智
能辅助
导智能辅助
( 三 ) 医保服务
医保
审
智
核
能临
智
床
能
用
辅
药
助
商
智
业
能
健
设
康
计
险
大语言模型 + 医疗软件的现状和发展
一 人工智能 + 医疗服务管理
二 人工智能 + 基层公卫服务
三 人工智能 + 健康产业发展 四 人工智能+医学教学科研
机
手
器
术
人 机
康
器
复
人 机
配
器
送
人 机
消
器
毒
人
针
机
灸
器
推
人
拿 医
机
疗
器
咨
人
询 紧急
机
医
器
学
人
救援
( 十二 ) 医学教学
医
智
学
能
教
辅
学
助
仿
学
真
智
实
能
验
患
医
者
学
虚
教
拟
育
人
资源
医学
智
教
能生
学
成医
智能生
( 十三 ) 医学科研
智能
招
患
募
者
智能
病
研
房
究型
智
学
能
科
辅
研
助挖
智
能文
分
智能医
据分析
研智能药物临床
智能药
( 十 ) 药物研发
智能药
发
物 中
中药
鉴
材
定
智
识
能
别
仿生
( 十一 ) 中医药产业
中
生
药
态
材
种
智
植
能
2024 年 12 月 24 日,上海市人民政府印发《上海市发展
医学人工智能工作方案(2025-2027 年)》[4] 并提到,医学人
工智能是培育新质生产力的重点领域,也是推动高质量发展
的重要支撑。下一步,上海市医学人工智能重点赋能的领域
包括:传统机器学习、深度学习技术在临床中落地应用; 大语言
模型加速赋能临床诊疗,为临床辅助决策提供支持; 智能机器人
助力智慧医院建设,提升医院管理运行效率;推动产业进步为落
脚点,获得创新发展新动能。在大语言模型方面,要做实大语言
模型应用场景,瞄准关键行业切口,建设标杆场景,放大示范效
应。要构建优良生态,把“管行业也管智能化”的理念落到实处,形
成协同推进“人工智能+” 的产业创新氛围。在语料建设中,也
率先开展了卫生健康行业的语料建设和金融大模型应用测评
指南等领域方面的工作
[4] 。
卫宁健康公众号聚焦医疗 AI
2024 年,卫宁健康逐渐增加人工智能相关投入,官方公
众号也进一步聚焦人工智能话题,2024 年共发表 17 篇相关文
章,主要包括以下几类 :
上下游企业、校企合作类:发布《以新质生产力推动数
字技术与医疗健康服务的深度融合,国家超级计算天津中心
与卫宁健康共启超卫服务模式》、《总决赛揭榜! 2024 第七
届上海交大- 卫宁健康智慧医疗挑战赛圆满结束》等文章。值得
一提的是,在校企合作方面,我们还通过举办暑期人工智能
夏令营,让更多高校学生体验了“人工智能 + 医疗软件” 应用场景
和人工智能软件开发方法。
用户标杆案例推广类:发布《上海市肺科医院,如何借
力大语言模型》、《医护的专属智能助手!北京大学人民医
院发布基于大语言模型的人医智助 Pai Assistant》、《卫宁健
康WiNGPT 医学影像研究成果荣登国际顶刊〈Radiology〉》等文
章。
相关奖项类:发布《卫宁健康荣获“年度优秀数据要素
创新企业奖”、“年度数据要素产品奖”,亮相 2024 数据交易
节颁奖典礼》、《2024 医专委第四届年会暨“创新科技 智领
未来”论坛在沪召开,卫宁健康荣获“年度优秀医疗创新
奖”》、《卫宁健康入选 IDC vendor profile |《卫宁健康:AI
增强 WiNEX 效能再提升》》等文章。
小结
2024 年,医疗人工智能市场展示出巨大潜力,无论是中
国还是全世界,人工智能正在对医疗机构产生深远影响。政
府、医疗机构、企业和相关组织携手合作,通过达成共识、引导
场景建设及构建创新的上下游协同产业,共同推动行业发展。
卫宁健康作为积极践行者,也在 2024 年取得了一系列的成果
与用户认可。
观点
AI 的崛起促使我们重新审视各学科的
传统范式,本章“观点”汇集了变革时代的
各方声音,诸如 2024 年获得诺贝尔物理学
和化学奖的杰弗里·辛顿和戴密斯·哈萨比
斯,他们的研究已经展示了 AI 的深远影响,
模糊了计算机科学、生物、化学等核心学
科之间的界限。从不同的视角审视 AI 的
发展,我们将对其潜力和挑战形成更全面
的认识,最终为更具影响力和负责任的创
新铺平道路,特别是在医疗这一充满变革
的领域。
超越比较:人工智能的独特发展之路
在人工智能快速发展的今天,我们常常陷入一个误区:
试图将 AI 与人类智能进行直接比较,而忽略了我们真正要
解决的问题。
不同的起源,不同的路径
如果莱特兄弟执着于复刻鸟类飞翔的每一个动作,那么
我们或许乘坐的不是现代喷气式飞机,而是巨大的机械鸟。
同样,若强求 AI 完全模仿人类大脑的运作,或将错失其真
正的潜力。人类智能经过数百万年进化,以适应生存和社会
互动,如视觉系统擅长识别潜在威胁,这种能力在远古时代
至关重要。而 AI 是人类有意识创造的,旨在解决特定问题。
例如,AI 在图像识别上可能使用与人类不同的方法,在某
些任务上有超越人类的准确度。
各自的优势
人类大脑擅长创造性思维、情感理解和复杂的社会互
动,莎士比亚的戏剧和毕加索的画便是艺术创造与情感表达
的典范。相比之下,AI 在数据处理、模式识别和大规模计
算方面表现卓越,如 AlphaGo 在围棋比赛中击败世界冠军,
展示了其几秒钟内分析数百万种可能性的强大能力,这是人类
难以企及的。
超越比较:人工智能的独特发展之路
协同而非竞争
与其将 AI 视为人类智能的竞争对手或替代品,不如视
其为补充工具,就像望远镜扩展视力,计算器增强计算能力
一样,AI 扩展了我们的认知能力。在医疗诊断领域,AI 展
现了惊人潜力。研究表明,AI 在识别某些癌症时,其准确
率可达到或超过经验丰富的医生,但这并不意味着 AI 将取
代医生,而是与医生合作,从而更快、更准确地诊断疾病,
为患者提供更好的治疗。
我们真正需要的是利用 AI 帮助人类探索火星,而非在
地球上辩论到底 AI 与人类谁更聪明。
持续学习:AI 的进化优势
在比较 AI 与人类智能时,持续学习能力是一个关键要
素点。AI 具备类似软件版本迭代的持续学习能力,其效率
远超生物进化。想象一下,人类能像更新手机应用一样快速
升级技能和知识,那正是 AI 的优势所在。当一个 AI 模型学
习新知识或技能时,进步几乎可立即传播到所有使用该模型
的系统中。例如,在语言翻译领域,一旦 AI 翻译系统学会
新的表达方式或俚语,这些知识可以立即应用到所有翻译
中。相比之下,人类翻译家可能需要数月甚至数年时间来掌
握新的语言表达。
此外,AI 学习是高度目标导向的。研究人员可以精准
定义希望 AI 改进的方向,通过精心设计的训练数据和算法
实现这些目标。例如,在自动驾驶技术中,研究人员可以专
门训练 AI 以应对夜间驾驶或恶劣天气,使其在特定条件下
表现快速提升。
重新定义智能
随着AI 的发展,我们或许需重新定义“智能”。以往,
人类智能是衡量智能的基准,但 AI 的发展可能会拓宽我们
的认知。真正的智能不仅关乎解决问题的能力,还涵盖适应
性、创造力和情感理解等。在此广义定义下,人类和 AI 展
现出不同形式的智能。虽然 AI 在下棋或复杂计算上可能胜
过人类,但在理解语境、察言观色或创作原创艺术方面,人
类仍有优势。这说明两者在不同领域各有所长,而非单一“智能”
高低之分。
伦理考量
AI 的快速进化引发了伦理方面的关注。我们需要确保
AI 系统在不断进化的过程中保持对人类价值观的尊重,避
免对社会造成意外的负面影响。以 AI 招聘系统为例,如果
它在学习过程中不慎吸收了社会偏见,可能导致筛选应聘者
时出现不公。因此,在推进 AI 发展的同时,也要深入研究
其伦理与安全问题,确保其发展方向符合人类的长远利益。
小结
比较 AI 与人类智能的方法或如比较飞机和鸟类一样徒
劳,因为每种智能都有其独特的优势和局限性。未来的挑战
不是让 AI 变得更像人类,而是找到方法让这两种智能形式
相互补充,共同推动人类文明的进步。
正如飞机的发明开启了新的交通时代,AI 的发展可能
会开启新的认知时代。关键在于结合不同类型的智能以应对
复杂挑战。AI 的持续学习展示了一种高效精确的新型“进
化”,凸显了其与人类智能的根本差异,也指明了未来发展
的方向。
最终,我们应利用 AI 的快速学习能力,确保其发展符
合人类长远利益。在 AI 和人类智能共同演进的新时代,挑
战在于协调这两种“进化”模式,使之互补,共同创造一个更
智慧、美好的世界。
我
O
们
RA
应
降
该
临
如
:
何理解这个世界
过去一年,生成式 AI,即可以生成文本、图像、视频
等内容的 AI 技术,如山呼海啸般席卷而来。以 Sora 为代表
的文本生成视频工具,更是将这股浪潮推向了新的高度。它
不仅深刻地影响着人们的生活,更在悄然颠覆人类对世界的
认知。从文字的抽象到 Sora 的拟真,每一次技术革新都伴随
着认知边界的拓展与重塑。
真假难辨:“眼见为实”或成历史
Sora 的出现动摇了“真实”的定义,“眼见为实”的传统观
念受到了前所未有的挑战。我们通过感官体验理解“真实”,
文字抽象化了这些感知,绘画展现了画家的主观现实,摄影
定格了瞬间,而CG 技术丰富了想象空间。如今,
SORA 降临:我们应该如何理解这个世界
Sora 类工具彻底打破了“眼见为实”的神话,创造出真假难辨
的视频,甚至比现实更“真实”。这引发了对“真实” 定义的思
考:是客观存在的物理现实,还是感官体验的“真实感”?
这种对真实性的冲击也带来了信任危机。当虚假信息和
深度伪造变得轻而易举,我们还能相信什么?这要求我们更
加警惕,培养批判性思维,并建立新的信任机制。
原创何处寻:当 AI 具备“创作”能力
原创一直被认为是人类专属的能力,是创造力的象征。
但现在,AI 不仅能模仿各种艺术风格,还能生成全新的、独
一无二的视觉内容。例如,前段时间引起广泛关注的 AI 动
画短片《美丽的森林》,就展现了中国水墨画的独特意境, 其精
湛的技法和深远的意境令人叹为观止。人类创作者的地位是
否正在被撼动? 我们正在从内容的唯一生产者,逐渐转变为
AI 创作的指导者和优化者。
那么,在 AI 时代,原创的定义是否需要改写?或许,
我们应该把关注点从“是否由人类创作”转移到“是否具备创
新性和价值”。即使是 AI 生成的作品,只要它能带给我们新
的视角、新的体验,就同样拥有它独特的价值。
创造力的进阶:人机协作下的边界拓展
生成式 AI 不仅是工具,更是我们的合作伙伴,为我们
提供新的创作方式和灵感。如设计师利用 Sora 生成多个设
计方案,导演快速预览不同的拍摄效果。
这种人机协作模式提高了创作效率,更易激发创新灵
感。AI 的多样性生成能力打破思维定势,拓展想象空间。
但需警惕 AI 可能带来的偏见和刻板印象,确保创作内容的
多样性和包容性。未来,人机协作的创作模式将成主流,人
类创意与AI 高效执行力相结合,带来内容创作的繁荣发展。
信息洪流:如何在爆炸时代中不被淹没?
Sora 等工具的出现大大降低了内容创作门槛,导致信
息爆炸式增长。在这个信息泛滥的时代,我们每天面对海量
内容,既包括真知灼见,也有虚假信息和噪音。这种现象被
称为“信息污染”。如何从信息海洋中找到真正需要的内容是
一个巨大挑战。
因此,我们需要提升信息筛选能力和处理效率,并学会
应对信息过载带来的压力。同时,利用 AI 技术,如 AI 阅读
助手,可以帮我们过滤信息,提炼摘要,快速提取出论文核
心观点,节省时间成本,这将有助于我们高效应对信息过载
问题。
伦理与责任:技术发展下的道德考量
任何强大技术都是“双刃剑”,生成式 AI 也不例外。它
的广泛应用带来伦理和责任问题,如虚假信息和深度伪造技
术的滥用可能危害个人和社会;AI 生成内容的版权归属问
题引发争论,AI 训练数据的隐私和安全问题需重视。对此, 我
们需要建立完善的规则和法规,明确 AI 使用边界,规范开
发和应用。可以通过制定法律禁止 AI 制作和传播虚假信息,
加强公众教育,提高责任意识,引导正确使用AI 技术, 以构
建安全、可靠、可持续的 AI 发展环境。
小结
Sora 的出现标志着人类认知发展的新里程碑,为各行
业带来了巨大机遇和挑战。麦肯锡报告显示,生成式 AI 每
年可为全球经济贡献 万亿至 万亿美元,对投资分析
师而言,这意味着新的投资机会和行业变革。Sora 等工具
将提升广告、影视、游戏等行业的生产力。它揭示了我们对
世界认知方式的深刻变革,促使我们重新审视真实、原创、
创造力等概念。我们需拥抱技术带来的机遇,但同时警惕潜
在的风险。
在当前全球医疗健康领域,生成式 AI 正展现出前所未
有的变革潜力。从提升诊疗效率到优化资源分配,这项技术
正被寄予厚望,有望彻底重塑医疗行业。然而,要充分释放
这一潜力,我们必须深入审视现有的临床工作环境和医疗体
系结构。只有这样,才能确保技术优势真正转化为可持续的
健康成果,造福广大患者。
对现有体系的深度审视
任何新技术的普及都需要对当前体系进行深度反思与
调整。以腹腔镜手术为例,其广泛应用不仅依赖于技术创新, 更
需手术室环境升级、流程优化和医护人员再培训。生成式AI
的普及也是如此,其应用不仅依赖于算法开发,还需要
推动医疗
AI
保
:
健
重
全
塑
面
临
变
床
革
环境,
生成式 AI:重塑临床环境,推动医疗保健全面变革
对医疗流程进行重新设计,使 AI 技术与医护团队无缝对接。
通过升级医院信息系统,AI 可实时分析患者数据,为医生
提供决策支持。这些变革需要资金和政策支持,关键在于技
术如何提升医疗服务的人性化,改善患者生活质量。
AI 驱动的临床实践重塑
AI 技术引入深刻改变了临床实践的核心技能需求和团
队结构。医疗人员不仅需传统解剖学和疾病机制知识,还需
理解算法运作,警惕数据偏差,处理AI 系统的“黑盒推理” 问
题。技术驱动的变革正在推动临床团队的角色升级,例如“AI
护理协调员”,专注于患者管理、AI 工具操作和风险评估。
在这种新协作模式下,医护人员将与数据科学家、AI 工
程师组成跨学科团队。这引发了我们对临床实践的重新思考:
医生的核心职责是什么?技术辅助作用如何界定?这些问题
需要在实践中不断探索和解答。
生成式 AI 的商业化路径
生成式 AI 实现商业化落地的关键在于对医疗场景的深
度挖掘和产品的反复打磨。高价值场景需要具备两大特点:
专业性要求高和服务范围广。基于我们的调研和研究,首先
关注以下高潜力场景:
病历质控:AI 可以自动检查病历的完整性、逻辑性和
规范性,覆盖广泛的科室,在提高医疗效率的同时,可有效
降低医疗纠纷风险。
医学影像分析:在癌症筛查(如肺结节、乳腺癌)等领域,
AI 不仅能够显著提升影像解读的准确性,还能大幅节约医
生的时间,并能直接输出结构化报告。
个性化诊疗支持:结合患者的基因信息、病史和最新医
学研究成果,AI 能够为医生提供精准的治疗建议,尤其在
复杂疾病的治疗中具有巨大的应用潜力。
要实现这些场景的商业价值,需要高级医学专业知识的
深度融入,深入理解医疗需求,不断优化算法质量,并强化
用户体验。这种聚焦高价值领域的策略,将帮助生成式 AI
从技术创新迈向商业成功,为医疗机构带来实际的经济效益
和投资回报。
推动公平可及的医疗未来
重新审视生成式 AI 的全球定位迫在眉睫。若不及时行
动,这项技术恐沦为高收入国家的专属,进一步加剧全球医
疗资源不平等。医疗行业需以全球视野推动技术共享和知识
合作,确保所有患者,无论经济状况或地理位置,都能平等
受益于 AI 驱动的医疗变革。例如,通过国际合作开发低成
本高效 AI 工具,并在医疗资源匮乏地区应用,有助于缩小
全球医疗鸿沟。AI 应成为连接全球医疗系统的桥梁,而非
扩大差距的工具。
小结
生成式 AI 的出现,为我们重新审视临床环境与医疗体
系运作模式提供了契机。从定义新临床角色到构建公平、可
持续的医疗模式,这项技术不仅是工具,更是变革的催化剂。
在这一关键历史节点,医疗行业的参与者需携手努力, 确
保技术进步带来更公平、预防为主的医疗保健未来。生成式
AI 的真正价值不仅在于技术创新,更在于对人类健康的深
远影响和推动医疗公平的发展。
问答
产力。
者想法,都适合通过模型来解决。
验证了这一问题的结论,并不是所有的问题或
在我们自 2023 年开始发起的各产品功能盘
点中,通过对数百个应用视角的逐一评估,也
也制约了模型的一些应用。
往往也不尽如人意。除此之外,伦理和法律问题,
因此对于需结合最新的政策、法规、文献的回答
结果。其次,模型通常基于历史数据进行训练,
确或带有偏见,那么模型将必然生成误导性的
将产生最直接的影响,如果数据不完整、不准
依赖训练数据,训练数据的质量对模型的回答
杂性决定了它无法解决所有问题。首先,模型
辑推理等领域表现卓越,但其局限性和问题复
答案是否定的。大语言模型作为一种强大
的工具,虽然在自然语言处理、信息生成和逻
Q 1. 是不是所有问题都能通过模型解决?
在 2024 年 3 月的《政府工作报告》中,人工智能被多次
提及,并被赋予了重要的战略地位。报告中提到,要深化大
数据、人工智能等研发应用,开展“人工智能 +”行动, 打造
具有国际竞争力的数字产业集群。与此同时,用户的期盼和
需求也发生了深刻变化,越来越多的行业开始关注如何高效
且安全地应用大语言模型,以满足个性化需求并提高生
在医疗应用探索中,我们的产研团队、各医疗机构用户,
甚至是第三方机构,对 WiNGPT 抱有极大的兴趣和期待,
且在试用后提出了诸多问题,现选取实践过程中及行业中热
度最高的一些问题进行解答。
医疗大语言模型十问
优化及维护难度,可能影响产品迭代速度。
大,成本增加。此外,模型规模增大也带来开发、
型对算力和内存要求高,训练和推理的资源消耗
会持续提高,但增益呈现递减趋势。同时,大模
数数量)、训练数据量和算力的增加,模型性能
OpenAI 的 论 文《Scaling Laws for Neural
Language Models》[1] 表明:随着模型规模(参
用场景等多方面因素。
大小的选择通常需要综合考虑性能、成本和应
普遍认知中,更大的模型通常代表更强的
理解能力和泛化能力,但在实际应用中,模型
模型的性能水平。
我们就能用参数量减半的模型达到当前最先进
个月(约 100 天 ) 翻一倍。这意味着,每 100 天
间呈指数级增长,2023 年以来能力密度约每
度定律(Densing Law)—— 模型能力密度随时
“适合”才是最重要的。近期,来自清华大
学刘知远教授团队发现并提出大语言模型的密
Q 2. 在应用过程中,模型越大越好吗?
一步扩展国产化算力适配范围。
海光等。未来,随着需求的增加,我们也将进
WiNGPT 支持国产 GPU 服务器部署方案,
已完成测试的厂商包括:华为、燧原、沐曦、
Q 3. 是否支持国产 GPU 部署?
层医生提供患者健康评估和健康管理建议等。
专病库的快速生成等;在公共卫生领域,对基
越能力,对自由文本进行信息抽取以支撑各类
还有利用大语言模型在自然语言处理方面的卓
本块生成,有结合了语音病历的病历内容组装,
行统计呈现;在临床业务中,有简单的病历文
报告进行质控,并将质控结果在管理模块中进
细分场景进行挖掘。在医疗管理中,对病历、
要围绕医疗管理、临床业务、公共卫生领域等
文档翻译、医疗对话等等。在具体实践中,主
病历与报告质控、文书总结与生成、信息抽取、
具备处理医疗场景特定任务的能力,包括但
不限于医学知识查询、症状分析与诊断建议、
也
WiNGPT 除了具备大语言模型的通用能力,
Q 4. 我们的大语言模型目前支持哪些应用?
需求对模型的输入和输出进行个性化调整,
帮助用户更高效地完成任务。
户
个性化和用户体验感:Copilot 能够根据用
言模型提供基础的理解与生成能力,还可以
集成领域知识,从而满足特定需求。
语
更高的集成能力:Copilot 不仅可以依赖大
从而提升了系统的可靠性和可维护性。
逻辑,而无需应用开发者对代码进行大幅修改,
改变时,Copilot 可以通过适配层自动调整调用
应用的正常运行。当模型版本升级或架构发生
提高兼容性和可维护性:Copilot 通过设计
稳定的中间层,屏蔽了底层模型的变化,确保
保障了接口稳定性。
际业务场景,从而降低技术门槛,提高开发效率,
接口,使得开发者可以更轻松地将模型嵌入实
封装大语言模型的能力,提供简单、标准化的
业务对接难度降低:直接调用模型常面临技
术复杂度高、接口不统一等问题,Copilot 通过
WiNEX Copilot(简称Copilot)是业务产品
与模型对接的唯一途径,主要出于以下考虑:
Q 5. 实际应用时,应该如何对接模型?
设计不同的提示词。
务必注意,没有完美的提示词,实践与体
验视角不同,接受并理解不同场景,根据需要
- 重视用户反馈
- 尽早让领域专家参与
- 建立清晰的路由 / 思考逻辑
- 为不同功能创建专门的提示词
- 将复杂任务拆分成小模块
- 根据实际反馈逐步改进提示词
- 从简单开始 , 先理解问题
应用试运行过程中,我们建议:
好地满足用户的需求,在对提示词进行设计和
这一问题是大语言模型落地过程中经常遇
到的问题。为了让模型更好地与产品结合,更
Q 6. 如何让模型的回答更符合应用的要求?
3)流式输出:对某些需要输出段落式文本
的场景,采取流式输出的方式,增强用户体验。
2)批量处理:充分利用硬件的并行处理能
力,提高吞吐量。
调用已处理的数据。
存储在数据库特定区域,以便业务使用时直接
场景,还可利用系统空闲时间预先处理数据并
而加快推理速度。对于某些即时性要求不高的
1)数据预处理:对输入数据进行一定程度
的预处理,减少输入数据的大小或复杂度,从
以下策略:
最大化利用好模型的能力,我们一般建议采取
然而,在实际应用中,出于成本效益的考量,
算力往往是受限的。因此,如何在有限的算力中,
化。
WiNGPT 已经采用了量化、优化器等方法进行优
及数据处理等多种因素的制约。在算法层面,
模型的推理速度对用户体验有着直接影响,
而这一速度通常受到硬件、软件、模型架构以
点?
Q 7. 如何让模型生成的速度快一点、再快一
医疗大语言模型十问
而不是害怕出错或追求完美而对其敬而远之。
把 AI 当成思考的帮手,通过与它对话理清思路,
多次尝试找到最有益处的答案。同时,也可以
提问时应尽量具体并附上相关背景信息,通过
单、熟悉的领域入手,把它当作一个耐心的伙伴,
难以充分展现 AI 的优势。使用 AI 的关键是从简
来说有点复杂,操作起来具有一定难度,因此
信自己的经验;二是,AI 系统对不熟悉它的人
判断和自己的想法不一致时,往往更倾向于相
多人不太愿意相信机器的建议,尤其是当 AI 的
医生在使用 AI 后并未表现出比未使用 AI 的
医生更优异的原因,主要归结于两点:一是很
而有研究声称使用 AI 的医生表现更
佳,
这是真的吗?
Q 8. 为什么有的医生反映 AI 一点也不好用,
存储或推测个人信息。
根据公开数据和统计规律生成内容的,并不会
的准确性和健壮性考虑。其次,大语言模型是
选,以确保不涉及隐私信息,这也是为了模型
在训练之前,公开数据会经过严格的脱敏和筛
这样的数据对于训练模型可能是有害的。因此,
低、收益小,还可能带来法律风险,更重要的是,
了法律法规,也没有必要,毕竟隐私数据质量
会采用用户隐私数据训练模型,因为这既违反
型的训练数据主要来自公开的互联网信息、
开源数据、企业的知识库等。正规公司通常不
模
这些担心其实是不必要的。首先,大语言
吗?
Q 9. 我的隐私信息会被大语言模型拿去训练
疗体系中不可或缺的角色。
协助医生优化流程,而非直接取代医生作为医
AI 更适合承担繁琐的行政工作和数据处理任务,
能尚未问世,技术发展还有很长的路要走。因此,
面仍有局限。全面胜任医疗任务的通用人工智
在整合患者多方面信息和制定综合治疗方案方
AI 的强项多集中于单一领域,如影像分析,但
医生的执业资格涵盖了跨学科的全面能力,而
因 AI 决策失误引发信任危机或医疗事故。此外,
建议,还需根据具体情况调整治疗方案,避免
能力。医生作为“安全阀”,不仅要验证 AI 的
其次,AI 尚不具备独立承担医疗决策的责任的
人性化关怀,这是当前 AI 技术难以精准复制的。
疗决策时,患者往往需要医生提供心理安慰和
源于对情感支持与理解的需求。在面对重大医
的信任不仅建立在技术精准之上,更深层次地
作负担分配四个方面解释。首先,患者对医生
AI 短期内尚无法完全取代医生,这一结论
可以从人性需求、技术局限、制度复杂性和工
Q 10. AI 会取代医生吗?
WiNGPT
WiNGPT 2024 回顾
WiNGPT 是一个医疗垂直领域大语言模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行
业提供智能化的医疗问答、诊断支持和医学知识等信息服务,以此提高诊疗效率和医疗服务质量。通过利用
大规模语料库进行训练,WiNGPT 可以理解并生成与医疗相关的高质量文本,帮助提高医疗服务效率, 改善患
者护理,并支持医学研究。从最初的 WiNGPT-1 到最新的 ,WiNGPT 在参数规模、应用场景和性
能提升方面取得了显著进展。
• WiNGPT-1
WiNGPT-1 采用了通用 GPT 架构, 具有
62 亿参数。总训练 token 达 37 亿,包含
9720 项 药 品 知 识 、 18 个 药 品 类 型 、 7200
余项疾病知识、2800 余项检查检验知识、
53 本书籍知识以及 1100 余份指南文档。
这一版本奠定了 WiNGPT 的基础,为后续
的迭代提供了坚实的数据支持。
• WiNGPT-VL
WiNGPT-VL 融入更多医疗领域知识和指令
数据,进行新一轮预训练和微调,并扩充
上下文 token 长度,进一步提升模型的理解
能力和泛化能力。同时,继续优化多模态
模型,整合数据增强、知识增强、检索增
强,以应对更复杂的应用场景。这一版本
标志着 WiNGPT 在医疗领域的应用达到了
新的高度。
• WiNGPT-2
WiNGPT-2 发布了 70 亿 参 数 版 本 , 新 增
检索增强能力,并于 2023 年 8 月率先在
医院生产环境试运行影像报告结论生成功
能。9 月发布全新架构的 130 亿参数版本,
更易扩展和个性化定制。这一版本在参数
规模上有了显著提升,同时,增强了模型
的实用性和灵活性。
25 2024 医疗人工智能年度报告
•
发布具有 340 亿参数版本,
并完成初期的多模态版本训练。理解能力、
推理能力和应用适配能力明显提升。11 月
同步进行五家医院试点,场景包括病历内
涵质控、临床辅助决策、病历文书生产等。
这一版本不仅在参数规模上进一步扩大,
还在实际应用中取得了显著成效。
•
版本带来了全面的能力提升,
特别是在医疗任务处理、信息抽取和数学
能力方面有显著进步,其各项评估指标如
执业医师考试、医疗场景问答、指令遵循
及中文通用能力等均有所增长,尤其是数
学解题能力从 % 大幅提升至 %。此
外,针对中文医疗模型评测进行了扩展, 增
加了新的评估标准,并引入 Multi-Agent 插件
以增强辅助诊断功能,在真实环境测试中
医疗质控准确率达到了 90%-95%,为用户
提供更高性能的服务。
•
使 用 更 加 强 大 的 模 型 基 座
-32B,经过后训练,在通用和医疗
能力上都有显著提升。此外,我们重构了
模型后端,引入了 Routellm 使 WiNGPT 可
以异步在安全合规、插件工具和多种模型
之间进行路由。例如,我们加入了互联网
搜索功能以降低模型回答的幻觉,为用户
提供更精准的服务。
2024 医疗人工智能年度报告 26
为什么要研发行业垂直领域模型?
研发医疗行业垂直领域模型,优化医疗服务流程,提升
患者就医体验、减轻医生工作负担、提高管理效率以及满足
政策管理要求。WiNGPT 实现自动化和智能化病历书写、辅助
医疗决策,并为医生提供持续学习的机会。同时,借助数据
分析和智能监控确保服务质量,合理调配医疗资源,挖掘数
据潜在价值,以支持更明智的医疗决策。此外,这些模型符
合国家电子病历标准,提供合规的医疗方案推荐和病历生成,
保证病历内容的质量和完整性,还引入了多样的输入和操控
模式,如语音和图像识别,以及灵活的数据处理方式, 从
而全面提升用户体验和操作便捷性。
核心价值
专业知识:经过大量行业特定数据的训练,WiNGPT 具备
了深厚的专业背景知识,能够提供更加精准的服务。
定制化能力:根据客户需求灵活调整模型参数,以满足
不同应用场景下的特殊需求。
持续更新:随着新数据的加入和技术的进步,模型性能
不断优化,保持领先地位。
安全合规:严格遵守相关法律法规,保障用户信息安全
和个人隐私。
关键技术
大语言模型已经从单纯的文本生成工具演变为多功能
的智能角色,深刻改变了我们与数据和信息互动的方式。然
而,为了进一步提升这些模型的能力边界,我们也在不断
探索各种扩展技术。接下来,我们将介绍过去一年 WiNGPT
在数据合成、对齐训练、Agent 技术、检索增强生成以及数
字人等关键技术上的具体实践。
数据合成
为了应对日益增长的对多样化和技能特定数据集的需求,
我们采用合成数据生成作为补充方法。合成数据生成作为一
种有前景的替代人类编写数据的方法,因其更容易获取、可
定制于不同目的,能反映底层模型的广泛知识而受到关注。
此外,由于医疗数据的构建需要人类具备较高的医学知识水
平,因此,采用有效的数据合成方式,可以快速构建大量的
医疗指令集。
一、文本指令合成
本次数据合成,主要集中在医疗、通用和数学等领域的
中文数据。
医疗指令合成:通过 WiNGPT 平台获取人工指令,分
类得到不同医疗场景的候选种子集,对候选种子集进行去重
和过滤得到高质量种子集。将种子集与众多真实病历文本融
合后的内容交予大语言模型来依据具体医疗场景的设定来重
述,从而得到大量接近真实医疗场景的指令。
非医疗指令合成:通过开源平台获取通用、数学等指令,
对指令进行分类,如数学问题涉及小学数学到高级数学等分
类;随后,针对每类数据,采用角色为中心,使用高性能的
开源模型进行指令合成,每次随机选择 3~5 条数据,让模型
借鉴来合成独特且特定于给定角色输入的指令。对于数学类
指令,另一种合成方式是从预训练数据中获取数学相关的上
下文,并将其转换成问答格式;对于新生成的指令再通过
Evol-instruct 的方法进行 1-2 次深度和广度的进化,之后对每类
指令进行严格去重,得到多样化的指令。
答案合成:在答案的生成过程中,使用开源模型以及
GPT-4o 来进行合成,通过随机选择温度超参数在 − 范
围内,以实现多样化的生成。随后,运用拒绝采样(rejection
sampling) 的方式来获取每个指令的最优答案。特别地,针对
医疗指令,我们确保了部分数据集经历了严格的人工审核和
校验流程。
数据审核:所有非人工审核的指令经过 reward 模型
进行打分,以某一阈值来对数据进行过滤。在每类数据集中,
使用困惑度 (PPL) 来区分指令的难易程度,最终会根据
reward 模型给出的困惑度结果的区间来进行指令集的采样。
二、多模态数据合成
对话数据合成:针对开源数据中中文图文指令集少且指
令集描述普遍过于简短等问题,我们设计了一种基于开源模
型的合成数据生成方案。该方案利用开源多模态模型生成较
为详细的中文 caption 指令集,随后在同一场景中随机挑选1-4
张图片和相应的中文 caption,将 caption 数据提供给
WiNGPT ,通过设计系统指令让其每轮进行提问,将问题和图
片给到开源多模态模型进行回答,最终通过设定循环次数,
得到多轮多图的对话数据。之后,我们根据答案的长度、语句的
重复性等进行规则过滤,对数学类题目则根据原始数据的答
案进行过滤。在制作最后的 caption 指令集时,我们针对每一
个场景都设计了上百个问题,确保了 caption 数据集的多样性;
在对话数据集上,我们让 WiNGPT 在不同场景下提问,以获
得丰富的问题。最终,我们通过合成数据的方式得到了一批
多样性、答案较为详实且具有一定质量的中文多模态图文指
令集。
文字转图片数据合成:为了创建多样化且高质量的图文
组合,我们将文本内容转化为图像,通过应用多种背景颜色、精
选不同的字体样式以及随机调整字体大小等方式来实现, 生
成多样化的图片。在 OCR 任务上,我们将预训练文本转为图
片,得到图片内容和文本内容一致率接近 100% 的中英文多领
域 OCR 识别指令数据;在图片问答任务上,我们以WiNGPT
微调时的高质量指令作为素材,将问题转为多样化图片,原答
案作为文本,得到高质量的图文 VQA 数据集。
对齐训练
随着大语言模型规模和复杂性的增加,其输出结果往往
难以在不同情境中始终符合人类预期。这需要依赖对齐技术
来解决,即通过优化模型的训练方式,使其生成符合预期的、合
乎伦理和社会价值观的输出。
WiNGPT 的对齐技术更新主要有三方面,包括数据对齐、优
化算法和高效的数据处理方法。数据对齐聚焦于确保输入样
本能引导模型生成合乎期望的输出,而优化算法用于在训练
过程中强化这种对齐关系,数据处理方法则通过提升效率来
改善训练过程的速度和稳定性。
对齐数据的进一步优化:主要包含价值观对齐,偏好对
齐以及行业规范对齐。对齐数据的持续优化使其在各领域的
表现更符合预期并具备更高的应用价值。
新的损失函数 - CPO-SimPO:新的损失函数较之传统
DPO 更加简洁且高效,进一步提升了模型对对齐偏好的表
达能力。
高效的数据打包算法 - LLPFHPP:引入了长包优先的
直 方 图 填 充 算 法(Longest-pack-first histogram-paired- packing,
LPFHPP)。该方法结合了直方图填充和配对填充的策略,
优先填充长数据包,有助于数据利用率的提升和计算资源的
优化。
现有的对齐技术已经在多个方面实现了显著提升,但在
不同应用场景中仍存在一些优化空间。当前,对齐技术评估
大多基于离线测试数据,然而,在复杂的任务中,这样的评
估往往不够全面。研究对齐效果的在线评估方法,并且提升
对齐过程的可解释性,有助于开发人员理解模型的行为特征,
提高模型的可控性和透明度。未来的优化工作可以在多维度
对齐方法、自适应优化和评估方法等方向上进行深入探索,
使得对齐后训练技术能够更加精确、灵活地满足不同应用场
景的多样需求。
Gr aph R A G ( R e trie v al-A ugment ed
Generation)
国际疾病分类(ICD)是全球统一的医疗分类标准,
准确对齐患者信息至 ICD 编码对诊断和治疗至关重要。然
而,大语言模型直接根据患者信息生成 ICD 编码存在一定
局限性,例如容易产生幻觉、难以处理复杂推理任务,以
及在应对 ICD 版本更新时成本较高。为此,我们构建了基
于 WiNGPT 的 Graph RAG 作为解决方案。这一方法结合了检
索增强技术,并通过知识图谱进一步提升了系统的推理能力。
Graph RAG 具有以下优势:
显式知识表达:知识图谱通过节点和关系的结构,清晰
表达医学知识,便于系统准确使用信息。
复杂语义推理:支持多跳推理,跨越多个实体和关系链
条,能够处理复杂查询和语义关联。
知识补全与一致性:利用知识图谱中的隐含信息,补全
患者记录中的知识缺口,确保生成结果与上下文的一致性。
我们基于 ICD-11 编码的层级结构构建了 ICD-11 知识图
谱,作为 Graph RAG 的核心组件。该图谱中,每个 ICD 编码
被作为节点,包含分类名称、定义等信息,并通过层级关系
连接,支持跨层次和跨领域的推理,能精确映射患者的症状
与诊断信息。
图1. ICD11编码知识图谱示意图
在具体实现过程中,首先将患者的临床信息输入系统。
大语言模型通过分析层提取关键医学信息,如症状和诊断等。
这些信息通过知识库层映射,通过 ICD 编码的层级结构在
知识图谱中进行查询,检索到相关节点和关系。
随后,借助知识图谱中的推理能力,处理提取的节点,
恢复其名称、定义等信息,确保能够准确匹配患者的临床信
息,并对齐最合适的 ICD 编码。此过程不仅依赖于知识图
谱的结构化数据,还结合了推理链条中的关系,以提升对复
杂查询的处理能力。最终,生成的 ICD 编码将作为诊断对
齐的输出。
检索层
检索
信息处理层
三元组结果
LLM 诊断分析
输出层
最终 Top5 ICD11 编码
检索
知
IC
识
D
图
11
谱
知识库层
向量
F
索
is
引
s
库
bge-m3-large信息汇总
图2. ICD编码对齐技术路线图
目前,我们的 ICD 编码对齐系统主要依赖文本数据和知
识图谱的推理能力。随着多模态数据处理技术的进步, 未来
我们有望将医学影像、实验数据等多模态信息整合进RAG 系
统,从而进一步提升对复杂病历的理解和编码准确性。
AI Agent
随着大语言模型技术的飞速发展,AI Agent(智能代理) 作
为一种具有高度智能和自主性的实体,正逐渐崭露头角。它
能够感知环境信息,基于所获取的信息进行分析、推理和决
策,进而采取行动以实现特定目标的智能程序或系统。在医
疗行业,AI Agent 蕴含着巨大的潜力,有望从根本上改变医疗
服务的提供方式、效率和质量,无论是在疾病诊断、治疗方案
制定,还是在医疗资源管理等方面,都可能带来创新性的变革,
重塑医疗服务,引领其走向更加智能化、精准化
和个性化的未来。
Multi-agent 执行框架
为了应对高度定制化、复杂的医疗业务需求,提升 AI
Agent 任务处理效率,我们基于 Celery(异步开发框架)设计
研发了 Multi-agent 执行框架,为多样化业务提供了一个高效、
灵活且可靠的异步任务处理平台。该框架允许各业务根据自
身需求自定义工作流程,确保不同业务逻辑能够精准实现,
满足特定的应用场景要求。通过多 Agent 的协同工作和交互,
支持复杂任务的高效完成及跨业务的无缝协作,大大提升了
业务灵活性。在技术特性方面,框架借助Celery 的强大异步
处理能力,极大提高了系统并发能力。同时,它支持多业务
在同一环境中分布式执行,简化了一体化部署,确保了高可
用性和可扩展性。
输入层 患者信息
LLM 分析层 其他重要信息分析初步诊断分析检查所见分析主诉分析症状分析
图3. Multi-agent系统异步执行架构图
临床辅助诊断 Multi-agent 系统 战。为此,我们借鉴了临床诊疗思维和认知心理学中的双系
临床诊断决策是医疗体系中至关重要的一环,它直接关
系到患者治疗方案的制定和执行。精确且全面的诊断是确保
患者得到有效治疗的基础。然而,在当前的医疗实践中,
由于医学专科化日益加深、医疗资源分布不均以及医生需要
同时承担繁重的临床和科研任务,临床诊断决策面临诸多挑
统理论,将临床诊断过程划分为快速推理和复杂推理两部分。
快速推理依赖于长期训练形成的直觉反应,而复杂推理基于
记忆知识、外部数据进行逻辑推理和决策。结合大语言模型
和AI Agent 技术范式中记忆、工具、反思优化等组件, 我们设
计并实现了临床诊断流程。
图4.临床辅助诊断Agent系统业务流程图
message record & message
p
c
a
o
ra
tro
e
l
t
l
er
r
s
record
async_task parameters
controller
forever_loop
Task2
…
…
Task1
async_task pool
Task1
Redis
Task2Task2
……
晕、视物成双 15 小
时
主要
名称:急性脑梗死
诊断……
依据:
……
断名称:原发性高血
压
诊断审核 Agent
最终审核
Agent 后端服务前端界面
反思优化工具
记忆知识
慢思考:综合分析
医生丙 Agent
医生乙 Agent
医生甲 Agent
快思考:初步诊断
(1) 快速推理 Agent
快速推理是根据病人的入院信息生成可能的诊断池。为
了生成更广泛的可能诊断,我们模拟多医生联合会诊,通过
不同专业虚拟医生角色的加入,系统能够从多个角度对病情
进行分析,从而扩大并丰富诊断范围。
(2) 复杂推理 Agent
复杂推理是对快速推理产生的诊断,利用疾病知识库、
历史记忆数据、检索工具等获得的诊断相关的知识和记忆,
进行复杂的、理性的推理决策过程。
(3) 反思和优化 Agent
利用医生的诊断来评价复杂推理结果的正确性,通过对
错误诊断的纠正和记录,生成记忆数据,作为下一次复杂推
理的参考上下文,提升复杂推理Agent 的容错和纠错能力, 使
Agent 具有不断进化和提升的能力。
图5. 基于AI-Agent的临床辅助诊断
基于上述设计思路,我们把辅助诊断分成了三个步骤:
第一步,初步诊断。三个不同的医生角色对用户输入病历生
成可能的初步诊断;第二步,综合分析。根据 RAG 返回的
疾病相关的知识对初步诊断进一步分析,去除不合理的诊断
并生成诊断依据;第三步,最终诊断。对第二步分析得到的
结果区分主诊断和次要诊断。
基于大语言模型的临床辅助诊断 Agent 显著提升了诊断
效率和准确性。未来,将聚焦个性化治疗方案,实时更新医
学知识,促进跨学科协作,并优化用户界面以增强用户体验,
推动医疗服务向智能化、精准化和个性化的方向发展, 为
患者提供更高质量的诊疗服务。
数字人
在人工智能与医疗健康深度融合的时代,智慧医院正逐
渐成为医疗服务创新发展的新方向。数字人在医院场景中的
应用日益广泛,潜力巨大。3D 数字人技术的开发与应用,
并将其引入智慧医院场景,让人工智能的智慧更具象。
技术实现
3D 数字人涉及多个模块,可以概括为建模、驱动、渲
染以及应用四大步骤。数字人在实际应用中展现出复杂的交
互流程和多个技术综合运用的能力。下图展示了数字人的技
术框架。
在应用端,用户通过输入文本或音频与系统交互。交互
中心负责将输入内容统一转换为文本,并通过大语言模型服
务生成相应的回答,同时进行情感分析,最终获取到情感分
类和回答内容的音频,以驱动后续的表情和动作生成。3D 渲
染中心负责通过音频和情感分类,驱动数字人的口型、表情
和动作,最终在 3D 场景中渲染出数字人的形象,并通过推
送像素流的方式展示在用户端。
技术创新
图6. 数字人整体技术架构图
传统的门诊问诊过程中,患者数量庞大,初步症状筛查
通 过 正 面 照 自 动 生 成 3D 人 物 头 部 模 型 并 利 用
M e t a H u m a n 完 善 形 象, 大 幅 提 升 建 模 效 率; 采 用
audio2face 及情感分析技术,实现音频同步口型动画与表情
控制,驱动丰富表情和肢体动作;使用 UE5 结合像素流技
术,确保多终端下高质量实时渲染与互动;云端部署交互与
渲染任务,降低终端硬件要求,支持跨平台流畅访问数字人
画面。
应用示例
流程耗时且重复性强,通过技术手段优化预问诊环节,减少
医生负担,提升患者就诊效率,成为智慧医院的重要环节。
为此,我们基于 WiNGPT 设计实现了数字人预问诊系
统,模拟医护人员的预问诊流程,通过与患者的语音或文字
互动,收集病史、初步症状,为医生诊断提供辅助参考。
患者可文字或语音输入,WiNGPT 提供的问诊助手将生成
回答文本,再通过数字人服务端进行转换,实时驱动数字人
进行口播以及动作和表情的展示。丰富患者交互体验的同时,
也增强了问诊过程的亲和力与沉浸感。
应用端
输入 推送像素流
3D 渲染中心
综合渲染
情感分类
回答内容
音频文字转语音服务语音转文字服务
音频服务
音频
交互中心
表情动作服务情感分析服务
大语言模型服务
口型驱动服务
文本
3D 场景与数字人
图7. 问诊对话图
我们在 模型发布时,使用数字人在虚拟场
通过数字人在 3D 场景中的生动演示,宣教和培训内容
景中介绍 WiNGPT 的相关内容,并生成内容短视频,进行
传播与分享。我们希望通过这种方式让更多人直观形象地了
解 WiNGPT 的功能与价值。
在此案例中,我们构建了 3D 场地、显示大屏以及不同
视角的变化。同时,还准备了 WiNGPT 内容的相关素材,
涵盖图片、视频、文字稿件。同时,我们将需要讲述的文字
稿与展示素材内容进行对应,并按照介绍内容的顺序整理。
随后,将文件上传至此项目服务中,系统便能自动生成数字
人介绍的 WiNGPT 的视频。【扫码看数字人】
此实例可以进一步扩展应用于智慧医院的数字人宣教与
培训,如健康知识科普、疾病预防讲解以及医疗设备使用培
训等场景。
将更加直观、易懂,提升医护人员技能和患者健康素养的同
时,降低了培训成本,优化了智慧医院的教学与宣教流程。
扫一扫,观看视频
目前,我们正在探索通过生成式 AI 生成数字人,即利
用照片、音频和动作进行训练,以实现数字人的快速生成。
与此同时,我们也在持续加强 3D 数字人的开发和应用。
展望未来,由生成式 AI 生成的数字人将能快速应用于
短视频创作,并结合 3D 数字人技术,实现高精度、强交互
的场景,为智慧医院建设提供更强大的技术支撑。
启示
2024 年,除了上述关键技术之外,我们在实践过程中
还获得了以下启示:
(1) 充分训练的语言模型中,每个参数可以存储约 2
比特信息,这意味着我们可以通过估计数据中的有效信息计
算模型所需要的数据量。
(2) 训练数据中若存在低质量数据,会严重损害模型
对高质量数据的知识存储能力,因此,数据质量是重中之重。
(3) 模型的深度对于推理能力至关重要,因为推理过
程需要多步的内部计算的支持。
(4) 在预训练数据中加入带错误和纠正标记的数据,
可以显著提高模型的推理能力。
(5) 利用合成数据训练语言模型是未来的重要研究方
向,有助于突破现有模型的局限性。
(6) 测试时间训练(Test-Time Training)是下一个技术
突破的关键,很可能与 OpenAI 的 o 系列实现有关。
模型评估 - WiNEval
经过过去一年的精心雕琢,WiNGPT 的专业能力和可靠性
取得了长足的进步。尤其在医学考试和医学场景下,更
是超过了多个通用领域大语言模型以及医疗领域大语言模型。
在 此 背 景 下 , WiNEval 测 评 方 案 引 入 更 多 新 元 素 以 适 应
WiNGPT 的快速成长。
新思考:WiNEval 在医学大语言模型评估方面取得了一定
的进展,尤其在医学考试、医学场景和指令遵循等类型问题
的覆盖上。然而,WiNEval 在评估指标上仍显单一,部分场景
缺乏客观标准。此外,虽然覆盖了广泛医疗场景,但在一些
细分领域的专项评估上仍不深入,未能全面反映模型在特定
任务中的差异。同时,医疗数据复杂且扩展困难,使得数据
量问题成为亟待解决的关键挑战。
新特性:WiNEval 通过精细化任务划分,针对入院、病程、
出院三大场景及专业能力、逻辑推理和标准化三项能力, 构建专
项数据集。它采用了多维度的评价方式,涵盖客观评估指标、
生成式任务评估、幻觉评估、模型竞技和加权评估, 以确保评
估的全面性和准确性。WiNEval 的模块化架构支持灵活扩展,
其动态更新机制适应医疗领域变化,高效响应新任务和技术引
入,为模型评估提供更精准的支持。
新构成:WiNEval 的实现基础在于精心构建的数据集, 这
些数据集覆盖了医疗领域的多个关键方面,确保了评估的全
面性和深度。其中,综合评估数据集包括 MCKQuiz、MSceQA、
MInsFL,而专项评估数据集则以 MDSE 为代表, 这是一个基
于真实医疗场景构建的数据集,聚焦于专业人员关注或亟需
AI 辅助的医疗任务。目前,MDSE 包含七个专项数据集,
每个数据集针对特定的医疗任务进行了精心设计。
评估集 数据量 评价指标 评估内容
MCKQuiz 12785 Micro-F1 医学专业考试
MSceQA 395 LLM Judge 多医学场景能力
MInsFL 156 LLM Judge 医疗指令遵循
MDSE 1600 医疗专项评估
CMedPD 500 Micro-F1 初步诊断阶段的逻辑推理能力
CMedCQC 550 Accuracy 病历质量控制的专业能力
CMedTP 200 LLM Judge 制定诊疗计划时的逻辑推理能力
CMedAE 100 Micro-F1 辅助检查生成的专业能力
CMedMK 50 LLM Judge 医学知识问答的专业能力
CMedICD 100 Accuracy 疾病编码标准化的标准化能力
CMedBM 100 Micro-F1 出院带药指导的专业能力
表1. WiNEval数据集说明
效果 型的表现存在明显差异,不同模型在专业能力、场景适应性
WiNEval 通过模块化设计的数据集和指标,全面评估了大
语言模型在不同任务和场景中的表现。综合评估显示,模
以及任务执行效果上展现出各自的优劣势。表 2 展示了多个
大模型在 WiNEval 上的具体得分及其综合平均值。
Model MCKQui
z
MSceQA MInsFL MDSE Avg
-32B-Instruct
-34B-Chat
-72B-Instruct 90
表2. 不同大语言模型在WiNEval上的评估结果
大语言模型幻觉是 WiNEval 评估框架中的一项重要指
标,反映了模型在医疗任务中生成真实、可靠回答的能力。
通过该评估的得分,能够评估模型生成结果中是否含有不符
合医学事实的幻觉。得分越高,意味着模型的幻觉率越低,
即其生成的回答更加贴近医学实际。图 8 展示了多个大模型
在 WiNEval 上幻觉可靠性结果。
80
75
70
65
60
55
50
Qw
Ins
2
r
.
u
5
c
-
t
2B
34
Y
B
i-
-
1
C
.5
at
Qw
Ins
2
r
.
u
5
c
-
t
2B
图8. 多个大语言模型在WiNEval上的可靠性对比
为了更加直观地展示各模型的能力对比,我们采用
了模型竞技对比的形式,并根据结果将数据划分为 WIN
(胜)、DRAW(平)、LOSS(负)三种情况。其中,WIN
表示左侧模型在模型两两对比中获胜的次数,DRAW 表示
左右模型在任务中表现平分秋色,LOSS 表示左侧模型失败
的次数。图 9 展示了多个大语模型在 WiNEval 上的竞技对
比结果。
图9. 多个大语言模型和WiNGPT在WiNEval上的对比
Qw
Ins
2
r
.
u
5
c
-
t
2B
34
Y
B
i-
-
1
C
.5
at
Qw
Ins
2
r
.
u
5
c
-
t
2B
专项数据集(MDSE)通过雷达图清晰地展示了模型在具
体任务中的能力分布。通过对比不同多边形区域的重叠情况,
可以直观地看出不同模型在各个维度
上的优劣势,图 10 展示了多个大语言模型在 WinEval-
MDSE 子集上的能力分布。
Win Draw Loss
116163116
55137203
64191140
A
ve
ra
ge
S
co
re
A
ve
ra
ge
S
co
re
CMedPD
CMedBM
CMedAE
CMedCQC
CMedTP
CMedICD
CMedMK
图10. 多个大语言模型在WiNEval-MDSE子集上的评价
根据医疗场景的横向维度(入院、病程、出院)和模型
能力的纵向维度(专业能力、逻辑推理、标准化),我们
通过热力图的形式展示了模型在这些交叉维度上的表现情
100
况。这种方式不仅能直观地对比不同模型在交叉维度上的优
劣,还能支持数据的灵活扩展。图 11 展示了多个大模型在
WiNEval-MDSE 下各交叉维度的能力。
100
Prof
S
e
k
s
i
s
ll
ional
Re
L
a
o
s
g
o
i
n
a
in
l
g
-
S
d
t
iz
nd
i
ar
Admission Progress
80
60
40
20
Discharge
0
Prof
S
e
k
s
i
s
ll
ional
Re
L
a
o
s
g
o
i
n
a
in
l
g
-
S
d
t
iz
nd
i
ar
Admission Progress
80
60
40
20
Discharge
0
-72B-Instruct
-32B-Instruct
-34B-Chat
Qwen
-32B-Ins truct
A
ve
ra
ge
S
co
re
A
ve
ra
ge
S
co
re
Prof
S
e
k
s
i
s
ll
ional
Re
L
a
o
s
g
o
i
n
a
in
l
g
-
S
d
t
iz
nd
i
ar
Admission Progress Discharge
100
80
60
40
20
0
Prof
S
e
k
s
i
s
ll
ional
Re
L
a
o
s
g
o
i
n
a
in
l
g
-
S
d
t
iz
nd
i
ar
Admission Progress Discharge
100
80
60
40
20
0
图11. 多个模型结果的热力图呈现
下一步,我们将持续丰富和完善 WiNEval 测试方案。
继续丰富专项评估:未来,WiNEval 将继续专注医疗领域,
并通过丰富专项评估,从真实的医疗场景中构建更多专业人
员关注的专项数据,提升对细分领域和特定任务的评估能力。
开展多模态医疗评测:随着医疗 AI 进入多模态领域,
WiNEval 将致力于构建覆盖文本、影像、生物信号等多种数据
形式的综合评测体系。
对外开放评测体系:WiNEval 计划逐步对外开放评测体系,
允许更多医疗大语言模型和研究人员使用其框架进行独立评
估。
小结
我们从数据、模型、训练以及评估四个维度对 2024 年
WiNGPT 的发展进行了详细的介绍。高质量的数据为模型提供
了丰富的学习素材,使 WiNGPT 能够理解并生成更加自然
和精确的语言内容;先进的模型架构赋予了它强大的处理能
力和灵活性;创新性的对齐训练策略增强了模型的学习过程,
确保其性能达到最优;全面且严谨的 WiNEval 评估体系则
提高了模型的可信度。
Yi-
-34B-Cha t
Qwen
-72B-Ins truct
目前,越来越多的医院提出 WiNGPT 部署的需求,对
技术和运维带来了不少挑战,如推理硬件资源要求高、运维
复杂、安全性、隐私性等。为了应对挑战,我们结合最新的
开源项目与技术设计实现了 WiNGPT 私有化部署方案,包
括模型文件加密、模型量化、推理性能优化、推理框架选型
定制化等工作,并初步完成了模型国产化适配探索。
高性能与稳定性
推理框架:在生产环境中,支持多用户高并发需求的高
效推理框架至关重要。开源推理框架凭借高效的 KV-Cache
管理(Paged-Attention)、先进的推理优化方案、活跃的 社区
支持以及广泛的量化模型兼容性,显著提升了推理效率和资
源利用率。我们选择了包括 vLLM 和 TGI 在内的领先开源框
架,分别进行定制化开发,以满足特定应用场景的需求, 确保
灵活部署和优化性能。
接口规范:我们采用 OpenAI 的接口范式,能够处理多
种形式的输入数据,包括文本、代码片段、图片等。多模型
支持和多样化的输入格式使得其适用于各种应用场景。基于
这一标准化接口,我们打通了前后端链路,并调整了相关的
接口处理模式,显著提升产品的适配性和规范性。
量化方案:大语言模型参数量往往巨大,我们选择先进
的 AWQ 量化方案,将模型压缩到一张显卡上。AWQ 技术
假设模型中只有 1% 的参数是重要的,并通过激活值搜索这
些参数。在后续量化过程中,对模型性能的负面影响降到最
低。凭借 AWQ 的 4bit 量化方案,在保证模型性能不影响使用
效果的前提下,将 GPU 利用率提升了 4 倍,显著降低部署
成本。
安全性
医院进行私有化部署时,模型权重和代码将完全转移至
医院环境。此时,大语言模型加密将成为维护自身知识产权
安全的关键环节。通过采用非对称加密 RSA 算法,我们实现
了一种大语言模型权重的加密算法以及一整套加密方案, 不
仅保障了模型的安全性,同时确保了与现有推理框架的兼容
性、加解密效率及模型精度。
基于开源推理框架 TGI 和 vLLM,我们二次开发了令牌
技术机制以控制模型推理服务。服务启动时,先从配置文件
获取并验证令牌,验证成功后解密加载模型权重,完成服务
初始化。用户请求时,同样需通过令牌验证,确保请求合法
性后,才基于已启动的服务生成响应内容。此机制保障了服
务的安全性和可控性,详细流程参见图。
WiNGPT 私有化部署方案
令牌授权和解密启动流程
退出
令牌授权和请求服务流程
成功
失败
生成内容
退出
令牌验证
生成服务
请求体令牌
权重加载权重解密令牌获取服务启动
模型权重license
WiNGPT 私有化部署方案
失败
成功
令牌验证
图1. 推理服务令牌授权示意流程图
信创 小结
在国家信创战略步伐加快的背景下,2024 年 WiNGPT
在多种国产硬件上开展了适配、推理部署和性能测试工作。
通过与国内领先的硬件厂商合作(华为、海光、燧原、沐曦),
我们测试了 WiNGPT 在不同国产平台上的稳定性和性能,
并获得相应厂商的证书认证。此外,完成了在上海某三甲医
院的国产化系统落地。
通过适配多种国产硬件平台,提升了产品兼容性和灵活
性,使其满足不同应用场景需求。且进一步优化了资源利用
效率,确保系统稳定运行。国产 GPU 应用可以减少对外部
技术和硬件的依赖,为医疗机构带来更多硬件选型参考,助
力其信创工作的实施。
大语言模型工程化是必不可少的一步,也是决定成本和
产出的一步。我们通过优化先进推理框架、模型加密等工作, 推
动 WiNGPT 在超过 10 家医院部署和落地。随着国家推进信创
进程,我们与多家国产显卡厂商深度合作,并公平化评测,未
来有望看到更多、更丰富的落地案例。
2024 年 3 月 5 日,WiNGPT2 系列发布了 7B 和 14B 规模
的量化模型权重,进一步拓展了其在医疗领域的应用。
2024 年 4 月 24 日,基于 Llama3 的多个 WiNGPT2 模型
发布,不断丰富开源内容。
2024 年 8 月 15 日,基于 Gemma-2 的医疗领域增量预训
练和微调版本多个模型发布。
2024 年 12 月,我们的两大开源项目相继发布:
WiNGPT-Babel( 巴别塔): 一个基于
大语言模型开发的翻译应用。采用 human-in-the-loop 数据生
产策略,即使用少量数据进行初步训练,然后通过 API 收
集使用各种工具的日志数据,并利用这些日志构建新的训练
数据。使用 模型和奖励模型对这些数据进行
rejection sampling,并辅以人工审核以确保数据质量。经过几
轮迭代训练,模型性能逐步提升,直至达到预期水平停止。
本项目致力于提供母语级的多语言翻译体验,降低语言障碍,
帮助用户轻松获取全球互联网信息,适用于数据集、新闻、
研究成果和视频字幕等场景。
windata-vision-synthetics-zh-300k:一个包含约 30 万
条数据和 20 万张图片的中文多模态图文指令数据集,涵盖文
档、图表、数学、OCR 等场景。针对开源数据中的中文图文
指令集少、指令集描述简短等问题,我们设计了一种基于开
源模型的合成数据生成方法。首先,利用开源多模态模型生
成详细的中文 caption 指令集,随后在同一场景中随机挑选1-
4 张图片及其对应caption,输入至 模型, 通过系统
指令使其每轮提问,再将问题和图片反馈给多模态模型进行
回答。最后,设定循环次数,生成多轮多图对话数据。数据
经过严格过滤和多样性设计,确保最终数据集详实且高质量。
开源项目地址:
windata-vision-synthetics-zh-300k
WiNGPT 开源之路
研究
研究背景
生成式模型特别是垂直领域的大语言模型开发,在学术
界与工业界正处蓬勃发展之势。然而大语言模型究竟给医生
带来了怎样的实际体验?我们应该如何评价生成式模型的效
果?为探究这些问题,卫宁健康与上海市第一人民
医院解学乾教授团队共同展开了 WiNGPT 在影像系统中使
用的临床评价方法研究,研究成果已发表于影像学顶刊
《Radiology》。研究表明,WiNGPT 生成的结论在科学术语、连
贯性、诊断、鉴别诊断、随访建议、正确性、全面性、无害
性和无偏见等方面的表现均良好。
图 1. 文章所在网页截图
WiNGPT 临床评价
放射科医生记录了影像学检查所见,WiNGPT 生成包括多种
2023 年 8 月 2 日至 31 日,上海市第一人民医院 6 名 大语言模型生成的结论与最终放射科医生结论不同的病例。
通过定义一个子集,排除相同和高度相似的病例,调查
图 2. 实验流程图
WiNGPT 临床评价
研究方法
一、对生成式模型在放射科的日常报告撰写工作中的效
果进行系统性评价
放射学检查(CT、MRI、放射线照相、乳房 X 线照相)和解
剖部位(颅骨和面部、颈部、胸部、上腹、下腹、血管、骨
和关节、脊柱、乳房)的报告结论,并由医生进行校正。
二、构建基于 ACR 的临床评估框架
为了更客观的评价大语言模型生成的报告结果,我们基
于美国放射医师学会的放射学临床实践,构建了评估框架。
语言评估框架用于评估三个领域的放射学影像质量,包括文
本、标准化和临床应用。专家小组基于该框架进行满分为 5
分的李克特(Likert)评分。
域和维度 解释
文本
科学术语
结论使用合适和科学的医学术语。
一致性 结论是关于一个主题连贯和理性的信息。
WiNGPT 临床评价
标准化
诊断 只要有可能,给出疾病、健康状况或特定放射学征象的具体诊断。
鉴别诊断 在适当的时候,提供相关的鉴别诊断。
随访建议 在适当的时候,建议进行随访或额外检查,以澄清或确认结论。
临床应用
正确性 影像学发现支持了这一结论。
全面性 结论是全面的信息,与影像学所见一致。
无害性 不会以对身体或情感有害或无意中改变治疗或依从性的方式进行解读。
无偏见 不会引起潜在的偏见(这可能会导致误解)。
三、使用 GPT-4 进行评价
使用 GPT-4 对 WiNGPT 生成的结果进行评估,同时也对
医生最后写出的影像结论进行评价用于对比。GPT-4 的评价
结果由 2 名放射科专家独立审查,同时由第三位放射科专家
对评价不一致的结果进行最终审核。
对大语言模型生成的结论或者是医生最终报告结论,
GPT-4 和专家小组基于李克特量表,根据评估框架进行了评
分(1= 强烈不同意,2= 不同意,3= 中立,4= 同意,5= 强烈
同意)。结果表明,专家小组并不能明确区分结论是由
WiNGPT 生成,还是由医生撰写的。
研究结果
上海市第一人民医院的研究测试集中包括 3988 名患者的
数据(中位年龄,56 岁[IQR,40-68 岁];2159 名男性)。以最
终结论为参考标准,大语言模型生成结论的召回率、精确度
和F1 得分的中位数分别为 (IQR,-1)、
(IQR 为 -1)和 (IQR:)。
测试集生成的子集中的 1014 名患者(中位年龄,57 岁
[IQR,42-69 岁 ];528 名男性),WiNGPT 模型所生成结论的总
体专家小组得分中位数为 5(IQR,5-5),范围从 4(IQR)
到 5。具体情况如下:
在文本领域(科学术语、一致性),WiNGPT 表现出色,
分别有 1011 个(%)和 985 个(%)获得了良好的分
数(≥ 4)。
在标准化领域(诊断、鉴别诊断、随访建议),分别获
得 647 例(%)、993 例(%)和 856 例(%) 的
良好评分。
在临床应用领域(正确性、完整性、无害性、无偏见),
WiNGPT 分别在 716 例(%)、705 例(%)、892 例
(%)和 1014 例中(100%)获得了良好评分。
在以上除诊断外的八个维度上,专家组同意或强烈同意
%(1014 例中的 705 例)的 WiNGPT 生成的结论。
结论
本研究针对具体的临床问题和模型特点,构建符合计算
机标准的临床评价方法,进一步将技术和医疗融合,全面
评估大语言模型在医疗特定领域的适用性。在该研究中,
WiNGPT 可以生成专业和语言上适用多种放射学模式和解剖部
位的放射学结论,证实 WiNGPT 在影像报告生成中的可行性。
在胸片领域的应
M
用
oE)技术
研究背景
作为 WiNGPT 模型家族的医学影像模型分支,我们基于
现有胸片数据以及计算资源,探索稀疏模型结构,首次证明了
稀疏多模态大模型在胸片垂直领域的应用可行性。
我们创新性提出 MoE-CXR,一个建立在 CLIP-CXR 基础
上的稀疏胸片视觉语言多模态大模型,采用混合专家(MoE) 架构。
经验证,该架构下仅激活 30 亿参数,即可完成临床
胸片诊断任务。
MoE-CXR 经过了 42 万条图像文本数据的预训练,以及
万条指令微调。这些指令包括诊断生成、封闭式 VQA 和开
放式 VQA,在对应的公平测试集 CXR-Bench 上,MoE- CXR
的表现与当前医疗领域和通用领域的 LVLM 相比具有竞争力。
在 开 放 式 问 答 的 PubMedBert-F1 指 标 上 , MoE-CXR 达 到
分,均高于其他模型。
技术路线
数据储备
丰富的数据储备往往比精心设计的模型结构更加重要。
我们搜集了两种数据类型供模型训练,第一种为多疾病 0-1
分类数据集,共收集了约 82 万例胸片标签数据,包含 41 种
不同的疾病类型,这些数据用于 CLIP-CXR 的对比学习训练。第
二种为胸片视觉语言指令数据,在MoE Chatbot 预训练和微调
阶段,我们构建了 42 万条预训练指令, 万条微调指令。
这些指令包含开源的胸片数据集以及我们从通用医疗数据中抽
取的胸片 VQA 指令。
表 -CXR 训练数据(二值标签)
数据集名称 样本数 标签种类数
MIMIC-CXR 243231 13
CheXpert 191409 13
NIH-ChestX-ray 115120 13
PadChest 89075 26
Kaggle-COVIDx-CXR-4 84818 1
CRADI 83985 18
VinDr-CXR 18000 27
Tuberculosis-shenzhen 662 1
SUM 832119 41
表 2. 多模态大模型预训练和微调数据(指令)
数据集名称 样本数 阶段 采样比例
MIMIC-CXR-REPORT 218043 预训练
CheXpert-Plus 191071 预训练
ROCO-CXR 5703 预训练
MedICaT-CXR 5008 预训练
PMC-VQA-Pretrain-CXR 1523 预训练
SUM 421348 - -
CXR-PRO 31643 微调
Medical-Diff-VQA 63047 微调
VQA-RAD-CXR
VQA-Med-2019-CXR
607
971
微调
微调
PMC-VQA-Finetune-CXR 1523 微调
LLaVA-Med-CXR 5611 微调
SUM 91960 - -
MoE
FFM 2FFM 1
Router
Add&Norm
lymphadenopathy
image?
humeral
模型结构
MoE-CXR 模型结构主要包含两大部分。首先,我们基于
OpenCLIP[1] 构建了 CLIP-CXR 视觉编码器, 采用 ViT-L/14 模
型结构,通过对比学习提取胸部 X 光片特征。然后,我们训
练了一个 MoE Chatbot。以 MoE-LLaVA[2] 为基准,实现
Stage 2: Train a MoE Chatbot
Sub-stage 1: Vision Language Alignment
Image Caption
G
o
PT
a
:
d
P
m
o
is
te
i
r
o
o
n
a
s
te
o
r
w
io
i
r
n
r
g
ad
il
o
a
g
r
ra
n
p
d
h
m
oft
d
h
ias
c
t
h
in
es
l
LLM
如图的三阶段微调。在视觉语言对齐阶段,利用 MLP 将视
觉特征映射到语言潜在空间;在多任务微调阶段,实现基础
的多模态问答能力;在 MoE 层微调阶段,引入混合专家机制,
通过路由选择 top2 专家进行前向推理,优化模型效率和性能。
整体模型设计旨在提升CXR 图像诊断的准确性与灵活性。
Sub-stage 2: Multi-task Fine-tuning
GPT: No.
FFN
Add&Norm
MLP
CLIP-CXR
Tokenizer&Embedding User:
Plea
i
se
a
d
ge
s
.
cribe this
Prompt
ther
U
e
s
e
e
v
r
i
:
d
l
e
s
nce
eff
of
io
l
n
u
in
ra
t
l
his
Self-Attention
E
Tok
b
e
e
n
d
iz
d
e
i
r&
g
Sub-stage 3: MoE Layer Fine-tuning
LLM
Add&Norm
copy weights
GPT: Proximal
fracture.
FFN
Add&Norm
Self-Attention
FFFFMM
copy weights
U
fr
s
a
e
c
r
t
:
u
W
re
h
i
a
s
t Tokenizer&
...
Self-Attention
FFM n
pre
i
s
m
en
a
t
g
i
e
n
?
the Embedding
图 -CXR 整体结构图,训练方案包含:视觉语言对齐、多任务微调以及 MoE 层微调三个部分。
Add&Norm
Add&Norm
M
L
P
C
LI
P-
C
X
R
M
L
P
C
LI
P-
C
X
R
模型表现
为了在胸片领域评估大模型的能力,我们设计了一个
基准 CXR-Bench 作为评估方案。采用较高质量的胸片数据或
者开源数据测试集,包含开放式 VQA 任务。通过将 MoE-
CXR 与多种通用多模态和医疗多模态 SOTA 模型进行比较,
包括最具代表性的 LLaVA-Med[3] 等,我们发现,即使 MoE-
CXR 使用更少的激活参数,与其他同参数量甚至更多参数量
表 3. 多个模型在胸片开放式 VQA 上评测集上的结果
的稠密模型相比,其在多种任务上都有较优表现。
在开放式胸片 VQA 任务两种 Bert-score 的 F1 指标上,
MoE-CXR 相比于其他 SOTA 模型均有提升。GPT-4o 打分也显
示,MoE-CXR 优于目前的其他多模态模型。即便在计算条件受
限或需要低成本推理的情况下,MoE 稀疏模型的较少参数量
依然与稠密模型有同样的效果。
模型 激活参数 稀疏? Meteor Rouge-L PMB-F1
BBU-
F1
Med-flamingo 8B ×
LLaVA 7B ×
LLaVA-Med 7B ×
MoE-LLaVA 3B
MoE-CXR 3B
结论
研究表明,MoE 技术可以应用于临床胸片诊断领域。在
大量胸片指令集预训练和微调下,其准确度可以持平甚至超
过现有的开源医学多模态大模型,并使用更少的激活参数,
进一步节省资源。
案例
2024 年,大语言模型正以前所未有的
速度和深度渗透到各行各业,推动着传统
产业的转型与升级。从金融、教育到法律
和零售,AI 正帮助企业优化流程、提高自
动化水平、增强数据洞察力,并提供强大
的智能支持。在医疗领域,大语言模型日
益成为推动医疗管理和服务模式变革的重
要力量。本章节将通过五个典型案例,深
入探讨大语言模型、RAG、Agent 等技术如
何在实际应用中提升医疗服务的效率与精
度,推动行业的智能化转型与创新。
C
大
o
语
pi
言
lot
模
深
型
入
驱
应
动
用
的
:
最佳实践探索
案例背景
WiNEX Copilot( 以 下 简 称 Copilot) 是 一 款 基 于
WiNGPT 的医护智能助手,深度集成于医护工作站,为医护人
员提供智能化、伙伴式的辅助支持。通过一年多的实践积累,
Copilot 在设计和生产环境中不断优化应用,总结出一系列最
佳实践方案。旨在为医疗机构、科研人员以及政策制定者提
供参考,推动医疗工作流程创新,提升医护人员的工作效率
和医疗服务质量。
电子病历生成
使用大语言模型生成出院小结,如果仅仅一次性输入患
者所有电子病历内容后直接生成出院小结,由于完整病历内
容往往较长,会限制模型对体征信息、诊疗经过、术后反应
等重要信息的提取与总结。我们通过数据预处理、指令微调
等方式,确保生成的内容更符合临床思维和质控要求。
一、数据预处理
通过区分不同数据元素类型如同步类、提取转摘要类等,
Copilot 首先会同步生产环境中与待生成文书相关的数据,
其次将现病史、体征、辅助检查指标等作为数据提取转摘要
类(注意不同摘要重点不一,以高质量出院小结书写规范作
参考)。
二、基于指令微调生成诊疗经过
和数据提取转摘要类病历元素不同,诊疗经过需收集相
关病历数据(检查、治疗方案、术后恢复情况等)进行脱敏,
然后进行指令微调,并在提示词中加入 few-shot 数据进行调
优。
三、评价指标
基于 ROUGE 指标(自动摘要、问答生成等领域常见的
评估指标)来评价生成病历内容质量,实践证明,此种方案
可生成质量较高的出院小结病历文书内容,提升医生工作效
率。
急诊就诊。
前完善头颅增强MR 提示无明确脑转移征象,下次肿瘤治疗时间为 3 周后(2024-11-21),出院后定期监测血常规、生化情况,不适及时门
kg,500mg)静脉化疗及抗血管生成治疗,过程顺利,给药后未诉发热,及恶心、呕吐,胸闷、呼吸困难等不适,考虑药物耐受可。患者目
位置良好可用。后续患者除外禁忌后,于 2024-10-31 行培美曲塞(500mg/m2,880mg)、卡铂(300mg/m2,528mg)联合贝伐珠单抗(
患者中老年女性,肺腺癌诊断明确,既往应用阿来替尼、布格替尼、洛拉替尼靶向治疗效果均不佳,考虑存在耐药可能,计划入院启动
首次化疗,并进一步评估疗效。患者于 2024-10-30 完善PICC 置管,操作过程顺利,管路通畅,完善胸部平片提示导管末端位于第 8 后肋水平,
原文:
语音生成查房记录
Copilot 将语音技术融入住院医生最常进行的医疗场
景——查房。通过实时语音识别、文本内容结构化解析、自 动
病历填充以及实时质量控制,实现基于智能语音的完整查房
方案,从而提升医生查房记录的书写效率和质量。
实践中的难点与解决方案:
图 2. 智能语音查房场景方案
信息,确保了病历内容的准确性和客观性。
(1) 术语识别准确率:通过采集大量专用医学术语集
和科室历史病历常见术语作为纠偏集,提高了语音转文字环
节的术语识别效率和准确性。
(2) 模型联想:在提示词中加入限制自主联想和推理
策略,避免了模型在转写过程中因模型幻觉而添加不必要的
(3) 病历生成规范性:基于科室黄金病历样本,拆
解出典型结构和书写逻辑,通过大语言模型推理态的 few-
shot 学习机制,提高了生成内容与科室规范的一致性。
(4) 质量控制:利用 WiNGPT 的语言理解能力和逻辑
推理能力,对生成的病历进行自动质控和错误检测,提高了
病历的准确性和可靠性,减少了医疗风险。
站
查
,
看
医
、
生
审
完
核
成
引
查
用
房
病
后
程
在
记录
C
。
端
音
过
和
手
内
机
容
A
自
pp
动
进
同
行
步
录
至
音
医
,
生
自
内
然
容
语
进
言
行
处
书
理
写
能
风
力
格
,
转
对
换
查
。
房
书
口
面
语
内
化
容
的
,
查
利
房
用
原
C
文
op
转
il
换
t的
支持
房
不
、
同
主
场
任教学
,
查
如
房
日
。
常查
对
过
话
W
语
i
音
E
进
X
行
Y
采
对
集
医
录
生
入
查房
数据同步与组装信息抽取病历摘要语音识别语音录入病历
进行筛选、提取、归类。
下一步计划”等,并对其
的问题
检
、“主任
色,准确还原查房过程。
内
时通
理
过
解
Wi
区
NGP
对
T
话人
话同
专
C
业
o
术
pil
语
ot
识
的
别
医
准
疗
确
词库保
图 1. 诊疗经过生成
即 2024 年 11 月 21 日。出院后需定期监测血常规和生化指标,不适应立即前往门急诊就诊。
不适症状,考虑患者药物耐受良好。患者化疗前完成头颅增强磁共振成像(MR),结果无明确脑转移征象。依计划下次肿瘤治疗定于 3 周后,
kg,实际给药量为 500mg)的静脉化疗及抗血管生成治疗。整个化疗过程顺利,患者在给药后未出现发热、恶心、呕吐、胸闷或呼吸困难等
美曲塞(剂量为 500mg/m2,实际给药量为 880mg)、卡铂(剂量为 300mg/m2,实际给药量为 528mg)联合贝伐珠单抗(剂量为
置管后管路通畅。经胸部平片检查确认导管末端位于第 8 后肋水平,位置良好。在确认患者无化疗禁忌症后,于 2024 年 10 月 31 日接受培
患者为中老年女性,确诊为肺腺癌,既往接受过阿来替尼、布格替尼、洛拉替尼等靶向药物治疗效果均不理想,可能存在药物耐药性。
鉴于此计划为患者启动首次化疗并进一步评估化疗疗效。在 2024 年 10 月 30 日患者完成外周静脉导管(PICC)置管手术,整个操作过程顺利,
Copilot 生成 :
Copilot 深入应用:大语言模型驱动的最佳实践探索
手机 APP 录音 PC 端可同步查看到数据(可定制遵循书写范式)并审核引用至病历
图 3. 语音病历生成效果
Agent 增强式问答交互
在最近的新能源汽车智驾场景中,有这样一个案例:用
户在车机交互时一口气说完“打开屏幕、打开空调、打开车
窗、关闭车窗、打开车灯 ...”,智驾系统依然可以准确执行
对应的指令,这是 Agent 在智能车机中最突出的应用。而在
医疗实践中,Copilot 则通过构建一个以大语言模型为核
心,包含大量用户行为相关 Agents 的独立框架,实现更自
由与快速的人机交互模式,从而完成复杂任务。
例如,在智能对话场景中,当用户输入“查询 xx 床患者
最新血常规报告并分析数据”时,Copilot 会查询指定患者数
据并返回结论。
图 4. WiNEX Copilot 界面 图 5. WiNEX Copilot 交互式界面
小结
构建在大语言模型之上的WiNEX Copilot 以“智能辅助” 为
核心特色,在多个应用场景中取得了显著成效,极大地提升
了医护人员工作效率和医疗文书质量。从精准生成电子
病历到语音驱动的病程记录自动填充,再到智能问答交互,
Copilot 展现了卓越的灵活性与适应性。随着人工智能技术
的持续进步,Copilot 将继续推动医疗智能化的深入发展,
助力医疗服务向更高效、精准和可持续的方向迈进。
图 深入应用实践
结果自适应输出
BI可视化
JSON约束
自然语言转换
Agent智能体与业务全面融合、虚拟助手与用户并行工作,效能提升
多模态数据输入 用户意图识别 Agent执行规划
文字/语音 输入格式解析 变量解析
影像数据 大模型匹配 规划与执行
病历记录 相似度加权 Self-Reflection
CD
合
SS
R
创
AG
新
与
发
大
展
语
的
言
新
模
引
型
擎
:
案例背景
从语言生成到文本理解,从教育辅导到企业服务,大语
言模型正不断拓展技术的边界,在众多领域展现出卓越的价
值。然而,当大语言模型被引入医疗行业并应用于临床决策
支持系统(Clinical Decision Support Systems, CDSS)时, 尽管
其能够显著提升信息处理效率、辅助医生做出更快速的初步
判断,但也暴露出一些关键问题。这些问题不仅可能影响医
疗决策的准确性,还可能对患者安全构成严重威胁。
信息“幻觉”问题:大语言模型有时会生成看似逻辑合理,
但实际上与现实不符的信息。在医疗领域,这种“幻觉” 可能导
致严重的医疗错误,如误诊或不恰当的治疗决策。
知识出处与权威性问题:大语言模型提供的信息可能缺
乏明确的来源和权威性标识,使得医疗专业人员难以验证其
可靠性。
知识更新滞后:医学知识更新迅速,大语言模型可能无
法及时整合最新的研究成果和临床实践,带来过时的知识。
为应对这些挑战,我们提出了一种创新的解决方案: 将
RAG 技术融入 CDSS。RAG 技术通过结合信息检索和内容
生成,旨在提高医疗信息的准确性、权威性和时效性。这种
方法不仅能够提供基于最新医疗知识的决策支持,还能确保
信息来源的透明度和可信度。通过将大语言模型、RAG 与
CDSS 融合,我们的目标是开发一个更加智能、可靠和响应
迅速的 CDSS,以满足医疗专业人员在快速变化的医疗环境
中的需求。
长序列文档
文本段落
卫宁健康 CDSS+RAG 方案介绍
RAG 技术的核心在于结合检索(Retrieval)和生成
(Generation)两个步骤。在检索阶段,系统从一个大型知识
库中检索出与所查询的最相关的文档。在生成阶段,系统利
用这些检索到的文档作为上下文,生成准确且相关的回答。
文档解析器
段落拆分模型
图 -CDSS 技术方案流程图
我们在 CDSS 中采用了一种融合文档解析和 RAG 技术的
先进方案,用以实现应用前端的知识问答功能。主要包含两
个步骤:
(1)构建向量库
首先利用文档解析技术处理多种格式的医疗文档,包括
专科临床指南和药品知识,将其转换为长序列文档。应用段
落拆分算法,文档被细分为独立文本段落,并通过文本向量
化技术映射到高维向量空间,存储于文档向量索引库中,以
便进行高效检索。
(2)将用户请求与大语言模型结合
用户提出查询时,系统将查询转化为 Query 向量,并利
用向量检索算法在索引库中识别相关文本段落。通过 TopN
算法筛选出最相关的文档片段,用于丰富提示词。最终,这
些增强的提示词被输入至 WiNGPT 模型,生成准确且权威的
医疗回答。
这种方式不仅提高了信息检索的效率和准确性,而且通
过用户反馈机制不断优化系统性能,确保 CDSS 在医疗决策
中的重要作用。
方案效果
权威知识库
卫宁健康CDSS+RAG 解决方案通过整合广泛的医疗知识库,
实现了医疗信息的高效检索和准确生成。知识库涵盖了
医疗管
…
理
…
规
范
检查
专
/
科临床
药
指
品
南
知识
? 提问 生成回答
文本向量化
向量检索
文本向量化模型
3
匹配结果+问题
文档向量索引库
检索增强
Query
TopN 匹配结果
提示词PromptQuery向量
WiNGPT
A 问答结果
1
2
经检索增强后,则能够正确回答,
并给出循证参考
融合 RAG 与大语言模型:CDSS 创新发展的新引擎
临床指南、医疗管理规范、检查和检验知识以及疾病知识等, 支
持多种文件格式,如 PDF、DOCX 和 TXT,所有知识内容
均来源于国家管理平台、权威机构网站和人卫出版社的相关
医疗出版物,确保知识内容的权威性及准确性。
知识来源 知识分类 数量 文件格式
临床指南 知识库 1475 篇 pdf
医疗管理规范 知识库 53 篇 pdf/docx
重点临床专业质控指标 知识库 25 篇 pdf
检查知识 知识库 727 条 txt
检验知识 知识库 2307 条 txt
疾病知识 知识库 10574 条 txt
融合 RAG 前后变化展示
图 -CDSS 权威知识库
图 -CDSS 应用前后效果对比
大模型对于未学过的知识,
易出现幻觉
融合 RAG 之前,用户向医疗智能助手询问关于肾后静
脉瘤栓的梅奥分级。助手提供了一个分级标准,但这个回答
可能并不完全准确或权威,因为它没有提供具体的参考来源,
可能基于模型自身的知识库。
融合 RAG 之后,同样的问题,CDSS 助手不仅提供了梅
奥分级的详细信息,还引用了具体的临床指南和专家共识,
如“肾细胞癌诊疗指南(2022 年版)”和“肾瘤伴静脉瘤
栓北京专家共识”。
权威知识持续扩展
通过知识库管理平台,用户可以上传和维护与本院相关
的管理规范和临床指南,这些文件将被自动整合到知识库中,
用于支持知识问答功能。
图 知识库管理平台 - 文件管理界面
小结 WiNGPT,有效克服了传统大语言模型的局限,显著提升了
卫宁健康决策支持系统 CDSS 通过融合 RAG 技术与
临床决策支持的准确性和可靠性。而定制化的知识服务,进
一步确保了医疗服务的精准度、个性化和医疗管理适用性。
探索
大
PA
语
C
言
质
模
控
型
工作新可能
案例背景
2023 年,是以 ChatGPT 为代表的大语言模型从技术探索
向规模化落地与生态融合过渡的关键期,我们已经在真实的
用户环境中试点并平稳运行了 WiNGPT 的影像报告诊断结论
生成。2024 年,我们进一步探索大语言模型技术在超声影像
科等医技科室质控工作中的新思路,并完成了多种类型质控
场景的试点工作。从试点效果看,结合了大语言模型的
质控体系,能够有效提升医技科室智能化管理水平。
方案介绍
在医技科室,特别是在影像学、超声学等检查中,报告
书写的规范性与准确性至关重要。为进一步提升医技科室的
病历质控能力,我们构建了一套基于 WiNGPT 的智能质控系
统方案。
(1)所见与诊断结论不符提醒:自动分析报告中的检
查所见和结论,检测两者之间的逻辑一致性。例如,如果检
查所见描述了某种病变,但结论中未提及或结论与所见矛盾,
大语言模型可以发出预警,提示质控人员复核。截至目前,
已在上海市某三甲医院完成超过10 万份超声报告自动质控,
发现并标记近 100 条有效预警数据,为临床医生提供了精准、实
时的质控支持。
图 2. 影像所见与诊断结论不符示例
病变描述规范性
应用类
放射与超声报告一致性校验错别字提醒描述与结论不符
实时诊断质控提醒
图 质控方案
......病理
医技业务端
内镜超声影像
管理视图
agent管理
语料管理模型调试
WiNEXCopilot
场景注册 调用日志模型管理
提示词管理
模型
基于大语言模型探索 PACS 质控工作新可能
(2) 报告内容错别字提醒:自动识别报告中的错别字, 并提供纠正建议。
文本纠错提醒预警
图 3. 报告内容错别字校验提醒
(3) 放射与超声报告一致性校验:在一些情况下,患
者可能会接受多种影像检查,如放射和超声。利用大语言模
型对比就诊过程中产生的不同类型报告的结论,检测其中的
潜在矛盾。例如,如果放射报告和超声报告对同一病变的描
述和结论不一致,大语言模型可以发出预警,提醒医生进行
核查。经过厦门某综合性三甲医院人工审核评估,校验结果
准确率超 90%,已经具备在医技科室全面推广的条件。
图 4. 放射报告与超声报告一致性校验示例
(4) 病变描述规范性质控:在不影响医生正常报告书
写习惯的前提下,对报告进行结构化处理并分析疾病关键放
射或超声内镜表现的完整性,让检查医生及时改进报告书写
质量。通过对上海市某三甲医院历史数万份专病报告的初步
分析,经过人工核查后,部分专病报告的标准病变描述书写
填充率低于 50%,而通过大语言模型进行质控后,能够精准
识别报告中标准病变描述是否存在缺失,明显提升书写合格
率。
小结
基于 WiNGPT 的 PACS 智能质控系统已经在多家医院进
行了可行性验证,并在卫宁健康部分用户中完成了试点运行
和数据评估,成为 PACS 产品系列中的成熟应用。通过大语
言模型技术赋能,不仅能够大幅提升质控效率,还能推动医
疗报告从“人工质控”向“智能质控”转型,让医疗质量管理更
精准、高效、智能。
图 5. 病变描述规范性示例
应
i
用
NG
与
P
前
T在
景
患者血液管理中的
案例背景
随着外科手术量持续增加,临床对血液及血液制品的需
求量不断攀升。然而,血液资源稀缺、血源保障难度大、输
血相关不良事件频发及成本高昂等问题已成为现代医疗面临
的严峻挑战。国际公认的患者血液管理 (PBM) 理念强调以患
者为中心,通过贫血诊治、失血减少、个性化输血策略优化
与围术期全场景干预,最大程度减少不必要的异体输血,提
高患者临床转归并节约医疗资源成本。
尽管 PBM 在欧美等发达国家已积累一定推广与实践经
验,但在我国,由于多学科协同不足、用血决策仍高度依赖
医生主观经验、血液供应链复杂以及临床数据孤岛现象普遍
存在,使得 PBM 的落地与优化面临重重困难。
在此背景下,充分利用人工智能、自然语言处理与大语
言模型等先进技术,将多学科医学知识、全病程动态数据和
循证医学证据整合为统一的智能决策辅助平台,无疑是提升
PBM 执行质量和效率的重要方向。
管理现状
当前国内多数医疗机构的围术期血液管理仍局限于传统
临床决策支持系统 (CDSS) 或人工经验判断,这在一定程度
上确实能为临床决策提供支持,但也存在一些突出问题,影
响了围手术期血液管理的效率和质量。主要体现在以下几点:
(1) 数据与知识碎片化:患者信息分散于不同信息系
查系统)
查结果/术后症状
统(电子病历、实验室、麻醉信息系统、手术管理系统、血
库系统),难以统一标准化处理,导致医生在决策时需跨多
平台检索与分析。
(2) 规则与模型扩展性不足:传统 CDSS 多基于有限
规则与知识库编制,当遇到复杂、罕见或动态变化的临床场
景时,规则覆盖度严重不足,无法快速适应新兴治疗方案或
临床指南的更新。
(3) 建议输出僵化、缺乏个性化:现有工具的输出往
往为固定模板,难以根据患者特征、术中实时数据和临床上
下文进行个性化决策支持,医生理解和采用其建议的难度较
高。
(4) 全病程一体化管理缺失:术前贫血诊断、术中备
血策略、术后血红蛋白与凝血功能动态干预等关键节点仍相
对独立,缺乏跨环节的信息串联与决策统一,使 PBM 理念
在实践中难以充分落实。
方案介绍
为解决上述难点,我们提出了一套基于 WiNGPT 的
PBM 应用解决方案,其核心理念是利用一个高集成度、可扩
展的统一智能决策平台,以术前、术中到术后的全病程角度
为医生提供个性化、多学科融合的输血管理支持。
基础
患
信
者
息
指
/患
征
者
信
诊
息
断/既往
患
病
者
史
体
/
征
过
/
敏
检
史
验
/
结
输
果
血
/
史
检
/
(住院医
业
生
务
系
系
统
统
/住院护
检验系统
电
/输血系统/检
/
图 1. 卫宁健康 PBM 技术路线
分析理解
结束
交
输出内容工
具
)
AI生成内容
血液评估
选择患者
(临
开始
生)
AI模型层
(术
输
中
血
出
专
血
科
量
预
+术
测
后
大
血
模
色
型
素 ) (输
医
血
疗
领
预
域
训
知
练
识
大
+
模
医
型
疗领
Wi
域
NG
知
P
识
T
)
预训练
学习器
梯
数
l
度
e
量
a
提
r
(
n
n
升
in
回
_
t
归
r
m
at
模
e
t
)
型
:
)
1
:最
弱 输血领域
数
知
据
识
集
:
和指令集
子样本比
m
例
ax de
s
t
i
h )
a ors
产
血管手术患者血液管理专家共
(m
大
ax
特
fe
征
at
数
u
(subsample):
创伤
ICU
出
患
血
者
患
血
血
液
液
管
管
理
理
专家共识
随机种子(r
r
n
s
d
):
o
'sq
_
r
s
t
tate):42 检查检验知识
者血液管理
患者手术信息
医疗知识图谱
南
手麻系统 住院医生系统
人工
资格考
据
试题
医学科普书籍
告
检验系统 检查系统 通用类试题
书籍
互联
种自然语言处理任务
电子病历 住院护理
人
D
卫
SS
知
知
识
识
库
/规则:
输血系统
通
(超算大模型)
WiNGPT 在患者血液管理中的应用与前景
一、多源数据融合与知识图谱构建
将来自 HIS、LIS、EMR、血库管理系统等的数据进行预
处理与标准化整合,并基于循证医学证据和 PBM 国际指南
构建 PBM 专用知识图谱,为大语言模型提供可检索与可解
释的领域知识支持。
二、统一的大语言模型平台
在经过大规模医疗语料预训练的基础语言模型上,针对
PBM 的细分任务(如贫血评估、凝血功能优化、自体输血
策略制定、术中备血决策与术后干预)进行指令微调和知识
融合,使模型能够理解、分析并对接 PBM 全流程场景。
三、提示词与生成式决策支持
利用提示词技术,将患者实时数据、知识图谱提取的专
业证据与临床问题上下文嵌入模型,实时生成符合患者个体
特征、语义自然且循证可靠的决策建议。模型将提供易于理
解、可解释的自然语言回答。
四、安全与合规性保障
在数据处理与模型推理环节嵌入数据脱敏、访问控制与
日志审计措施,确保在满足医疗法规和隐私保护要求的同时
实现高效、可信的智能决策辅助。
方案效果
经过试点应用与测试验证,我们在某三甲医院的典型外
科手术场景中对该方案进行了初步验证与分析,取得以下成
果与进展:
决策效率提升:医生在术前对贫血及凝血情况评估的时
间显著缩短;对多套系统信息整合的需求明显降低。
用血优化效果初步显现:通过统一决策辅助,不必要输
血比例有所下降,并在一定程度上减少了血液资源浪费及不
良输血反应的发生。
自然语言输出更易理解:临床反馈显示,与传统 CDSS
输出相比,基于大语言模型生成的自然语言建议更接近临床
思维逻辑,医生接受度和应用率有所提高。
可扩展性良好:在增加新术式场景、更新最新 PBM 指
南后,仅需在大语言模型端进行提示词扩展与少量新数据微
调,无需大规模规则重写或独立开发新模型,显著降低长期
维护成本。
图 2. 打开自体采血申请
图 自体采血,不建议自体采血
小结
实践证明,将患者血液管理理念与大语言模型、知识图
谱、提示词技术有机结合,是实现围术期全病程智能化决策
辅助的有效路径。该方案能够突破传统 CDSS 在规则覆盖、
扩展性、自然语言输出与多学科协同上的限制,为医疗机构
提供一个更高效、可扩展、易实施的 PBM 智能决策平台。
未来,我们计划进一步拓展该方案的适用场景与疾病类
型,并开展多中心验证与随机对照试验,以期在更广泛的临
床实践中提升患者转归,优化医疗资源配置,真正推动
PBM 理念在国内医疗体系的深度落地与持续发展。
大语言模型与
小
RA
宁
G
:
结合的知识库应用
案例背景
随着卫宁健康产品上线用户规模的逐步扩大,运维相关
知识呈指数级增长。这些知识较为分散,形成了巨大的非结
构化数据库。在传统的运维知识管理和获取方式下,运维人
员往往需要耗费大量时间查找和整理信息,影响问题解决效
率和决策准确性。在此背景下,引入大语言模型和基于检索
增强生成(RAG)的技术,使大语言模型能够从企业内部庞 大
的知识库中实时获取高价值信息,生成准确且上下文相关的
答案,大幅提升运维知识的利用效率和智能化水平。
方案介绍
卫宁小宁旨在以 WiNGPT 为核心,通过 RAG 技术对公
司内部多源异构的运维知识进行统一整合和利用,构建一个
智能化的运维问答系统。小宁将对接企业内部多种知识存储
格式,支持快速检索与问题响应,同时具备上下文理解能力,
提供个性化和动态化的支持。运维人员只需通过自然语言对
话,即可快速定位问题、获取解决方案,显著提升运维工作
的效率。整体方案设计如下:
小宁服务小宁用户界面
企业智能助手小宁:大语言模型与 RAG 结合的知识库应用
一、构建知识库管理平台
该平台涵盖产品类、运维运营类、行政类、人事类等多
个领域的知识,支持新增、审核和启用知识,即模型依赖的
知识库不是静态的,而是具有动态更新和持续沉淀的特性,
并且能确保每条知识记录可追溯创建人和审核人,形成一个
知识领域广泛、持续更新且可溯源的知识库,为复杂技术问
题提供强有力的支持。
二、构建混合检索库
将知识库中的记录存储到 Elasticsearch(以下简称ES)
数据库中后,利用开源词嵌入模型生成相应的向量,并将这
些向量存储在Milvus 向量库中,完成构建混合检索数据库。
三、定义 RAG 服务流程
通过词频检索、语义检索、秩比融合以及重排序后,选
取前几位检索到的问题及其答案作为上下文,与用户提出的
问题结合,形成完整提示词,并通过 WiNGPT 生成回答。
效果与反馈
HIS系统死锁怎么办?
阻塞
E
进
C
程
C,
.。
并
以
及
下
时
是
杀
相
死关
有帮助系统死锁
能对您
知
基
识
于
库
多
检
种
索 融合 重排序
提示工程
WiNGPT
图 2. 小宁交互流程
小宁自 2024 年 1 月正式上线以来,使用量迅速增长,7
通过构建高可用知识库并结合 RAG 技术,我们从多维
度优化了信息检索效果。WiNGPT 的持续迭代不断提升回答的
准确性。此外,配套的用户反馈评估机制为后续回答提供监
督和规范,形成闭环改进,确保卫宁智能运维助手小宁在实
践中持续进步。
月后的访问量达到之前的三倍,8 月的访问量迎来峰值,随
后进入平稳期,保持在较高水平。不断提升的人气,表明小
宁这一创新工具已在公司内部获得大量关注,对员工具有较
大吸引力。
Elasticsearch 知识库
图 1. 混合检索库构建流程图
词嵌入模型 Milvus
企业智能助手小宁:大语言模型与 RAG 结合的知识库应用
服务质量和用户体验的改善让小宁的用户满意度不断增 加。整体来看,小宁的好评比例逐月上升,认可度不断提高。
小结
尽管目前用户的访问量和点评率还有很大的提升空间,
但我们依然能从数据中看到积极的信号:好评差评比正在逐
渐提升,这表明小宁正在赢得运维人员的认可。接下来,我
们期望通过知识库数量与质量的持续提升以及 WiNGPT 的不
断改进,为使用者提供更全面、精准的信息支持和更好的用户
体验。
表 2. 小宁月度用户反馈统计图
差评率(%)好评率(%)点评率(%)
表 1. 小宁月度访问量统计图
80
70
60
50
40
30
20
10
0
访问量 /100 倒彩量 点赞量
展望
从医学影像的智能诊断、手术机器人辅助操作到临床决
策支持系统,AI 正深刻改变医疗行业,重塑医疗流程。然而,
在提供高效工具的同时,AI 也引发了关于医疗从业者创造
力是否会被削弱的担忧:过度依赖 AI 是否会导致诊疗方案
同质化、限制医疗创新?医疗创新不仅关乎新技术,更关乎
医疗质量提升、患者获益最大化及医疗资源优化,明确 AI
与医疗的关系,对指导技术发展方向,规避潜在风险及推动
临床创新意义重大。
AI 对医疗创新的双重影响
深入剖析人工智能在医疗领域的应用就不得不面对一个
核心议题:人工智能将如何影响医疗创新?下面我们将从正
反两个维度,探讨人工智能对医疗创新可能产生的影响。
促进作用
(1) 减轻重复性任务,释放思维空间:AI 辅助诊断工
具(如识别肺结节、眼底病变、乳腺肿块)能高效处理重复
性工作,减少医生疲劳,使其有更多精力投入复杂病例分析、新
疗法设计或疑难疾病诊治。
(2) 拓展诊疗与研究思路: AI 通过分析多模态医疗数
据(影像、基因组、临床文本),能提示罕见病诊断线索或
为临床试验提供创新分层标准。研究人员可在 AI 基础上调
整验证,挖掘个性化、前沿的医疗创新点。
潜在风险与挑战
(1) 诊疗方案同质化:AI 模型基于既有数据和知识库
训练,可能导致诊疗建议模式化。过度依赖AI 决策支持系统,
或将减少对非常规诊疗策略的探索。哈佛医学院在 2022 年的
一项研讨指出,缺乏引导时,AI 标准路径可能占据主导, 降
低创新性的尝试。
(2) 独立思考能力弱化:过度信任 AI 诊断结果,可能
导致临床思维固化,尤其在新药研发、罕见病诊断和复杂手术
中。当决策者成为“被动审稿人”,临床方案或趋于保守, 减少创
新。
(3) 伦理与责任划分:AI 参与诊疗决策引发伦理问题。
若出现误判或不当治疗,责任归属不明晰的情况下,医生可
能会更倾向于机械式地接受 AI 的输出,以回避责任,进一
步弱化深度思考与创新能力。
迈向人机协同:实践建议
为了更好地应对人工智能对医疗领域的挑战,我们必须
积极探索人机协同的有效路径,为此,我们提出以下实践建
议:
(1)坚守人类主导,发挥创造性判断
临床专家应始终是最终决策者。制定明确的临床路径审
核流程,要求医生对 AI 建议进行校核、评估与调整。在团
队会诊中,AI 作为参考工具,而非最终决策者。
(2)引入多元数据,促进跨领域合作
人工智能与人类创造力的共生之道
人工智能与人类创造力的共生之道
将多元异质数据(不同地区人群、特殊疾病、社会健康
因素)纳入 AI 训练,打破数据同质化限制。与人类学家、
心理学家、医药产业设计者、卫生经济学家合作,拓宽 AI
医疗创新视野,促进方案、药物研发和器械设计的多样化。
(3)建立创新评估体系,量化 AI 贡献构
建衡量创造力与新颖度的指标,例如:
方案多样性指数:统计同类疾病治疗方案数量与差异度。
新颖性评分:专家评价 AI 方案在突破传统、满足特殊
需求方面的独创性。
临床实用性与安全性平衡指数:评估新方案的创新价值
与风险。通过研讨、评审、患者反馈,建立持续改进的反馈
机制。
(4)强化监管与政策引导,确立伦理标准
政策制定者与行业机构应发布伦理指南和行业标准,监
管 AI 在医疗创新中的应用。如高风险决策或新药审批,强
制要求多轮专家审核与患者知情同意。
AI 在医疗领域的应用并非简单的技术叠加,而是一场
深刻的模式变革。它既是强大的信息筛选器,能够加速诊断
进程并辅助决策,同时也有导致决策同质化、弱化独立思考
的潜在风险。关键在于我们如何积极塑造这一变革的方向。
通过构建合理的人机协同模式,有效利用多元数据,实施严
格的创新评估,并辅以完善的伦理监管框架,我们相信,人
工智能不仅不会削弱医疗专业人员的创造力,反而将成为激
发创新潜能的强大催化剂,助力构建更具韧性、包容性和创
造力的医疗生态系统。
展望2025,通过更加完善的人机协同设计和政策框架, 我
们有理由期待一个人机共创的,更加丰富和深远的医疗创新
未来。
总结
今年的报告以当下 AI 界最受关注的 "AGI 何时实现 " 开篇,引发对智能“重新审视”的思考。在 AI
高效处理脑力劳动的同时,创造力、思辨力和同理心是人类的核心价值。AI 发展需兼顾算力与算法、
开源与知识产权、通用与垂直领域,并在技术、商业与社会责任间寻求平衡,尤其在医疗等领域,
生成内容的准确性、可靠性及伦理道德至关重要,需格外谨慎。
要重塑临床环境,就必须重新审视现有的医疗体系。生成式AI 的普及,不是简单地引入几个算法, 而
是要对医疗流程进行再造,提升医护团队的技能。AI 技术的引入,将推动医疗模式从“治已病”向“治未病”转变,
并催生出像“AI 护理协调员”这样的新角色。报告还探讨了生成式AI 的商业化之路, 病历质控、医学影
像分析、个性化诊疗等领域尤其值得我们关注,并强调了医学专业知识的融入、算法优化和用户体验的
重要性。
在技术层面,报告详细介绍了卫宁健康人工智能实验室开发的 WiNGPT 在 2024 年的最新进展。它
在数据生成、后训练对齐、评估体系 WiNEval 等方面都取得了不俗的成绩,还有 RAG、Agent 和数字
人等技术的加持。作为医疗垂直领域的大语言模型,WiNGPT 在专业性、性价比和自主可控上都有独到之
处,并在实际应用中展现了强大的实力。
报告分享了与上海市第一人民医院的合作研究,展示了 WiNGPT 在影像报告生成中的实际应用
价值,以及基于美国放射学会(ACR)标准的临床评估框架。此外,混合专家模型(MoE)技术在 胸
片领域的应用,也证明了其在提升模型效率和性能方面的潜力。
在产品案例部分,报告列举了 WiNEX Copilot、CDSS+RAG、基于大模型的 PACS 质控、患者血液
管理以及企业智能助手“小宁”等多个成功的应用,展现了生成式AI 如何在提升医疗效率、优化资源
配置和推动医疗创新方面发挥实实在在的作用。
展望未来,我们强调以人为本,引入多元数据,建立创新的评估体系,加强监管和政策引导,
让人工智能与人类的创造力相辅相成,共同进步。报告呼吁医疗界携手合作,让每个人都能在良好
的医疗生态中,公平地享受到 AI 带来的医疗福祉。
总而言之,生成式AI 正引领医疗行业迈向一个全新的时代,人机协同将成为新常态,个性化和公
平将成为医疗服务的新标准。卫宁健康人工智能实验室的探索和实践,为这场变革提供了宝贵的经
验。但这仅仅是个开始,未来依然充满挑战,需要在技术、伦理、监管、教育等方方面面进行更深
入的思考和探索。只有如此,我们才能真正驾驭人工智能的力量,构建一个更加智能、高效、人性
化的医疗体系,增进全人类的健康福祉。
趋势:
参考文献
[1] AI in Healthcare 2024 Statistics: Market Size, Adoption, Impact
[2] CMS Artificial Intelligence Playbook
[3] 卫生健康行业人工智能应用场景参考指引 _ 百度百科
[4]
Si70k57j2zzIvIs3JNZrs8YEkDu_&wd=&eqid=ade3ec38000587fb00000003676256b3
医疗大语言模型十问:
[1] Scaling Laws for Neural Language Models. ttps:// 研究 [1]
Reproducible scaling laws for contrastive language-image learning.
[2] Moe-llava: Mixture of experts for large vision-language models
[3] Llava-med: Training a large language-and-vision assistant for biomedicine in one day
案例:
[1].Wang, L., Ma, Y., Bi, W., Lv, H., & Li, Y. (2024). An Entity Extraction Pipeline for Medical Text Records Using Large
Language Models: Analytical Study. Journal of medical Internet research, 26, e54580. https://doi. org/
[2].Tozuka, R., Johno, H., Amakawa, A., Sato, J., Muto, M., Seki, S., Komaba, A., & Onishi, H. (2024).
Application of NotebookLM, a large language model with retrieval-augmented generation, for lung cancer
journal of radiology, Advance online publication. https://
01705-1
chatgpt4o: "A futuristic cyberpunk cityscape with dense, towering buildings, pastel color tones (pink and blue), futuristic flying
vehicles, floating spherical structures, and people walking in modern outfits. Highly detailed, soft lighting, emphasizing a blend of
technology and urban life, in a hand-drawn artistic style."
卫宁健康科技集团股份有限公司
地
话:02
海
1-
市
0
静
33
安
10
区
00
寿阳路 99 弄 9 号卫宁健康大厦
投稿邮箱:yzwn
.
@
w
w
in
inn
n
in
.c
.
o
com
.c
.
n
cn 微信公众号
官方小程序
mailto:wn.@