智库文档所有分类

2024年医疗人工智能年度报告生成式AI：重新审视.doc

下载

来自星星的小胖子

80页 | 26.46MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

a»üAi:#9%ę$a" R e E x a m i n g' i 1 2024 医疗人工智能年度报告 R 生 e-Exam 成 ing 式 AI：重新审视主编 Editor in Chief 陈旭执行主编 Executive Editor 刘鸣谦策划团队 Planning Team 刘鸣谦朱雅文刁茁责任编辑 Assignment Editors 趋势：刘鸣谦观点：陈旭医疗大语言模型十问：宋晓霞 WiNGPT：路惠童许祥军洪平高玉杰李锐研究：刘鸣谦路惠童案例：宋晓霞胡嘉伟高雪虹姜陆乔嘉成虞明星展望：陈旭校对 Proofreader 朱雅文刁茁设计 Designer 唐雯婷李钰莹引言过去一年，人工智能无疑是最为重要的话题之一，这从两项诺贝尔奖授予人工智能领域的科学家便可见一斑。人工智能不仅是一种工具，更在深层次上影响着社会结构和我们的思维方式，促使我们重新审视对世界的认知。面对人工智能逐步承担部分人类职能的现实，我们不禁思考：未来社会将如何定义人类？我们又该如何与这股强大的力量共存，并探索新的价值和方向？ 2024 年初，人工智能领域的产学研各届围绕“AGI”- 通用人工智能的定义及“何时实现 AGI”展开了广泛讨论。包括 Geoffrey Hinton，Yann LeCun，李飞飞在内的多位知名研究者，对当前大型语言模型所展现的“智能”提出了质疑，这促使我们重新审视“智能”的概念。尽管人工智能能够生成逼真的文本，进行复杂的逻辑推理，但这是否就意味着它真正具备了 “理解”和“思考”的能力？我们对智能的理解，可能仍旧受限于人类自身的认知框架，我们所认为的“智能”也许只是冰山一角。此外，技术发展的路径同样值得我们重新审视。去年，多项关于 Scaling Law 局限性的研究表明，人工智能的发展不能单纯依靠算力的堆砌。我们需要探索更精巧的算法和更有效的训练方法，以实现真正的 AGI。开源与闭源、通用与垂直等多样化的发展路径，映射出不同的理念和价值观。如何在技术进步、商业利益和社会责任之间寻求平衡，将决定人工智能的未来走向。这种平衡在医疗领域同样至关重要，尤其是伦理和社会影响在医疗领域尤为敏感。人工智能生成内容的准确性和可靠性直接关系到患者的生命安全。人工智能的滥用风险、隐私泄露以及算法偏见等问题，可能导致医疗资源分配不公，甚至加剧医疗不平等现象。因此，我们在研究、产品开发以及对外传播内容时，必须以严谨和审慎的态度评估并应对这些挑战。此外，在医疗实践中，我们还必须重新审视“人工智能与人”的关系。过去一年中，国内外众多专家学者已达成共识，即人工智能不应成为医生的竞争对手，而应是其合作伙伴。尽管人工智能能够生成逼真的医疗报告、医学影像图片，并进行复杂的病情分析，但这并不等同于真正的“医学理解” 和“临床思维”。我们对医疗服务的理解可能仍然受限于自身的认知。更重要的是，如何将人工智能的“智能”与医生的经验、直觉和同理心相结合，形成人机协同的诊疗模式，仍然极具挑战。去年，我们的年度报告《生成式人工智能 - 破局新生》聚焦于生成式人工智能技术的突破及其在各个领域的潜力。今年，我们在此基础上深化探讨，重新审视每个医疗场景并思考优化策略。本报告汇集了卫宁健康人工智能实验室的洞见与过去一年的工作成果，涵盖了对行业数据与分析、技术与研究、应用案例、伦理挑战和社会影响等多个维度的思考，重点关注生成式人工智能模型在医院场景中的实际案例，并分享了相关经验。我们衷心希望这份报告能够为医疗行业的同仁或对人工智能感兴趣的朋友提供有价值的参考和启示，共同推动人工智能在医疗领域的健康、可持续发展，为构建更加智能、高效和人性化的医疗体系贡献力量。速读速读重新思考人工智能的本质和人类的价值报告从人工智能的快速发展引发的哲学和社会思考出发，探讨了人类在人工智能时代的价值定位，并着重强调创造力、思辨力及同理心等人类独有特质的重要性。医疗人工智能的市场现状和政策导向报告深度解析了医疗人工智能的市场规模、FDA 审批情况、国内医疗大语言模型进展及政策框架，展现了行业发展的整体态势。医疗大语言模型 WiNGPT 的实践与挑战报告深入探讨了WiNGPT 开发过程中面临的实际问题，包括模型大小的选择选型、数据隐私、应用对接、推理速度等，并提出了相应的解决方案和建议。重新定义智能和重塑临床环境报告从临床研究的角度探讨了 AI 与人类智能的差异，以及 AI 与临床环境的深层联系，为推动医疗保健的全面变革提供了参考。生成式 AI 在临床实践中的应用报告详细介绍了 WiNGPT 在临床实践中的应用，包括电子病历生成、语音生成查房记录、CDSS+RAG、PACS 质控、患者血液管理和企业智能助手等多个方面，并分享了相关的研究成果和实践经验。人机协同的未来报告展望了人工智能与人类创造力协同发展的前景，强调了人机协同、多元数据、创新评估和伦理监管的重要性，并呼吁全球医疗界共同推动医疗人工智能的健康可持续发展。目录 Contents 趋势观点问答 WiNGPT 08 大语言模型 + 医疗软件的现状和发展让我们用数据和政策解读来揭开大语言模型的发展趋势。 13 超越比较：人工智能的独特发展之路超越模仿！ AI 的独特进化之路，将如何反哺人类文明？ 15 SORA 降临：我们应该如何理解这个世界 Sora 炸场！万亿级 AI 风暴，重新定义创造力与真实！ 17 生成式 AI：重塑临床环境，推动医疗保健全面变革颠覆传统！生成式 AI 如何撬动医疗变革，打造健康新生态？ 19 医疗大语言模型十问大语言模型实践中的热点问题。 25 WiNGPT 2024 回顾这一年，WiNGPT 让智慧医疗迈向新的阶段。 40 WiNGPT 私有化部署方案让我们一起探索 WiNGPT 的工程化奥秘，将安全与高效贯彻到底。 42 WiNGPT 开源之路我们不仅站在巨人的肩膀上，更为开源社区奉献，推进未来之路。 44 WiNGPT 临床评价通过一次实验看怎么评价大模型的使用效果。 47 混合专家模型（MoE）技术在胸片领域的应用在较研高 M 水 oE 平 -C 。 XR 胸片模型使用更少的激活参数，将疾病诊断能力维持 53 Copilot 深入应用：大语言模型驱动的最佳实践探索 Copilot，大语言模型深入赋能医疗场景的纽带。 57 融合 RAG 与大语言模型：CDSS 创新发展的新引擎 RAG+LLM，让知识更准确，决策更可靠。 61 基于大语言模型探索 PACS 质控工作新可能如何用好大语言模型，我们的尝试从未停止…… 65 WiNGPT 在患者血液管理中的应用与前景支持。智能融合与即时跟踪，LLM 为医生提供更快更精准的输血管理 69 企业智能助手小宁：大语言模型与RAG 结合的知识库应用 AI 加持，让知识与经验不再扁平，真正成为触手可及的数据资产。 73 75 人工智能与人类创造力的共生之道总结当 AI 遇上医者仁心：共绘医疗创新的未来图景。 76 参考文献研究案例展望趋势 2024 年，大语言模型技术蓬勃发展，国内外基座模型层出不穷，医疗大语言模型更是如雨后春笋般涌现，市场繁荣且潜力无限。在这里，通过数字与政策分析我们可窥见市场全貌。医疗人工智能市场规模预测尽管不同预测模型对“人工智能 + 医疗保健”市场规模的预估数据来源各异，但它们均认同一个观点：该市场规模将极为庞大。2024 年，涵盖硬件制造厂商、云服务提供商、信息化企业、政府相关部门、医疗器械提供商、软件提供商、新药研发企业和人工智能初创企业的上下游参与者，共同推动该市场达到 149 亿美元。预计至 2030 年，该市场将以 % 的复合增长率迅猛增长，规模可达 1641 亿美元[1]。 FDA 审批通过的人工智能相关医疗器械数量截至 2024 年 5 月，美国食品药品监督管理局批准了882 个由人工智能和机器学习驱动的医疗软件 / 设备。排名前五的应用领域是放射学（671 台）、心血管（90 台）、神经病学（32 台）、血液学（17 台）和胃肠泌尿学（13 台）[1]。使用人工智能技术的医疗软件企业数量在一项针对美国医疗机构的调查中，约 70% 的卫生系统受访者认为，人工智能将对他们的组织产生更大的影响，并将人工智能战略从 IT 部门转移到最高管理层。这与 80% 的美国医疗服务提供者正在加快 IT 和软件支出的事实相一致，其中人工智能是首要任务。大语言模型 + 医疗软件的现状和发展 837 882 616 461 221 332 141 77 11 13 15 18 21 27 33 51 b 20 o 1 r 0 e 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 医疗软件中的人工智能指导原则医疗人工智能软件正积极促进行业发展，引领行业的走势，并持续地影响上下游的企业、医院。尤其在人工智能、大语言模型的应用方面，这些影响源自用户、工具、数据和伦理道德的交汇，人工智能技术和应用的发展正在指引未来软件的设计和开发趋势。以下将介绍国内外的人工智能指导原则 [2]：一 . 人类为中心的人工智能强调人工智能技术对个人和社会的影响。以人类价值观、需求和目标为指导，旨在通过建立在用户体验设计方法的基础上，放大、增强、授权并提高人类表现，同时确保人类的控制。二 . 数据驱动的人工智能数据是人工智能训练、评估和改进的基础要素。人工智能模型的质量与用于训练数据的质量直接相关，因此需深入理解并有效利用数据。这将需要对数据集本身进行彻底审查，加强数据治理，以指导整个企业和医院的数据政策。三 . 可扩展和互操作强的人工智能人工智能的开发应该采用循序渐进的方式，一方面需要构建符合整体系统架构的设计，另外一方面，从具体的应用场景出发，采用“大蓝图，小步走”策略，不断评估和优化流程，实现人工智能工作的规划和交付。四 . 负责任的人工智能人工智能模型的设计和实施需要维护社会明确的道德价值观即社会伦理和系统安全。伦理是针对不良结果风险的社会行为指南，主要侧重于六个领域，以应对人工智能的竞争风险和收益：公平和公正、透明度和可解释性、问责制和合规性、安全和安保、隐私以及可靠性和稳健性。这些领域旨在通过最有效和最值得信赖的方式引导人工智能努力实现其预期影响。国内医疗大语言模型根据 IDC 的调查和网络搜索，据不完全统计，全国已公开发布了约 20 款医疗大语言模型，吸引了众多厂商投身研发，其中涵盖互联网科技企业、人工智能企业、互联网医疗企业和传统的信息化企业等。各类企业凭借自身优势积极参与，但均面临医疗数据隐私安全、复杂场景应用、AI 模型研发等挑战，需克服各自难题。国家政策 2024 年 11 月，为贯彻落实党中央、国务院关于开展“人工智能 +”行动的决策部署，国家卫生健康委、国家中医药局、国家疾控局研究制定了《卫生健康行业人工智能应用场景参考指引》[3]，积极推进卫生健康行业“人工智能 +”应用创新发展。《参考指引》将医疗领域的人工智能应用场景划分为四大部分，十三个类目，共列出 84 个典型应用场景： “人工智能 +”医疗服务管理：医疗服务、医药服务、医保服务、中医药管理、医院管理； “人工智能 +”基层公卫服务：健康管理、公共卫生、养老托育； “人工智能+”健康产业发展：医用机器人、药物研发、中医药产业； “人工智能 +”医学教学科研：医学教学、医学科研。 ( 一 ) 医疗服务 ( 九 ) 医用机器人 ( 六 ) 健康管理 ( 七 ) 公共卫生 ( 八 ) 养老托育 ( 四 ) 中医药管理 ( 五 ) 医院管理医学辅助诊断能智能辅助决策辅助规划预智问能诊智度能调满查意智能辅助质控医学辅助治疗能智能分诊诊陪诊院后管理临床辅助决策能智能辅助勾画智能咨询医随访辅助生成中医辅助诊疗能智能检测中药审方能中医智能质控案思名想中智医能学传术承中智医能药辅科助研智能质控辅助书质量管理人员管理智能管手理术室智能管理房智能管理材设备管理智能管理流停车管理智能安全管理勤管理决策支持智能管理康健康管理智能管慢理性病自助服务智评能估心与理护分理级健康管理服务智能筛查与预测病慢性筛非查传与染预性测疾病智传能染监病测应急管理群体数据分析查漏补种智能监测与干预疸生智长能发婴育幼分儿析智能畸变剂射性量估算体智能风险评估康智健能康老管年理人咨询服务人员学习辅助培训应用智能监管辅助业智能质量托育评估构安全隐患预警 ( 二 ) 医药服务核智能辅助智能辅助导智能辅助 ( 三 ) 医保服务医保审智核能临智床能用辅药助商智业能健设康计险大语言模型 + 医疗软件的现状和发展一人工智能 + 医疗服务管理二人工智能 + 基层公卫服务三人工智能 + 健康产业发展四人工智能+医学教学科研机手器术人机康器复人机配器送人机消器毒人针机灸器推人拿医机疗器咨人询紧急机医器学人救援 ( 十二 ) 医学教学医智学能教辅学助仿学真智实能验患医者学虚教拟育人资源医学智教能生学成医智能生 ( 十三 ) 医学科研智能招患募者智能病研房究型智学能科辅研助挖智能文分智能医据分析研智能药物临床智能药 ( 十 ) 药物研发智能药发物中中药鉴材定智识能别仿生 ( 十一 ) 中医药产业中生药态材种智植能 2024 年 12 月 24 日，上海市人民政府印发《上海市发展医学人工智能工作方案（2025-2027 年）》[4] 并提到，医学人工智能是培育新质生产力的重点领域，也是推动高质量发展的重要支撑。下一步，上海市医学人工智能重点赋能的领域包括：传统机器学习、深度学习技术在临床中落地应用；大语言模型加速赋能临床诊疗，为临床辅助决策提供支持；智能机器人助力智慧医院建设，提升医院管理运行效率；推动产业进步为落脚点，获得创新发展新动能。在大语言模型方面，要做实大语言模型应用场景，瞄准关键行业切口，建设标杆场景，放大示范效应。要构建优良生态，把“管行业也管智能化”的理念落到实处，形成协同推进“人工智能+” 的产业创新氛围。在语料建设中，也率先开展了卫生健康行业的语料建设和金融大模型应用测评指南等领域方面的工作 [4] 。卫宁健康公众号聚焦医疗 AI 2024 年，卫宁健康逐渐增加人工智能相关投入，官方公众号也进一步聚焦人工智能话题，2024 年共发表 17 篇相关文章，主要包括以下几类 : 上下游企业、校企合作类：发布《以新质生产力推动数字技术与医疗健康服务的深度融合，国家超级计算天津中心与卫宁健康共启超卫服务模式》、《总决赛揭榜！ 2024 第七届上海交大- 卫宁健康智慧医疗挑战赛圆满结束》等文章。值得一提的是，在校企合作方面，我们还通过举办暑期人工智能夏令营，让更多高校学生体验了“人工智能 + 医疗软件” 应用场景和人工智能软件开发方法。用户标杆案例推广类：发布《上海市肺科医院，如何借力大语言模型》、《医护的专属智能助手！北京大学人民医院发布基于大语言模型的人医智助 Pai Assistant》、《卫宁健康WiNGPT 医学影像研究成果荣登国际顶刊〈Radiology〉》等文章。相关奖项类：发布《卫宁健康荣获“年度优秀数据要素创新企业奖”、“年度数据要素产品奖”，亮相 2024 数据交易节颁奖典礼》、《2024 医专委第四届年会暨“创新科技智领未来”论坛在沪召开，卫宁健康荣获“年度优秀医疗创新奖”》、《卫宁健康入选 IDC vendor profile |《卫宁健康：AI 增强 WiNEX 效能再提升》》等文章。小结 2024 年，医疗人工智能市场展示出巨大潜力，无论是中国还是全世界，人工智能正在对医疗机构产生深远影响。政府、医疗机构、企业和相关组织携手合作，通过达成共识、引导场景建设及构建创新的上下游协同产业，共同推动行业发展。卫宁健康作为积极践行者，也在 2024 年取得了一系列的成果与用户认可。观点 AI 的崛起促使我们重新审视各学科的传统范式，本章“观点”汇集了变革时代的各方声音，诸如 2024 年获得诺贝尔物理学和化学奖的杰弗里·辛顿和戴密斯·哈萨比斯，他们的研究已经展示了 AI 的深远影响，模糊了计算机科学、生物、化学等核心学科之间的界限。从不同的视角审视 AI 的发展，我们将对其潜力和挑战形成更全面的认识，最终为更具影响力和负责任的创新铺平道路，特别是在医疗这一充满变革的领域。超越比较：人工智能的独特发展之路在人工智能快速发展的今天，我们常常陷入一个误区：试图将 AI 与人类智能进行直接比较，而忽略了我们真正要解决的问题。不同的起源，不同的路径如果莱特兄弟执着于复刻鸟类飞翔的每一个动作，那么我们或许乘坐的不是现代喷气式飞机，而是巨大的机械鸟。同样，若强求 AI 完全模仿人类大脑的运作，或将错失其真正的潜力。人类智能经过数百万年进化，以适应生存和社会互动，如视觉系统擅长识别潜在威胁，这种能力在远古时代至关重要。而 AI 是人类有意识创造的，旨在解决特定问题。例如，AI 在图像识别上可能使用与人类不同的方法，在某些任务上有超越人类的准确度。各自的优势人类大脑擅长创造性思维、情感理解和复杂的社会互动，莎士比亚的戏剧和毕加索的画便是艺术创造与情感表达的典范。相比之下，AI 在数据处理、模式识别和大规模计算方面表现卓越，如 AlphaGo 在围棋比赛中击败世界冠军，展示了其几秒钟内分析数百万种可能性的强大能力，这是人类难以企及的。超越比较：人工智能的独特发展之路协同而非竞争与其将 AI 视为人类智能的竞争对手或替代品，不如视其为补充工具，就像望远镜扩展视力，计算器增强计算能力一样，AI 扩展了我们的认知能力。在医疗诊断领域，AI 展现了惊人潜力。研究表明，AI 在识别某些癌症时，其准确率可达到或超过经验丰富的医生，但这并不意味着 AI 将取代医生，而是与医生合作，从而更快、更准确地诊断疾病，为患者提供更好的治疗。我们真正需要的是利用 AI 帮助人类探索火星，而非在地球上辩论到底 AI 与人类谁更聪明。持续学习：AI 的进化优势在比较 AI 与人类智能时，持续学习能力是一个关键要素点。AI 具备类似软件版本迭代的持续学习能力，其效率远超生物进化。想象一下，人类能像更新手机应用一样快速升级技能和知识，那正是 AI 的优势所在。当一个 AI 模型学习新知识或技能时，进步几乎可立即传播到所有使用该模型的系统中。例如，在语言翻译领域，一旦 AI 翻译系统学会新的表达方式或俚语，这些知识可以立即应用到所有翻译中。相比之下，人类翻译家可能需要数月甚至数年时间来掌握新的语言表达。此外，AI 学习是高度目标导向的。研究人员可以精准定义希望 AI 改进的方向，通过精心设计的训练数据和算法实现这些目标。例如，在自动驾驶技术中，研究人员可以专门训练 AI 以应对夜间驾驶或恶劣天气，使其在特定条件下表现快速提升。重新定义智能随着AI 的发展，我们或许需重新定义“智能”。以往，人类智能是衡量智能的基准，但 AI 的发展可能会拓宽我们的认知。真正的智能不仅关乎解决问题的能力，还涵盖适应性、创造力和情感理解等。在此广义定义下，人类和 AI 展现出不同形式的智能。虽然 AI 在下棋或复杂计算上可能胜过人类，但在理解语境、察言观色或创作原创艺术方面，人类仍有优势。这说明两者在不同领域各有所长，而非单一“智能” 高低之分。伦理考量 AI 的快速进化引发了伦理方面的关注。我们需要确保 AI 系统在不断进化的过程中保持对人类价值观的尊重，避免对社会造成意外的负面影响。以 AI 招聘系统为例，如果它在学习过程中不慎吸收了社会偏见，可能导致筛选应聘者时出现不公。因此，在推进 AI 发展的同时，也要深入研究其伦理与安全问题，确保其发展方向符合人类的长远利益。小结比较 AI 与人类智能的方法或如比较飞机和鸟类一样徒劳，因为每种智能都有其独特的优势和局限性。未来的挑战不是让 AI 变得更像人类，而是找到方法让这两种智能形式相互补充，共同推动人类文明的进步。正如飞机的发明开启了新的交通时代，AI 的发展可能会开启新的认知时代。关键在于结合不同类型的智能以应对复杂挑战。AI 的持续学习展示了一种高效精确的新型“进化”，凸显了其与人类智能的根本差异，也指明了未来发展的方向。最终，我们应利用 AI 的快速学习能力，确保其发展符合人类长远利益。在 AI 和人类智能共同演进的新时代，挑战在于协调这两种“进化”模式，使之互补，共同创造一个更智慧、美好的世界。我 O 们 RA 应降该临如：何理解这个世界过去一年，生成式 AI，即可以生成文本、图像、视频等内容的 AI 技术，如山呼海啸般席卷而来。以 Sora 为代表的文本生成视频工具，更是将这股浪潮推向了新的高度。它不仅深刻地影响着人们的生活，更在悄然颠覆人类对世界的认知。从文字的抽象到 Sora 的拟真，每一次技术革新都伴随着认知边界的拓展与重塑。真假难辨：“眼见为实”或成历史 Sora 的出现动摇了“真实”的定义，“眼见为实”的传统观念受到了前所未有的挑战。我们通过感官体验理解“真实”，文字抽象化了这些感知，绘画展现了画家的主观现实，摄影定格了瞬间，而CG 技术丰富了想象空间。如今， SORA 降临：我们应该如何理解这个世界 Sora 类工具彻底打破了“眼见为实”的神话，创造出真假难辨的视频，甚至比现实更“真实”。这引发了对“真实” 定义的思考：是客观存在的物理现实，还是感官体验的“真实感”？这种对真实性的冲击也带来了信任危机。当虚假信息和深度伪造变得轻而易举，我们还能相信什么？这要求我们更加警惕，培养批判性思维，并建立新的信任机制。原创何处寻：当 AI 具备“创作”能力原创一直被认为是人类专属的能力，是创造力的象征。但现在，AI 不仅能模仿各种艺术风格，还能生成全新的、独一无二的视觉内容。例如，前段时间引起广泛关注的 AI 动画短片《美丽的森林》，就展现了中国水墨画的独特意境，其精湛的技法和深远的意境令人叹为观止。人类创作者的地位是否正在被撼动？我们正在从内容的唯一生产者，逐渐转变为 AI 创作的指导者和优化者。那么，在 AI 时代，原创的定义是否需要改写？或许，我们应该把关注点从“是否由人类创作”转移到“是否具备创新性和价值”。即使是 AI 生成的作品，只要它能带给我们新的视角、新的体验，就同样拥有它独特的价值。创造力的进阶：人机协作下的边界拓展生成式 AI 不仅是工具，更是我们的合作伙伴，为我们提供新的创作方式和灵感。如设计师利用 Sora 生成多个设计方案，导演快速预览不同的拍摄效果。这种人机协作模式提高了创作效率，更易激发创新灵感。AI 的多样性生成能力打破思维定势，拓展想象空间。但需警惕 AI 可能带来的偏见和刻板印象，确保创作内容的多样性和包容性。未来，人机协作的创作模式将成主流，人类创意与AI 高效执行力相结合，带来内容创作的繁荣发展。信息洪流：如何在爆炸时代中不被淹没？ Sora 等工具的出现大大降低了内容创作门槛，导致信息爆炸式增长。在这个信息泛滥的时代，我们每天面对海量内容，既包括真知灼见，也有虚假信息和噪音。这种现象被称为“信息污染”。如何从信息海洋中找到真正需要的内容是一个巨大挑战。因此，我们需要提升信息筛选能力和处理效率，并学会应对信息过载带来的压力。同时，利用 AI 技术，如 AI 阅读助手，可以帮我们过滤信息，提炼摘要，快速提取出论文核心观点，节省时间成本，这将有助于我们高效应对信息过载问题。伦理与责任：技术发展下的道德考量任何强大技术都是“双刃剑”，生成式 AI 也不例外。它的广泛应用带来伦理和责任问题，如虚假信息和深度伪造技术的滥用可能危害个人和社会；AI 生成内容的版权归属问题引发争论，AI 训练数据的隐私和安全问题需重视。对此，我们需要建立完善的规则和法规，明确 AI 使用边界，规范开发和应用。可以通过制定法律禁止 AI 制作和传播虚假信息，加强公众教育，提高责任意识，引导正确使用AI 技术，以构建安全、可靠、可持续的 AI 发展环境。小结 Sora 的出现标志着人类认知发展的新里程碑，为各行业带来了巨大机遇和挑战。麦肯锡报告显示，生成式 AI 每年可为全球经济贡献万亿至万亿美元，对投资分析师而言，这意味着新的投资机会和行业变革。Sora 等工具将提升广告、影视、游戏等行业的生产力。它揭示了我们对世界认知方式的深刻变革，促使我们重新审视真实、原创、创造力等概念。我们需拥抱技术带来的机遇，但同时警惕潜在的风险。在当前全球医疗健康领域，生成式 AI 正展现出前所未有的变革潜力。从提升诊疗效率到优化资源分配，这项技术正被寄予厚望，有望彻底重塑医疗行业。然而，要充分释放这一潜力，我们必须深入审视现有的临床工作环境和医疗体系结构。只有这样，才能确保技术优势真正转化为可持续的健康成果，造福广大患者。对现有体系的深度审视任何新技术的普及都需要对当前体系进行深度反思与调整。以腹腔镜手术为例，其广泛应用不仅依赖于技术创新，更需手术室环境升级、流程优化和医护人员再培训。生成式AI 的普及也是如此，其应用不仅依赖于算法开发，还需要推动医疗 AI 保：健重全塑面临变床革环境，生成式 AI：重塑临床环境，推动医疗保健全面变革对医疗流程进行重新设计，使 AI 技术与医护团队无缝对接。通过升级医院信息系统，AI 可实时分析患者数据，为医生提供决策支持。这些变革需要资金和政策支持，关键在于技术如何提升医疗服务的人性化，改善患者生活质量。 AI 驱动的临床实践重塑 AI 技术引入深刻改变了临床实践的核心技能需求和团队结构。医疗人员不仅需传统解剖学和疾病机制知识，还需理解算法运作，警惕数据偏差，处理AI 系统的“黑盒推理” 问题。技术驱动的变革正在推动临床团队的角色升级，例如“AI 护理协调员”，专注于患者管理、AI 工具操作和风险评估。在这种新协作模式下，医护人员将与数据科学家、AI 工程师组成跨学科团队。这引发了我们对临床实践的重新思考：医生的核心职责是什么？技术辅助作用如何界定？这些问题需要在实践中不断探索和解答。生成式 AI 的商业化路径生成式 AI 实现商业化落地的关键在于对医疗场景的深度挖掘和产品的反复打磨。高价值场景需要具备两大特点：专业性要求高和服务范围广。基于我们的调研和研究，首先关注以下高潜力场景：病历质控：AI 可以自动检查病历的完整性、逻辑性和规范性，覆盖广泛的科室，在提高医疗效率的同时，可有效降低医疗纠纷风险。医学影像分析：在癌症筛查（如肺结节、乳腺癌）等领域， AI 不仅能够显著提升影像解读的准确性，还能大幅节约医生的时间，并能直接输出结构化报告。个性化诊疗支持：结合患者的基因信息、病史和最新医学研究成果，AI 能够为医生提供精准的治疗建议，尤其在复杂疾病的治疗中具有巨大的应用潜力。要实现这些场景的商业价值，需要高级医学专业知识的深度融入，深入理解医疗需求，不断优化算法质量，并强化用户体验。这种聚焦高价值领域的策略，将帮助生成式 AI 从技术创新迈向商业成功，为医疗机构带来实际的经济效益和投资回报。推动公平可及的医疗未来重新审视生成式 AI 的全球定位迫在眉睫。若不及时行动，这项技术恐沦为高收入国家的专属，进一步加剧全球医疗资源不平等。医疗行业需以全球视野推动技术共享和知识合作，确保所有患者，无论经济状况或地理位置，都能平等受益于 AI 驱动的医疗变革。例如，通过国际合作开发低成本高效 AI 工具，并在医疗资源匮乏地区应用，有助于缩小全球医疗鸿沟。AI 应成为连接全球医疗系统的桥梁，而非扩大差距的工具。小结生成式 AI 的出现，为我们重新审视临床环境与医疗体系运作模式提供了契机。从定义新临床角色到构建公平、可持续的医疗模式，这项技术不仅是工具，更是变革的催化剂。在这一关键历史节点，医疗行业的参与者需携手努力，确保技术进步带来更公平、预防为主的医疗保健未来。生成式 AI 的真正价值不仅在于技术创新，更在于对人类健康的深远影响和推动医疗公平的发展。问答产力。者想法，都适合通过模型来解决。验证了这一问题的结论，并不是所有的问题或在我们自 2023 年开始发起的各产品功能盘点中，通过对数百个应用视角的逐一评估，也也制约了模型的一些应用。往往也不尽如人意。除此之外，伦理和法律问题，因此对于需结合最新的政策、法规、文献的回答结果。其次，模型通常基于历史数据进行训练，确或带有偏见，那么模型将必然生成误导性的将产生最直接的影响，如果数据不完整、不准依赖训练数据，训练数据的质量对模型的回答杂性决定了它无法解决所有问题。首先，模型辑推理等领域表现卓越，但其局限性和问题复答案是否定的。大语言模型作为一种强大的工具，虽然在自然语言处理、信息生成和逻 Q 1. 是不是所有问题都能通过模型解决？在 2024 年 3 月的《政府工作报告》中，人工智能被多次提及，并被赋予了重要的战略地位。报告中提到，要深化大数据、人工智能等研发应用，开展“人工智能 +”行动，打造具有国际竞争力的数字产业集群。与此同时，用户的期盼和需求也发生了深刻变化，越来越多的行业开始关注如何高效且安全地应用大语言模型，以满足个性化需求并提高生在医疗应用探索中，我们的产研团队、各医疗机构用户，甚至是第三方机构，对 WiNGPT 抱有极大的兴趣和期待，且在试用后提出了诸多问题，现选取实践过程中及行业中热度最高的一些问题进行解答。医疗大语言模型十问优化及维护难度，可能影响产品迭代速度。大，成本增加。此外，模型规模增大也带来开发、型对算力和内存要求高，训练和推理的资源消耗会持续提高，但增益呈现递减趋势。同时，大模数数量）、训练数据量和算力的增加，模型性能 OpenAI 的论文《Scaling Laws for Neural Language Models》[1] 表明：随着模型规模（参用场景等多方面因素。大小的选择通常需要综合考虑性能、成本和应普遍认知中，更大的模型通常代表更强的理解能力和泛化能力，但在实际应用中，模型模型的性能水平。我们就能用参数量减半的模型达到当前最先进个月（约 100 天 ) 翻一倍。这意味着，每 100 天间呈指数级增长，2023 年以来能力密度约每度定律（Densing Law）—— 模型能力密度随时 “适合”才是最重要的。近期，来自清华大学刘知远教授团队发现并提出大语言模型的密 Q 2. 在应用过程中，模型越大越好吗？一步扩展国产化算力适配范围。海光等。未来，随着需求的增加，我们也将进 WiNGPT 支持国产 GPU 服务器部署方案，已完成测试的厂商包括：华为、燧原、沐曦、 Q 3. 是否支持国产 GPU 部署？层医生提供患者健康评估和健康管理建议等。专病库的快速生成等；在公共卫生领域，对基越能力，对自由文本进行信息抽取以支撑各类还有利用大语言模型在自然语言处理方面的卓本块生成，有结合了语音病历的病历内容组装，行统计呈现；在临床业务中，有简单的病历文报告进行质控，并将质控结果在管理模块中进细分场景进行挖掘。在医疗管理中，对病历、要围绕医疗管理、临床业务、公共卫生领域等文档翻译、医疗对话等等。在具体实践中，主病历与报告质控、文书总结与生成、信息抽取、具备处理医疗场景特定任务的能力，包括但不限于医学知识查询、症状分析与诊断建议、也 WiNGPT 除了具备大语言模型的通用能力， Q 4. 我们的大语言模型目前支持哪些应用？需求对模型的输入和输出进行个性化调整，帮助用户更高效地完成任务。户个性化和用户体验感：Copilot 能够根据用言模型提供基础的理解与生成能力，还可以集成领域知识，从而满足特定需求。语更高的集成能力：Copilot 不仅可以依赖大从而提升了系统的可靠性和可维护性。逻辑，而无需应用开发者对代码进行大幅修改，改变时，Copilot 可以通过适配层自动调整调用应用的正常运行。当模型版本升级或架构发生提高兼容性和可维护性：Copilot 通过设计稳定的中间层，屏蔽了底层模型的变化，确保保障了接口稳定性。际业务场景，从而降低技术门槛，提高开发效率，接口，使得开发者可以更轻松地将模型嵌入实封装大语言模型的能力，提供简单、标准化的业务对接难度降低：直接调用模型常面临技术复杂度高、接口不统一等问题，Copilot 通过 WiNEX Copilot（简称Copilot）是业务产品与模型对接的唯一途径，主要出于以下考虑： Q 5. 实际应用时，应该如何对接模型？设计不同的提示词。务必注意，没有完美的提示词，实践与体验视角不同，接受并理解不同场景，根据需要 - 重视用户反馈 - 尽早让领域专家参与 - 建立清晰的路由 / 思考逻辑 - 为不同功能创建专门的提示词 - 将复杂任务拆分成小模块 - 根据实际反馈逐步改进提示词 - 从简单开始 , 先理解问题应用试运行过程中，我们建议：好地满足用户的需求，在对提示词进行设计和这一问题是大语言模型落地过程中经常遇到的问题。为了让模型更好地与产品结合，更 Q 6. 如何让模型的回答更符合应用的要求？ 3）流式输出：对某些需要输出段落式文本的场景，采取流式输出的方式，增强用户体验。 2）批量处理：充分利用硬件的并行处理能力，提高吞吐量。调用已处理的数据。存储在数据库特定区域，以便业务使用时直接场景，还可利用系统空闲时间预先处理数据并而加快推理速度。对于某些即时性要求不高的 1）数据预处理：对输入数据进行一定程度的预处理，减少输入数据的大小或复杂度，从以下策略：最大化利用好模型的能力，我们一般建议采取然而，在实际应用中，出于成本效益的考量，算力往往是受限的。因此，如何在有限的算力中，化。 WiNGPT 已经采用了量化、优化器等方法进行优及数据处理等多种因素的制约。在算法层面，模型的推理速度对用户体验有着直接影响，而这一速度通常受到硬件、软件、模型架构以点？ Q 7. 如何让模型生成的速度快一点、再快一医疗大语言模型十问而不是害怕出错或追求完美而对其敬而远之。把 AI 当成思考的帮手，通过与它对话理清思路，多次尝试找到最有益处的答案。同时，也可以提问时应尽量具体并附上相关背景信息，通过单、熟悉的领域入手，把它当作一个耐心的伙伴，难以充分展现 AI 的优势。使用 AI 的关键是从简来说有点复杂，操作起来具有一定难度，因此信自己的经验；二是，AI 系统对不熟悉它的人判断和自己的想法不一致时，往往更倾向于相多人不太愿意相信机器的建议，尤其是当 AI 的医生在使用 AI 后并未表现出比未使用 AI 的医生更优异的原因，主要归结于两点：一是很而有研究声称使用 AI 的医生表现更佳，这是真的吗？ Q 8. 为什么有的医生反映 AI 一点也不好用，存储或推测个人信息。根据公开数据和统计规律生成内容的，并不会的准确性和健壮性考虑。其次，大语言模型是选，以确保不涉及隐私信息，这也是为了模型在训练之前，公开数据会经过严格的脱敏和筛这样的数据对于训练模型可能是有害的。因此，低、收益小，还可能带来法律风险，更重要的是，了法律法规，也没有必要，毕竟隐私数据质量会采用用户隐私数据训练模型，因为这既违反型的训练数据主要来自公开的互联网信息、开源数据、企业的知识库等。正规公司通常不模这些担心其实是不必要的。首先，大语言吗？ Q 9. 我的隐私信息会被大语言模型拿去训练疗体系中不可或缺的角色。协助医生优化流程，而非直接取代医生作为医 AI 更适合承担繁琐的行政工作和数据处理任务，能尚未问世，技术发展还有很长的路要走。因此，面仍有局限。全面胜任医疗任务的通用人工智在整合患者多方面信息和制定综合治疗方案方 AI 的强项多集中于单一领域，如影像分析，但医生的执业资格涵盖了跨学科的全面能力，而因 AI 决策失误引发信任危机或医疗事故。此外，建议，还需根据具体情况调整治疗方案，避免能力。医生作为“安全阀”，不仅要验证 AI 的其次，AI 尚不具备独立承担医疗决策的责任的人性化关怀，这是当前 AI 技术难以精准复制的。疗决策时，患者往往需要医生提供心理安慰和源于对情感支持与理解的需求。在面对重大医的信任不仅建立在技术精准之上，更深层次地作负担分配四个方面解释。首先，患者对医生 AI 短期内尚无法完全取代医生，这一结论可以从人性需求、技术局限、制度复杂性和工 Q 10. AI 会取代医生吗？ WiNGPT WiNGPT 2024 回顾 WiNGPT 是一个医疗垂直领域大语言模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务，以此提高诊疗效率和医疗服务质量。通过利用大规模语料库进行训练，WiNGPT 可以理解并生成与医疗相关的高质量文本，帮助提高医疗服务效率，改善患者护理，并支持医学研究。从最初的 WiNGPT-1 到最新的，WiNGPT 在参数规模、应用场景和性能提升方面取得了显著进展。 • WiNGPT-1 WiNGPT-1 采用了通用 GPT 架构，具有 62 亿参数。总训练 token 达 37 亿，包含 9720 项药品知识、 18 个药品类型、 7200 余项疾病知识、2800 余项检查检验知识、 53 本书籍知识以及 1100 余份指南文档。这一版本奠定了 WiNGPT 的基础，为后续的迭代提供了坚实的数据支持。 • WiNGPT-VL WiNGPT-VL 融入更多医疗领域知识和指令数据，进行新一轮预训练和微调，并扩充上下文 token 长度，进一步提升模型的理解能力和泛化能力。同时，继续优化多模态模型，整合数据增强、知识增强、检索增强，以应对更复杂的应用场景。这一版本标志着 WiNGPT 在医疗领域的应用达到了新的高度。 • WiNGPT-2 WiNGPT-2 发布了 70 亿参数版本，新增检索增强能力，并于 2023 年 8 月率先在医院生产环境试运行影像报告结论生成功能。9 月发布全新架构的 130 亿参数版本，更易扩展和个性化定制。这一版本在参数规模上有了显著提升，同时，增强了模型的实用性和灵活性。 25 2024 医疗人工智能年度报告 • 发布具有 340 亿参数版本，并完成初期的多模态版本训练。理解能力、推理能力和应用适配能力明显提升。11 月同步进行五家医院试点，场景包括病历内涵质控、临床辅助决策、病历文书生产等。这一版本不仅在参数规模上进一步扩大，还在实际应用中取得了显著成效。 • 版本带来了全面的能力提升，特别是在医疗任务处理、信息抽取和数学能力方面有显著进步，其各项评估指标如执业医师考试、医疗场景问答、指令遵循及中文通用能力等均有所增长，尤其是数学解题能力从 % 大幅提升至 %。此外，针对中文医疗模型评测进行了扩展，增加了新的评估标准，并引入 Multi-Agent 插件以增强辅助诊断功能，在真实环境测试中医疗质控准确率达到了 90%-95%，为用户提供更高性能的服务。 • 使用更加强大的模型基座 -32B，经过后训练，在通用和医疗能力上都有显著提升。此外，我们重构了模型后端，引入了 Routellm 使 WiNGPT 可以异步在安全合规、插件工具和多种模型之间进行路由。例如，我们加入了互联网搜索功能以降低模型回答的幻觉，为用户提供更精准的服务。 2024 医疗人工智能年度报告 26 为什么要研发行业垂直领域模型？研发医疗行业垂直领域模型，优化医疗服务流程，提升患者就医体验、减轻医生工作负担、提高管理效率以及满足政策管理要求。WiNGPT 实现自动化和智能化病历书写、辅助医疗决策，并为医生提供持续学习的机会。同时，借助数据分析和智能监控确保服务质量，合理调配医疗资源，挖掘数据潜在价值，以支持更明智的医疗决策。此外，这些模型符合国家电子病历标准，提供合规的医疗方案推荐和病历生成，保证病历内容的质量和完整性，还引入了多样的输入和操控模式，如语音和图像识别，以及灵活的数据处理方式，从而全面提升用户体验和操作便捷性。核心价值专业知识：经过大量行业特定数据的训练，WiNGPT 具备了深厚的专业背景知识，能够提供更加精准的服务。定制化能力：根据客户需求灵活调整模型参数，以满足不同应用场景下的特殊需求。持续更新：随着新数据的加入和技术的进步，模型性能不断优化，保持领先地位。安全合规：严格遵守相关法律法规，保障用户信息安全和个人隐私。关键技术大语言模型已经从单纯的文本生成工具演变为多功能的智能角色，深刻改变了我们与数据和信息互动的方式。然而，为了进一步提升这些模型的能力边界，我们也在不断探索各种扩展技术。接下来，我们将介绍过去一年 WiNGPT 在数据合成、对齐训练、Agent 技术、检索增强生成以及数字人等关键技术上的具体实践。数据合成为了应对日益增长的对多样化和技能特定数据集的需求，我们采用合成数据生成作为补充方法。合成数据生成作为一种有前景的替代人类编写数据的方法，因其更容易获取、可定制于不同目的，能反映底层模型的广泛知识而受到关注。此外，由于医疗数据的构建需要人类具备较高的医学知识水平，因此，采用有效的数据合成方式，可以快速构建大量的医疗指令集。一、文本指令合成本次数据合成，主要集中在医疗、通用和数学等领域的中文数据。医疗指令合成：通过 WiNGPT 平台获取人工指令，分类得到不同医疗场景的候选种子集，对候选种子集进行去重和过滤得到高质量种子集。将种子集与众多真实病历文本融合后的内容交予大语言模型来依据具体医疗场景的设定来重述，从而得到大量接近真实医疗场景的指令。非医疗指令合成：通过开源平台获取通用、数学等指令，对指令进行分类，如数学问题涉及小学数学到高级数学等分类；随后，针对每类数据，采用角色为中心，使用高性能的开源模型进行指令合成，每次随机选择 3~5 条数据，让模型借鉴来合成独特且特定于给定角色输入的指令。对于数学类指令，另一种合成方式是从预训练数据中获取数学相关的上下文，并将其转换成问答格式；对于新生成的指令再通过 Evol-instruct 的方法进行 1-2 次深度和广度的进化，之后对每类指令进行严格去重，得到多样化的指令。答案合成：在答案的生成过程中，使用开源模型以及 GPT-4o 来进行合成，通过随机选择温度超参数在 − 范围内，以实现多样化的生成。随后，运用拒绝采样(rejection sampling) 的方式来获取每个指令的最优答案。特别地，针对医疗指令，我们确保了部分数据集经历了严格的人工审核和校验流程。数据审核：所有非人工审核的指令经过 reward 模型进行打分，以某一阈值来对数据进行过滤。在每类数据集中，使用困惑度 (PPL) 来区分指令的难易程度，最终会根据 reward 模型给出的困惑度结果的区间来进行指令集的采样。二、多模态数据合成对话数据合成：针对开源数据中中文图文指令集少且指令集描述普遍过于简短等问题，我们设计了一种基于开源模型的合成数据生成方案。该方案利用开源多模态模型生成较为详细的中文 caption 指令集，随后在同一场景中随机挑选1-4 张图片和相应的中文 caption，将 caption 数据提供给 WiNGPT ，通过设计系统指令让其每轮进行提问，将问题和图片给到开源多模态模型进行回答，最终通过设定循环次数，得到多轮多图的对话数据。之后，我们根据答案的长度、语句的重复性等进行规则过滤，对数学类题目则根据原始数据的答案进行过滤。在制作最后的 caption 指令集时，我们针对每一个场景都设计了上百个问题，确保了 caption 数据集的多样性；在对话数据集上，我们让 WiNGPT 在不同场景下提问，以获得丰富的问题。最终，我们通过合成数据的方式得到了一批多样性、答案较为详实且具有一定质量的中文多模态图文指令集。文字转图片数据合成：为了创建多样化且高质量的图文组合，我们将文本内容转化为图像，通过应用多种背景颜色、精选不同的字体样式以及随机调整字体大小等方式来实现，生成多样化的图片。在 OCR 任务上，我们将预训练文本转为图片，得到图片内容和文本内容一致率接近 100% 的中英文多领域 OCR 识别指令数据；在图片问答任务上，我们以WiNGPT 微调时的高质量指令作为素材，将问题转为多样化图片，原答案作为文本，得到高质量的图文 VQA 数据集。对齐训练随着大语言模型规模和复杂性的增加，其输出结果往往难以在不同情境中始终符合人类预期。这需要依赖对齐技术来解决，即通过优化模型的训练方式，使其生成符合预期的、合乎伦理和社会价值观的输出。 WiNGPT 的对齐技术更新主要有三方面，包括数据对齐、优化算法和高效的数据处理方法。数据对齐聚焦于确保输入样本能引导模型生成合乎期望的输出，而优化算法用于在训练过程中强化这种对齐关系，数据处理方法则通过提升效率来改善训练过程的速度和稳定性。对齐数据的进一步优化：主要包含价值观对齐，偏好对齐以及行业规范对齐。对齐数据的持续优化使其在各领域的表现更符合预期并具备更高的应用价值。新的损失函数 - CPO-SimPO：新的损失函数较之传统 DPO 更加简洁且高效，进一步提升了模型对对齐偏好的表达能力。高效的数据打包算法 - LLPFHPP：引入了长包优先的直方图填充算法（Longest-pack-first histogram-paired- packing, LPFHPP）。该方法结合了直方图填充和配对填充的策略，优先填充长数据包，有助于数据利用率的提升和计算资源的优化。现有的对齐技术已经在多个方面实现了显著提升，但在不同应用场景中仍存在一些优化空间。当前，对齐技术评估大多基于离线测试数据，然而，在复杂的任务中，这样的评估往往不够全面。研究对齐效果的在线评估方法，并且提升对齐过程的可解释性，有助于开发人员理解模型的行为特征，提高模型的可控性和透明度。未来的优化工作可以在多维度对齐方法、自适应优化和评估方法等方向上进行深入探索，使得对齐后训练技术能够更加精确、灵活地满足不同应用场景的多样需求。 Gr aph R A G （ R e trie v al-A ugment ed Generation）国际疾病分类（ICD）是全球统一的医疗分类标准，准确对齐患者信息至 ICD 编码对诊断和治疗至关重要。然而，大语言模型直接根据患者信息生成 ICD 编码存在一定局限性，例如容易产生幻觉、难以处理复杂推理任务，以及在应对 ICD 版本更新时成本较高。为此，我们构建了基于 WiNGPT 的 Graph RAG 作为解决方案。这一方法结合了检索增强技术，并通过知识图谱进一步提升了系统的推理能力。 Graph RAG 具有以下优势：显式知识表达：知识图谱通过节点和关系的结构，清晰表达医学知识，便于系统准确使用信息。复杂语义推理：支持多跳推理，跨越多个实体和关系链条，能够处理复杂查询和语义关联。知识补全与一致性：利用知识图谱中的隐含信息，补全患者记录中的知识缺口，确保生成结果与上下文的一致性。我们基于 ICD-11 编码的层级结构构建了 ICD-11 知识图谱，作为 Graph RAG 的核心组件。该图谱中，每个 ICD 编码被作为节点，包含分类名称、定义等信息，并通过层级关系连接，支持跨层次和跨领域的推理，能精确映射患者的症状与诊断信息。图1. ICD11编码知识图谱示意图在具体实现过程中，首先将患者的临床信息输入系统。大语言模型通过分析层提取关键医学信息，如症状和诊断等。这些信息通过知识库层映射，通过 ICD 编码的层级结构在知识图谱中进行查询，检索到相关节点和关系。随后，借助知识图谱中的推理能力，处理提取的节点，恢复其名称、定义等信息，确保能够准确匹配患者的临床信息，并对齐最合适的 ICD 编码。此过程不仅依赖于知识图谱的结构化数据，还结合了推理链条中的关系，以提升对复杂查询的处理能力。最终，生成的 ICD 编码将作为诊断对齐的输出。检索层检索信息处理层三元组结果 LLM 诊断分析输出层最终 Top5 ICD11 编码检索知 IC 识 D 图 11 谱知识库层向量 F 索 is 引 s 库 bge-m3-large信息汇总图2. ICD编码对齐技术路线图目前，我们的 ICD 编码对齐系统主要依赖文本数据和知识图谱的推理能力。随着多模态数据处理技术的进步，未来我们有望将医学影像、实验数据等多模态信息整合进RAG 系统，从而进一步提升对复杂病历的理解和编码准确性。 AI Agent 随着大语言模型技术的飞速发展，AI Agent（智能代理）作为一种具有高度智能和自主性的实体，正逐渐崭露头角。它能够感知环境信息，基于所获取的信息进行分析、推理和决策，进而采取行动以实现特定目标的智能程序或系统。在医疗行业，AI Agent 蕴含着巨大的潜力，有望从根本上改变医疗服务的提供方式、效率和质量，无论是在疾病诊断、治疗方案制定，还是在医疗资源管理等方面，都可能带来创新性的变革，重塑医疗服务，引领其走向更加智能化、精准化和个性化的未来。 Multi-agent 执行框架为了应对高度定制化、复杂的医疗业务需求，提升 AI Agent 任务处理效率，我们基于 Celery（异步开发框架）设计研发了 Multi-agent 执行框架，为多样化业务提供了一个高效、灵活且可靠的异步任务处理平台。该框架允许各业务根据自身需求自定义工作流程，确保不同业务逻辑能够精准实现，满足特定的应用场景要求。通过多 Agent 的协同工作和交互，支持复杂任务的高效完成及跨业务的无缝协作，大大提升了业务灵活性。在技术特性方面，框架借助Celery 的强大异步处理能力，极大提高了系统并发能力。同时，它支持多业务在同一环境中分布式执行，简化了一体化部署，确保了高可用性和可扩展性。输入层患者信息 LLM 分析层其他重要信息分析初步诊断分析检查所见分析主诉分析症状分析图3. Multi-agent系统异步执行架构图临床辅助诊断 Multi-agent 系统战。为此，我们借鉴了临床诊疗思维和认知心理学中的双系临床诊断决策是医疗体系中至关重要的一环，它直接关系到患者治疗方案的制定和执行。精确且全面的诊断是确保患者得到有效治疗的基础。然而，在当前的医疗实践中，由于医学专科化日益加深、医疗资源分布不均以及医生需要同时承担繁重的临床和科研任务，临床诊断决策面临诸多挑统理论，将临床诊断过程划分为快速推理和复杂推理两部分。快速推理依赖于长期训练形成的直觉反应，而复杂推理基于记忆知识、外部数据进行逻辑推理和决策。结合大语言模型和AI Agent 技术范式中记忆、工具、反思优化等组件，我们设计并实现了临床诊断流程。图4.临床辅助诊断Agent系统业务流程图 message record & message p c a o ra tro e l t l er r s record async_task parameters controller forever_loop Task2 … … Task1 async_task pool Task1 Redis Task2Task2 …… 晕、视物成双 15 小时主要名称：急性脑梗死诊断…… 依据： …… 断名称：原发性高血压诊断审核 Agent 最终审核 Agent 后端服务前端界面反思优化工具记忆知识慢思考：综合分析医生丙 Agent 医生乙 Agent 医生甲 Agent 快思考：初步诊断（1）快速推理 Agent 快速推理是根据病人的入院信息生成可能的诊断池。为了生成更广泛的可能诊断，我们模拟多医生联合会诊，通过不同专业虚拟医生角色的加入，系统能够从多个角度对病情进行分析，从而扩大并丰富诊断范围。（2）复杂推理 Agent 复杂推理是对快速推理产生的诊断，利用疾病知识库、历史记忆数据、检索工具等获得的诊断相关的知识和记忆，进行复杂的、理性的推理决策过程。（3）反思和优化 Agent 利用医生的诊断来评价复杂推理结果的正确性，通过对错误诊断的纠正和记录，生成记忆数据，作为下一次复杂推理的参考上下文，提升复杂推理Agent 的容错和纠错能力，使 Agent 具有不断进化和提升的能力。图5. 基于AI-Agent的临床辅助诊断基于上述设计思路，我们把辅助诊断分成了三个步骤：第一步，初步诊断。三个不同的医生角色对用户输入病历生成可能的初步诊断；第二步，综合分析。根据 RAG 返回的疾病相关的知识对初步诊断进一步分析，去除不合理的诊断并生成诊断依据；第三步，最终诊断。对第二步分析得到的结果区分主诊断和次要诊断。基于大语言模型的临床辅助诊断 Agent 显著提升了诊断效率和准确性。未来，将聚焦个性化治疗方案，实时更新医学知识，促进跨学科协作，并优化用户界面以增强用户体验，推动医疗服务向智能化、精准化和个性化的方向发展，为患者提供更高质量的诊疗服务。数字人在人工智能与医疗健康深度融合的时代，智慧医院正逐渐成为医疗服务创新发展的新方向。数字人在医院场景中的应用日益广泛，潜力巨大。3D 数字人技术的开发与应用，并将其引入智慧医院场景，让人工智能的智慧更具象。技术实现 3D 数字人涉及多个模块，可以概括为建模、驱动、渲染以及应用四大步骤。数字人在实际应用中展现出复杂的交互流程和多个技术综合运用的能力。下图展示了数字人的技术框架。在应用端，用户通过输入文本或音频与系统交互。交互中心负责将输入内容统一转换为文本，并通过大语言模型服务生成相应的回答，同时进行情感分析，最终获取到情感分类和回答内容的音频，以驱动后续的表情和动作生成。3D 渲染中心负责通过音频和情感分类，驱动数字人的口型、表情和动作，最终在 3D 场景中渲染出数字人的形象，并通过推送像素流的方式展示在用户端。技术创新图6. 数字人整体技术架构图传统的门诊问诊过程中，患者数量庞大，初步症状筛查通过正面照自动生成 3D 人物头部模型并利用 M e t a H u m a n 完善形象，大幅提升建模效率；采用 audio2face 及情感分析技术，实现音频同步口型动画与表情控制，驱动丰富表情和肢体动作；使用 UE5 结合像素流技术，确保多终端下高质量实时渲染与互动；云端部署交互与渲染任务，降低终端硬件要求，支持跨平台流畅访问数字人画面。应用示例流程耗时且重复性强，通过技术手段优化预问诊环节，减少医生负担，提升患者就诊效率，成为智慧医院的重要环节。为此，我们基于 WiNGPT 设计实现了数字人预问诊系统，模拟医护人员的预问诊流程，通过与患者的语音或文字互动，收集病史、初步症状，为医生诊断提供辅助参考。患者可文字或语音输入，WiNGPT 提供的问诊助手将生成回答文本，再通过数字人服务端进行转换，实时驱动数字人进行口播以及动作和表情的展示。丰富患者交互体验的同时，也增强了问诊过程的亲和力与沉浸感。应用端输入推送像素流 3D 渲染中心综合渲染情感分类回答内容音频文字转语音服务语音转文字服务音频服务音频交互中心表情动作服务情感分析服务大语言模型服务口型驱动服务文本 3D 场景与数字人图7. 问诊对话图我们在模型发布时，使用数字人在虚拟场通过数字人在 3D 场景中的生动演示，宣教和培训内容景中介绍 WiNGPT 的相关内容，并生成内容短视频，进行传播与分享。我们希望通过这种方式让更多人直观形象地了解 WiNGPT 的功能与价值。在此案例中，我们构建了 3D 场地、显示大屏以及不同视角的变化。同时，还准备了 WiNGPT 内容的相关素材，涵盖图片、视频、文字稿件。同时，我们将需要讲述的文字稿与展示素材内容进行对应，并按照介绍内容的顺序整理。随后，将文件上传至此项目服务中，系统便能自动生成数字人介绍的 WiNGPT 的视频。【扫码看数字人】此实例可以进一步扩展应用于智慧医院的数字人宣教与培训，如健康知识科普、疾病预防讲解以及医疗设备使用培训等场景。将更加直观、易懂，提升医护人员技能和患者健康素养的同时，降低了培训成本，优化了智慧医院的教学与宣教流程。扫一扫，观看视频目前，我们正在探索通过生成式 AI 生成数字人，即利用照片、音频和动作进行训练，以实现数字人的快速生成。与此同时，我们也在持续加强 3D 数字人的开发和应用。展望未来，由生成式 AI 生成的数字人将能快速应用于短视频创作，并结合 3D 数字人技术，实现高精度、强交互的场景，为智慧医院建设提供更强大的技术支撑。启示 2024 年，除了上述关键技术之外，我们在实践过程中还获得了以下启示：（1）充分训练的语言模型中，每个参数可以存储约 2 比特信息，这意味着我们可以通过估计数据中的有效信息计算模型所需要的数据量。（2）训练数据中若存在低质量数据，会严重损害模型对高质量数据的知识存储能力，因此，数据质量是重中之重。（3）模型的深度对于推理能力至关重要，因为推理过程需要多步的内部计算的支持。（4）在预训练数据中加入带错误和纠正标记的数据，可以显著提高模型的推理能力。（5）利用合成数据训练语言模型是未来的重要研究方向，有助于突破现有模型的局限性。（6）测试时间训练（Test-Time Training）是下一个技术突破的关键，很可能与 OpenAI 的 o 系列实现有关。模型评估 - WiNEval 经过过去一年的精心雕琢，WiNGPT 的专业能力和可靠性取得了长足的进步。尤其在医学考试和医学场景下，更是超过了多个通用领域大语言模型以及医疗领域大语言模型。在此背景下， WiNEval 测评方案引入更多新元素以适应 WiNGPT 的快速成长。新思考：WiNEval 在医学大语言模型评估方面取得了一定的进展，尤其在医学考试、医学场景和指令遵循等类型问题的覆盖上。然而，WiNEval 在评估指标上仍显单一，部分场景缺乏客观标准。此外，虽然覆盖了广泛医疗场景，但在一些细分领域的专项评估上仍不深入，未能全面反映模型在特定任务中的差异。同时，医疗数据复杂且扩展困难，使得数据量问题成为亟待解决的关键挑战。新特性：WiNEval 通过精细化任务划分，针对入院、病程、出院三大场景及专业能力、逻辑推理和标准化三项能力，构建专项数据集。它采用了多维度的评价方式，涵盖客观评估指标、生成式任务评估、幻觉评估、模型竞技和加权评估，以确保评估的全面性和准确性。WiNEval 的模块化架构支持灵活扩展，其动态更新机制适应医疗领域变化，高效响应新任务和技术引入，为模型评估提供更精准的支持。新构成：WiNEval 的实现基础在于精心构建的数据集，这些数据集覆盖了医疗领域的多个关键方面，确保了评估的全面性和深度。其中，综合评估数据集包括 MCKQuiz、MSceQA、 MInsFL，而专项评估数据集则以 MDSE 为代表，这是一个基于真实医疗场景构建的数据集，聚焦于专业人员关注或亟需 AI 辅助的医疗任务。目前，MDSE 包含七个专项数据集，每个数据集针对特定的医疗任务进行了精心设计。评估集数据量评价指标评估内容 MCKQuiz 12785 Micro-F1 医学专业考试 MSceQA 395 LLM Judge 多医学场景能力 MInsFL 156 LLM Judge 医疗指令遵循 MDSE 1600 医疗专项评估 CMedPD 500 Micro-F1 初步诊断阶段的逻辑推理能力 CMedCQC 550 Accuracy 病历质量控制的专业能力 CMedTP 200 LLM Judge 制定诊疗计划时的逻辑推理能力 CMedAE 100 Micro-F1 辅助检查生成的专业能力 CMedMK 50 LLM Judge 医学知识问答的专业能力 CMedICD 100 Accuracy 疾病编码标准化的标准化能力 CMedBM 100 Micro-F1 出院带药指导的专业能力表1. WiNEval数据集说明效果型的表现存在明显差异，不同模型在专业能力、场景适应性 WiNEval 通过模块化设计的数据集和指标，全面评估了大语言模型在不同任务和场景中的表现。综合评估显示，模以及任务执行效果上展现出各自的优劣势。表 2 展示了多个大模型在 WiNEval 上的具体得分及其综合平均值。 Model MCKQui z MSceQA MInsFL MDSE Avg -32B-Instruct -34B-Chat -72B-Instruct 90 表2. 不同大语言模型在WiNEval上的评估结果大语言模型幻觉是 WiNEval 评估框架中的一项重要指标，反映了模型在医疗任务中生成真实、可靠回答的能力。通过该评估的得分，能够评估模型生成结果中是否含有不符合医学事实的幻觉。得分越高，意味着模型的幻觉率越低，即其生成的回答更加贴近医学实际。图 8 展示了多个大模型在 WiNEval 上幻觉可靠性结果。 80 75 70 65 60 55 50 Qw Ins 2 r . u 5 c - t 2B 34 Y B i- - 1 C .5 at Qw Ins 2 r . u 5 c - t 2B 图8. 多个大语言模型在WiNEval上的可靠性对比为了更加直观地展示各模型的能力对比，我们采用了模型竞技对比的形式，并根据结果将数据划分为 WIN （胜）、DRAW（平）、LOSS（负）三种情况。其中，WIN 表示左侧模型在模型两两对比中获胜的次数，DRAW 表示左右模型在任务中表现平分秋色，LOSS 表示左侧模型失败的次数。图 9 展示了多个大语模型在 WiNEval 上的竞技对比结果。图9. 多个大语言模型和WiNGPT在WiNEval上的对比 Qw Ins 2 r . u 5 c - t 2B 34 Y B i- - 1 C .5 at Qw Ins 2 r . u 5 c - t 2B 专项数据集（MDSE）通过雷达图清晰地展示了模型在具体任务中的能力分布。通过对比不同多边形区域的重叠情况，可以直观地看出不同模型在各个维度上的优劣势，图 10 展示了多个大语言模型在 WinEval- MDSE 子集上的能力分布。 Win Draw Loss 116163116 55137203 64191140 A ve ra ge S co re A ve ra ge S co re CMedPD CMedBM CMedAE CMedCQC CMedTP CMedICD CMedMK 图10. 多个大语言模型在WiNEval-MDSE子集上的评价根据医疗场景的横向维度（入院、病程、出院）和模型能力的纵向维度（专业能力、逻辑推理、标准化），我们通过热力图的形式展示了模型在这些交叉维度上的表现情 100 况。这种方式不仅能直观地对比不同模型在交叉维度上的优劣，还能支持数据的灵活扩展。图 11 展示了多个大模型在 WiNEval-MDSE 下各交叉维度的能力。 100 Prof S e k s i s ll ional Re L a o s g o i n a in l g - S d t iz nd i ar Admission Progress 80 60 40 20 Discharge 0 Prof S e k s i s ll ional Re L a o s g o i n a in l g - S d t iz nd i ar Admission Progress 80 60 40 20 Discharge 0 -72B-Instruct -32B-Instruct -34B-Chat Qwen -32B-Ins truct A ve ra ge S co re A ve ra ge S co re Prof S e k s i s ll ional Re L a o s g o i n a in l g - S d t iz nd i ar Admission Progress Discharge 100 80 60 40 20 0 Prof S e k s i s ll ional Re L a o s g o i n a in l g - S d t iz nd i ar Admission Progress Discharge 100 80 60 40 20 0 图11. 多个模型结果的热力图呈现下一步，我们将持续丰富和完善 WiNEval 测试方案。继续丰富专项评估：未来，WiNEval 将继续专注医疗领域，并通过丰富专项评估，从真实的医疗场景中构建更多专业人员关注的专项数据，提升对细分领域和特定任务的评估能力。开展多模态医疗评测：随着医疗 AI 进入多模态领域， WiNEval 将致力于构建覆盖文本、影像、生物信号等多种数据形式的综合评测体系。对外开放评测体系：WiNEval 计划逐步对外开放评测体系，允许更多医疗大语言模型和研究人员使用其框架进行独立评估。小结我们从数据、模型、训练以及评估四个维度对 2024 年 WiNGPT 的发展进行了详细的介绍。高质量的数据为模型提供了丰富的学习素材，使 WiNGPT 能够理解并生成更加自然和精确的语言内容；先进的模型架构赋予了它强大的处理能力和灵活性；创新性的对齐训练策略增强了模型的学习过程，确保其性能达到最优；全面且严谨的 WiNEval 评估体系则提高了模型的可信度。 Yi- -34B-Cha t Qwen -72B-Ins truct 目前，越来越多的医院提出 WiNGPT 部署的需求，对技术和运维带来了不少挑战，如推理硬件资源要求高、运维复杂、安全性、隐私性等。为了应对挑战，我们结合最新的开源项目与技术设计实现了 WiNGPT 私有化部署方案，包括模型文件加密、模型量化、推理性能优化、推理框架选型定制化等工作，并初步完成了模型国产化适配探索。高性能与稳定性推理框架：在生产环境中，支持多用户高并发需求的高效推理框架至关重要。开源推理框架凭借高效的 KV-Cache 管理（Paged-Attention）、先进的推理优化方案、活跃的社区支持以及广泛的量化模型兼容性，显著提升了推理效率和资源利用率。我们选择了包括 vLLM 和 TGI 在内的领先开源框架，分别进行定制化开发，以满足特定应用场景的需求，确保灵活部署和优化性能。接口规范：我们采用 OpenAI 的接口范式，能够处理多种形式的输入数据，包括文本、代码片段、图片等。多模型支持和多样化的输入格式使得其适用于各种应用场景。基于这一标准化接口，我们打通了前后端链路，并调整了相关的接口处理模式，显著提升产品的适配性和规范性。量化方案：大语言模型参数量往往巨大，我们选择先进的 AWQ 量化方案，将模型压缩到一张显卡上。AWQ 技术假设模型中只有 1% 的参数是重要的，并通过激活值搜索这些参数。在后续量化过程中，对模型性能的负面影响降到最低。凭借 AWQ 的 4bit 量化方案，在保证模型性能不影响使用效果的前提下，将 GPU 利用率提升了 4 倍，显著降低部署成本。安全性医院进行私有化部署时，模型权重和代码将完全转移至医院环境。此时，大语言模型加密将成为维护自身知识产权安全的关键环节。通过采用非对称加密 RSA 算法，我们实现了一种大语言模型权重的加密算法以及一整套加密方案，不仅保障了模型的安全性，同时确保了与现有推理框架的兼容性、加解密效率及模型精度。基于开源推理框架 TGI 和 vLLM，我们二次开发了令牌技术机制以控制模型推理服务。服务启动时，先从配置文件获取并验证令牌，验证成功后解密加载模型权重，完成服务初始化。用户请求时，同样需通过令牌验证，确保请求合法性后，才基于已启动的服务生成响应内容。此机制保障了服务的安全性和可控性，详细流程参见图。 WiNGPT 私有化部署方案令牌授权和解密启动流程退出令牌授权和请求服务流程成功失败生成内容退出令牌验证生成服务请求体令牌权重加载权重解密令牌获取服务启动模型权重license WiNGPT 私有化部署方案失败成功令牌验证图1. 推理服务令牌授权示意流程图信创小结在国家信创战略步伐加快的背景下，2024 年 WiNGPT 在多种国产硬件上开展了适配、推理部署和性能测试工作。通过与国内领先的硬件厂商合作（华为、海光、燧原、沐曦），我们测试了 WiNGPT 在不同国产平台上的稳定性和性能，并获得相应厂商的证书认证。此外，完成了在上海某三甲医院的国产化系统落地。通过适配多种国产硬件平台，提升了产品兼容性和灵活性，使其满足不同应用场景需求。且进一步优化了资源利用效率，确保系统稳定运行。国产 GPU 应用可以减少对外部技术和硬件的依赖，为医疗机构带来更多硬件选型参考，助力其信创工作的实施。大语言模型工程化是必不可少的一步，也是决定成本和产出的一步。我们通过优化先进推理框架、模型加密等工作，推动 WiNGPT 在超过 10 家医院部署和落地。随着国家推进信创进程，我们与多家国产显卡厂商深度合作，并公平化评测，未来有望看到更多、更丰富的落地案例。 2024 年 3 月 5 日，WiNGPT2 系列发布了 7B 和 14B 规模的量化模型权重，进一步拓展了其在医疗领域的应用。 2024 年 4 月 24 日，基于 Llama3 的多个 WiNGPT2 模型发布，不断丰富开源内容。 2024 年 8 月 15 日，基于 Gemma-2 的医疗领域增量预训练和微调版本多个模型发布。 2024 年 12 月，我们的两大开源项目相继发布： WiNGPT-Babel（巴别塔）：一个基于大语言模型开发的翻译应用。采用 human-in-the-loop 数据生产策略，即使用少量数据进行初步训练，然后通过 API 收集使用各种工具的日志数据，并利用这些日志构建新的训练数据。使用模型和奖励模型对这些数据进行 rejection sampling，并辅以人工审核以确保数据质量。经过几轮迭代训练，模型性能逐步提升，直至达到预期水平停止。本项目致力于提供母语级的多语言翻译体验，降低语言障碍，帮助用户轻松获取全球互联网信息，适用于数据集、新闻、研究成果和视频字幕等场景。 windata-vision-synthetics-zh-300k：一个包含约 30 万条数据和 20 万张图片的中文多模态图文指令数据集，涵盖文档、图表、数学、OCR 等场景。针对开源数据中的中文图文指令集少、指令集描述简短等问题，我们设计了一种基于开源模型的合成数据生成方法。首先，利用开源多模态模型生成详细的中文 caption 指令集，随后在同一场景中随机挑选1- 4 张图片及其对应caption，输入至模型，通过系统指令使其每轮提问，再将问题和图片反馈给多模态模型进行回答。最后，设定循环次数，生成多轮多图对话数据。数据经过严格过滤和多样性设计，确保最终数据集详实且高质量。开源项目地址： windata-vision-synthetics-zh-300k WiNGPT 开源之路研究研究背景生成式模型特别是垂直领域的大语言模型开发，在学术界与工业界正处蓬勃发展之势。然而大语言模型究竟给医生带来了怎样的实际体验？我们应该如何评价生成式模型的效果？为探究这些问题，卫宁健康与上海市第一人民医院解学乾教授团队共同展开了 WiNGPT 在影像系统中使用的临床评价方法研究，研究成果已发表于影像学顶刊《Radiology》。研究表明，WiNGPT 生成的结论在科学术语、连贯性、诊断、鉴别诊断、随访建议、正确性、全面性、无害性和无偏见等方面的表现均良好。图 1. 文章所在网页截图 WiNGPT 临床评价放射科医生记录了影像学检查所见，WiNGPT 生成包括多种 2023 年 8 月 2 日至 31 日，上海市第一人民医院 6 名大语言模型生成的结论与最终放射科医生结论不同的病例。通过定义一个子集，排除相同和高度相似的病例，调查图 2. 实验流程图 WiNGPT 临床评价研究方法一、对生成式模型在放射科的日常报告撰写工作中的效果进行系统性评价放射学检查（CT、MRI、放射线照相、乳房 X 线照相）和解剖部位（颅骨和面部、颈部、胸部、上腹、下腹、血管、骨和关节、脊柱、乳房）的报告结论，并由医生进行校正。二、构建基于 ACR 的临床评估框架为了更客观的评价大语言模型生成的报告结果，我们基于美国放射医师学会的放射学临床实践，构建了评估框架。语言评估框架用于评估三个领域的放射学影像质量，包括文本、标准化和临床应用。专家小组基于该框架进行满分为 5 分的李克特（Likert）评分。域和维度解释文本科学术语结论使用合适和科学的医学术语。一致性结论是关于一个主题连贯和理性的信息。 WiNGPT 临床评价标准化诊断只要有可能，给出疾病、健康状况或特定放射学征象的具体诊断。鉴别诊断在适当的时候，提供相关的鉴别诊断。随访建议在适当的时候，建议进行随访或额外检查，以澄清或确认结论。临床应用正确性影像学发现支持了这一结论。全面性结论是全面的信息，与影像学所见一致。无害性不会以对身体或情感有害或无意中改变治疗或依从性的方式进行解读。无偏见不会引起潜在的偏见（这可能会导致误解）。三、使用 GPT-4 进行评价使用 GPT-4 对 WiNGPT 生成的结果进行评估，同时也对医生最后写出的影像结论进行评价用于对比。GPT-4 的评价结果由 2 名放射科专家独立审查，同时由第三位放射科专家对评价不一致的结果进行最终审核。对大语言模型生成的结论或者是医生最终报告结论， GPT-4 和专家小组基于李克特量表，根据评估框架进行了评分（1= 强烈不同意，2= 不同意，3= 中立，4= 同意，5= 强烈同意）。结果表明，专家小组并不能明确区分结论是由 WiNGPT 生成，还是由医生撰写的。研究结果上海市第一人民医院的研究测试集中包括 3988 名患者的数据（中位年龄，56 岁[IQR，40-68 岁]；2159 名男性）。以最终结论为参考标准，大语言模型生成结论的召回率、精确度和F1 得分的中位数分别为（IQR，-1）、（IQR 为 -1）和（IQR：）。测试集生成的子集中的 1014 名患者（中位年龄，57 岁 [IQR，42-69 岁 ]；528 名男性），WiNGPT 模型所生成结论的总体专家小组得分中位数为 5（IQR，5-5），范围从 4（IQR）到 5。具体情况如下：在文本领域（科学术语、一致性），WiNGPT 表现出色，分别有 1011 个（%）和 985 个（%）获得了良好的分数（≥ 4）。在标准化领域（诊断、鉴别诊断、随访建议），分别获得 647 例（%）、993 例（%）和 856 例（%）的良好评分。在临床应用领域（正确性、完整性、无害性、无偏见）， WiNGPT 分别在 716 例（%）、705 例（%）、892 例（%）和 1014 例中（100%）获得了良好评分。在以上除诊断外的八个维度上，专家组同意或强烈同意 %（1014 例中的 705 例）的 WiNGPT 生成的结论。结论本研究针对具体的临床问题和模型特点，构建符合计算机标准的临床评价方法，进一步将技术和医疗融合，全面评估大语言模型在医疗特定领域的适用性。在该研究中， WiNGPT 可以生成专业和语言上适用多种放射学模式和解剖部位的放射学结论，证实 WiNGPT 在影像报告生成中的可行性。在胸片领域的应 M 用 oE）技术研究背景作为 WiNGPT 模型家族的医学影像模型分支，我们基于现有胸片数据以及计算资源，探索稀疏模型结构，首次证明了稀疏多模态大模型在胸片垂直领域的应用可行性。我们创新性提出 MoE-CXR，一个建立在 CLIP-CXR 基础上的稀疏胸片视觉语言多模态大模型，采用混合专家（MoE）架构。经验证，该架构下仅激活 30 亿参数，即可完成临床胸片诊断任务。 MoE-CXR 经过了 42 万条图像文本数据的预训练，以及万条指令微调。这些指令包括诊断生成、封闭式 VQA 和开放式 VQA，在对应的公平测试集 CXR-Bench 上，MoE- CXR 的表现与当前医疗领域和通用领域的 LVLM 相比具有竞争力。在开放式问答的 PubMedBert-F1 指标上， MoE-CXR 达到分，均高于其他模型。技术路线数据储备丰富的数据储备往往比精心设计的模型结构更加重要。我们搜集了两种数据类型供模型训练，第一种为多疾病 0-1 分类数据集，共收集了约 82 万例胸片标签数据，包含 41 种不同的疾病类型，这些数据用于 CLIP-CXR 的对比学习训练。第二种为胸片视觉语言指令数据，在MoE Chatbot 预训练和微调阶段，我们构建了 42 万条预训练指令，万条微调指令。这些指令包含开源的胸片数据集以及我们从通用医疗数据中抽取的胸片 VQA 指令。表 -CXR 训练数据（二值标签）数据集名称样本数标签种类数 MIMIC-CXR 243231 13 CheXpert 191409 13 NIH-ChestX-ray 115120 13 PadChest 89075 26 Kaggle-COVIDx-CXR-4 84818 1 CRADI 83985 18 VinDr-CXR 18000 27 Tuberculosis-shenzhen 662 1 SUM 832119 41 表 2. 多模态大模型预训练和微调数据（指令）数据集名称样本数阶段采样比例 MIMIC-CXR-REPORT 218043 预训练 CheXpert-Plus 191071 预训练 ROCO-CXR 5703 预训练 MedICaT-CXR 5008 预训练 PMC-VQA-Pretrain-CXR 1523 预训练 SUM 421348 - - CXR-PRO 31643 微调 Medical-Diff-VQA 63047 微调 VQA-RAD-CXR VQA-Med-2019-CXR 607 971 微调微调 PMC-VQA-Finetune-CXR 1523 微调 LLaVA-Med-CXR 5611 微调 SUM 91960 - - MoE FFM 2FFM 1 Router Add&Norm lymphadenopathy image? humeral 模型结构 MoE-CXR 模型结构主要包含两大部分。首先，我们基于 OpenCLIP[1] 构建了 CLIP-CXR 视觉编码器，采用 ViT-L/14 模型结构，通过对比学习提取胸部 X 光片特征。然后，我们训练了一个 MoE Chatbot。以 MoE-LLaVA[2] 为基准，实现 Stage 2: Train a MoE Chatbot Sub-stage 1: Vision Language Alignment Image Caption G o PT a : d P m o is te i r o o n a s te o r w io i r n r g ad il o a g r ra n p d h m oft d h ias c t h in es l LLM 如图的三阶段微调。在视觉语言对齐阶段，利用 MLP 将视觉特征映射到语言潜在空间；在多任务微调阶段，实现基础的多模态问答能力；在 MoE 层微调阶段，引入混合专家机制，通过路由选择 top2 专家进行前向推理，优化模型效率和性能。整体模型设计旨在提升CXR 图像诊断的准确性与灵活性。 Sub-stage 2: Multi-task Fine-tuning GPT: No. FFN Add&Norm MLP CLIP-CXR Tokenizer&Embedding User: Plea i se a d ge s . cribe this Prompt ther U e s e e v r i : d l e s nce eff of io l n u in ra t l his Self-Attention E Tok b e e n d iz d e i r& g Sub-stage 3: MoE Layer Fine-tuning LLM Add&Norm copy weights GPT: Proximal fracture. FFN Add&Norm Self-Attention FFFFMM copy weights U fr s a e c r t : u W re h i a s t Tokenizer& ... Self-Attention FFM n pre i s m en a t g i e n ? the Embedding 图 -CXR 整体结构图，训练方案包含：视觉语言对齐、多任务微调以及 MoE 层微调三个部分。 Add&Norm Add&Norm M L P C LI P- C X R M L P C LI P- C X R 模型表现为了在胸片领域评估大模型的能力，我们设计了一个基准 CXR-Bench 作为评估方案。采用较高质量的胸片数据或者开源数据测试集，包含开放式 VQA 任务。通过将 MoE- CXR 与多种通用多模态和医疗多模态 SOTA 模型进行比较，包括最具代表性的 LLaVA-Med[3] 等，我们发现，即使 MoE- CXR 使用更少的激活参数，与其他同参数量甚至更多参数量表 3. 多个模型在胸片开放式 VQA 上评测集上的结果的稠密模型相比，其在多种任务上都有较优表现。在开放式胸片 VQA 任务两种 Bert-score 的 F1 指标上， MoE-CXR 相比于其他 SOTA 模型均有提升。GPT-4o 打分也显示，MoE-CXR 优于目前的其他多模态模型。即便在计算条件受限或需要低成本推理的情况下，MoE 稀疏模型的较少参数量依然与稠密模型有同样的效果。模型激活参数稀疏？ Meteor Rouge-L PMB-F1 BBU- F1 Med-flamingo 8B × LLaVA 7B × LLaVA-Med 7B × MoE-LLaVA 3B MoE-CXR 3B 结论研究表明，MoE 技术可以应用于临床胸片诊断领域。在大量胸片指令集预训练和微调下，其准确度可以持平甚至超过现有的开源医学多模态大模型，并使用更少的激活参数，进一步节省资源。案例 2024 年，大语言模型正以前所未有的速度和深度渗透到各行各业，推动着传统产业的转型与升级。从金融、教育到法律和零售，AI 正帮助企业优化流程、提高自动化水平、增强数据洞察力，并提供强大的智能支持。在医疗领域，大语言模型日益成为推动医疗管理和服务模式变革的重要力量。本章节将通过五个典型案例，深入探讨大语言模型、RAG、Agent 等技术如何在实际应用中提升医疗服务的效率与精度，推动行业的智能化转型与创新。 C 大 o 语 pi 言 lot 模深型入驱应动用的：最佳实践探索案例背景 WiNEX Copilot（以下简称 Copilot）是一款基于 WiNGPT 的医护智能助手，深度集成于医护工作站，为医护人员提供智能化、伙伴式的辅助支持。通过一年多的实践积累， Copilot 在设计和生产环境中不断优化应用，总结出一系列最佳实践方案。旨在为医疗机构、科研人员以及政策制定者提供参考，推动医疗工作流程创新，提升医护人员的工作效率和医疗服务质量。电子病历生成使用大语言模型生成出院小结，如果仅仅一次性输入患者所有电子病历内容后直接生成出院小结，由于完整病历内容往往较长，会限制模型对体征信息、诊疗经过、术后反应等重要信息的提取与总结。我们通过数据预处理、指令微调等方式，确保生成的内容更符合临床思维和质控要求。一、数据预处理通过区分不同数据元素类型如同步类、提取转摘要类等， Copilot 首先会同步生产环境中与待生成文书相关的数据，其次将现病史、体征、辅助检查指标等作为数据提取转摘要类（注意不同摘要重点不一，以高质量出院小结书写规范作参考）。二、基于指令微调生成诊疗经过和数据提取转摘要类病历元素不同，诊疗经过需收集相关病历数据（检查、治疗方案、术后恢复情况等）进行脱敏，然后进行指令微调，并在提示词中加入 few-shot 数据进行调优。三、评价指标基于 ROUGE 指标（自动摘要、问答生成等领域常见的评估指标）来评价生成病历内容质量，实践证明，此种方案可生成质量较高的出院小结病历文书内容，提升医生工作效率。急诊就诊。前完善头颅增强MR 提示无明确脑转移征象，下次肿瘤治疗时间为 3 周后（2024-11-21），出院后定期监测血常规、生化情况，不适及时门 kg，500mg）静脉化疗及抗血管生成治疗，过程顺利，给药后未诉发热，及恶心、呕吐，胸闷、呼吸困难等不适，考虑药物耐受可。患者目位置良好可用。后续患者除外禁忌后，于 2024-10-31 行培美曲塞（500mg/m2，880mg）、卡铂（300mg/m2,528mg）联合贝伐珠单抗（患者中老年女性，肺腺癌诊断明确，既往应用阿来替尼、布格替尼、洛拉替尼靶向治疗效果均不佳，考虑存在耐药可能，计划入院启动首次化疗，并进一步评估疗效。患者于 2024-10-30 完善PICC 置管，操作过程顺利，管路通畅，完善胸部平片提示导管末端位于第 8 后肋水平，原文：语音生成查房记录 Copilot 将语音技术融入住院医生最常进行的医疗场景——查房。通过实时语音识别、文本内容结构化解析、自动病历填充以及实时质量控制，实现基于智能语音的完整查房方案，从而提升医生查房记录的书写效率和质量。实践中的难点与解决方案：图 2. 智能语音查房场景方案信息，确保了病历内容的准确性和客观性。（1）术语识别准确率：通过采集大量专用医学术语集和科室历史病历常见术语作为纠偏集，提高了语音转文字环节的术语识别效率和准确性。（2）模型联想：在提示词中加入限制自主联想和推理策略，避免了模型在转写过程中因模型幻觉而添加不必要的（3）病历生成规范性：基于科室黄金病历样本，拆解出典型结构和书写逻辑，通过大语言模型推理态的 few- shot 学习机制，提高了生成内容与科室规范的一致性。（4）质量控制：利用 WiNGPT 的语言理解能力和逻辑推理能力，对生成的病历进行自动质控和错误检测，提高了病历的准确性和可靠性，减少了医疗风险。站查，看医、生审完核成引查用房病后程在记录 C 。端音过和手内机容 A 自 pp 动进同行步录至音医，生自内然容语进言行处书理写能风力格，转对换查。房书口面语内化容的，查利房用原 C 文 op 转 il 换 t的支持房不、同主场任教学，查如房日。常查对过话 W 语 i 音 E 进 X 行 Y 采对集医录生入查房数据同步与组装信息抽取病历摘要语音识别语音录入病历进行筛选、提取、归类。下一步计划”等，并对其的问题检、“主任色，准确还原查房过程。内时通理过解 Wi 区 NGP 对 T 话人话同专 C 业 o 术 pil 语 ot 识的别医准疗确词库保图 1. 诊疗经过生成即 2024 年 11 月 21 日。出院后需定期监测血常规和生化指标，不适应立即前往门急诊就诊。不适症状，考虑患者药物耐受良好。患者化疗前完成头颅增强磁共振成像（MR），结果无明确脑转移征象。依计划下次肿瘤治疗定于 3 周后， kg，实际给药量为 500mg）的静脉化疗及抗血管生成治疗。整个化疗过程顺利，患者在给药后未出现发热、恶心、呕吐、胸闷或呼吸困难等美曲塞（剂量为 500mg/m2，实际给药量为 880mg）、卡铂（剂量为 300mg/m2，实际给药量为 528mg）联合贝伐珠单抗（剂量为置管后管路通畅。经胸部平片检查确认导管末端位于第 8 后肋水平，位置良好。在确认患者无化疗禁忌症后，于 2024 年 10 月 31 日接受培患者为中老年女性，确诊为肺腺癌，既往接受过阿来替尼、布格替尼、洛拉替尼等靶向药物治疗效果均不理想，可能存在药物耐药性。鉴于此计划为患者启动首次化疗并进一步评估化疗疗效。在 2024 年 10 月 30 日患者完成外周静脉导管（PICC）置管手术，整个操作过程顺利， Copilot 生成 : Copilot 深入应用：大语言模型驱动的最佳实践探索手机 APP 录音 PC 端可同步查看到数据（可定制遵循书写范式）并审核引用至病历图 3. 语音病历生成效果 Agent 增强式问答交互在最近的新能源汽车智驾场景中，有这样一个案例：用户在车机交互时一口气说完“打开屏幕、打开空调、打开车窗、关闭车窗、打开车灯 ...”，智驾系统依然可以准确执行对应的指令，这是 Agent 在智能车机中最突出的应用。而在医疗实践中，Copilot 则通过构建一个以大语言模型为核心，包含大量用户行为相关 Agents 的独立框架，实现更自由与快速的人机交互模式，从而完成复杂任务。例如，在智能对话场景中，当用户输入“查询 xx 床患者最新血常规报告并分析数据”时，Copilot 会查询指定患者数据并返回结论。图 4. WiNEX Copilot 界面图 5. WiNEX Copilot 交互式界面小结构建在大语言模型之上的WiNEX Copilot 以“智能辅助” 为核心特色，在多个应用场景中取得了显著成效，极大地提升了医护人员工作效率和医疗文书质量。从精准生成电子病历到语音驱动的病程记录自动填充，再到智能问答交互， Copilot 展现了卓越的灵活性与适应性。随着人工智能技术的持续进步，Copilot 将继续推动医疗智能化的深入发展，助力医疗服务向更高效、精准和可持续的方向迈进。图深入应用实践结果自适应输出 BI可视化 JSON约束自然语言转换 Agent智能体与业务全面融合、虚拟助手与用户并行工作，效能提升多模态数据输入用户意图识别 Agent执行规划文字/语音输入格式解析变量解析影像数据大模型匹配规划与执行病历记录相似度加权 Self-Reflection CD 合 SS R 创 AG 新与发大展语的言新模引型擎：案例背景从语言生成到文本理解，从教育辅导到企业服务，大语言模型正不断拓展技术的边界，在众多领域展现出卓越的价值。然而，当大语言模型被引入医疗行业并应用于临床决策支持系统（Clinical Decision Support Systems, CDSS）时，尽管其能够显著提升信息处理效率、辅助医生做出更快速的初步判断，但也暴露出一些关键问题。这些问题不仅可能影响医疗决策的准确性，还可能对患者安全构成严重威胁。信息“幻觉”问题：大语言模型有时会生成看似逻辑合理，但实际上与现实不符的信息。在医疗领域，这种“幻觉” 可能导致严重的医疗错误，如误诊或不恰当的治疗决策。知识出处与权威性问题：大语言模型提供的信息可能缺乏明确的来源和权威性标识，使得医疗专业人员难以验证其可靠性。知识更新滞后：医学知识更新迅速，大语言模型可能无法及时整合最新的研究成果和临床实践，带来过时的知识。为应对这些挑战，我们提出了一种创新的解决方案：将 RAG 技术融入 CDSS。RAG 技术通过结合信息检索和内容生成，旨在提高医疗信息的准确性、权威性和时效性。这种方法不仅能够提供基于最新医疗知识的决策支持，还能确保信息来源的透明度和可信度。通过将大语言模型、RAG 与 CDSS 融合，我们的目标是开发一个更加智能、可靠和响应迅速的 CDSS，以满足医疗专业人员在快速变化的医疗环境中的需求。长序列文档文本段落卫宁健康 CDSS+RAG 方案介绍 RAG 技术的核心在于结合检索（Retrieval）和生成（Generation）两个步骤。在检索阶段，系统从一个大型知识库中检索出与所查询的最相关的文档。在生成阶段，系统利用这些检索到的文档作为上下文，生成准确且相关的回答。文档解析器段落拆分模型图 -CDSS 技术方案流程图我们在 CDSS 中采用了一种融合文档解析和 RAG 技术的先进方案，用以实现应用前端的知识问答功能。主要包含两个步骤：（1）构建向量库首先利用文档解析技术处理多种格式的医疗文档，包括专科临床指南和药品知识，将其转换为长序列文档。应用段落拆分算法，文档被细分为独立文本段落，并通过文本向量化技术映射到高维向量空间，存储于文档向量索引库中，以便进行高效检索。（2）将用户请求与大语言模型结合用户提出查询时，系统将查询转化为 Query 向量，并利用向量检索算法在索引库中识别相关文本段落。通过 TopN 算法筛选出最相关的文档片段，用于丰富提示词。最终，这些增强的提示词被输入至 WiNGPT 模型，生成准确且权威的医疗回答。这种方式不仅提高了信息检索的效率和准确性，而且通过用户反馈机制不断优化系统性能，确保 CDSS 在医疗决策中的重要作用。方案效果权威知识库卫宁健康CDSS+RAG 解决方案通过整合广泛的医疗知识库，实现了医疗信息的高效检索和准确生成。知识库涵盖了医疗管 … 理 … 规范检查专 / 科临床药指品南知识？提问生成回答文本向量化向量检索文本向量化模型 3 匹配结果+问题文档向量索引库检索增强 Query TopN 匹配结果提示词PromptQuery向量 WiNGPT A 问答结果 1 2 经检索增强后，则能够正确回答，并给出循证参考融合 RAG 与大语言模型：CDSS 创新发展的新引擎临床指南、医疗管理规范、检查和检验知识以及疾病知识等，支持多种文件格式，如 PDF、DOCX 和 TXT，所有知识内容均来源于国家管理平台、权威机构网站和人卫出版社的相关医疗出版物，确保知识内容的权威性及准确性。知识来源知识分类数量文件格式临床指南知识库 1475 篇 pdf 医疗管理规范知识库 53 篇 pdf/docx 重点临床专业质控指标知识库 25 篇 pdf 检查知识知识库 727 条 txt 检验知识知识库 2307 条 txt 疾病知识知识库 10574 条 txt 融合 RAG 前后变化展示图 -CDSS 权威知识库图 -CDSS 应用前后效果对比大模型对于未学过的知识，易出现幻觉融合 RAG 之前，用户向医疗智能助手询问关于肾后静脉瘤栓的梅奥分级。助手提供了一个分级标准，但这个回答可能并不完全准确或权威，因为它没有提供具体的参考来源，可能基于模型自身的知识库。融合 RAG 之后，同样的问题，CDSS 助手不仅提供了梅奥分级的详细信息，还引用了具体的临床指南和专家共识，如“肾细胞癌诊疗指南（2022 年版）”和“肾瘤伴静脉瘤栓北京专家共识”。权威知识持续扩展通过知识库管理平台，用户可以上传和维护与本院相关的管理规范和临床指南，这些文件将被自动整合到知识库中，用于支持知识问答功能。图知识库管理平台 - 文件管理界面小结 WiNGPT，有效克服了传统大语言模型的局限，显著提升了卫宁健康决策支持系统 CDSS 通过融合 RAG 技术与临床决策支持的准确性和可靠性。而定制化的知识服务，进一步确保了医疗服务的精准度、个性化和医疗管理适用性。探索大 PA 语 C 言质模控型工作新可能案例背景 2023 年，是以 ChatGPT 为代表的大语言模型从技术探索向规模化落地与生态融合过渡的关键期，我们已经在真实的用户环境中试点并平稳运行了 WiNGPT 的影像报告诊断结论生成。2024 年，我们进一步探索大语言模型技术在超声影像科等医技科室质控工作中的新思路，并完成了多种类型质控场景的试点工作。从试点效果看，结合了大语言模型的质控体系，能够有效提升医技科室智能化管理水平。方案介绍在医技科室，特别是在影像学、超声学等检查中，报告书写的规范性与准确性至关重要。为进一步提升医技科室的病历质控能力，我们构建了一套基于 WiNGPT 的智能质控系统方案。（1）所见与诊断结论不符提醒：自动分析报告中的检查所见和结论，检测两者之间的逻辑一致性。例如，如果检查所见描述了某种病变，但结论中未提及或结论与所见矛盾，大语言模型可以发出预警，提示质控人员复核。截至目前，已在上海市某三甲医院完成超过10 万份超声报告自动质控，发现并标记近 100 条有效预警数据，为临床医生提供了精准、实时的质控支持。图 2. 影像所见与诊断结论不符示例病变描述规范性应用类放射与超声报告一致性校验错别字提醒描述与结论不符实时诊断质控提醒图质控方案 ......病理医技业务端内镜超声影像管理视图 agent管理语料管理模型调试 WiNEXCopilot 场景注册调用日志模型管理提示词管理模型基于大语言模型探索 PACS 质控工作新可能（2）报告内容错别字提醒：自动识别报告中的错别字，并提供纠正建议。文本纠错提醒预警图 3. 报告内容错别字校验提醒（3）放射与超声报告一致性校验：在一些情况下，患者可能会接受多种影像检查，如放射和超声。利用大语言模型对比就诊过程中产生的不同类型报告的结论，检测其中的潜在矛盾。例如，如果放射报告和超声报告对同一病变的描述和结论不一致，大语言模型可以发出预警，提醒医生进行核查。经过厦门某综合性三甲医院人工审核评估，校验结果准确率超 90%，已经具备在医技科室全面推广的条件。图 4. 放射报告与超声报告一致性校验示例（4）病变描述规范性质控：在不影响医生正常报告书写习惯的前提下，对报告进行结构化处理并分析疾病关键放射或超声内镜表现的完整性，让检查医生及时改进报告书写质量。通过对上海市某三甲医院历史数万份专病报告的初步分析，经过人工核查后，部分专病报告的标准病变描述书写填充率低于 50%，而通过大语言模型进行质控后，能够精准识别报告中标准病变描述是否存在缺失，明显提升书写合格率。小结基于 WiNGPT 的 PACS 智能质控系统已经在多家医院进行了可行性验证，并在卫宁健康部分用户中完成了试点运行和数据评估，成为 PACS 产品系列中的成熟应用。通过大语言模型技术赋能，不仅能够大幅提升质控效率，还能推动医疗报告从“人工质控”向“智能质控”转型，让医疗质量管理更精准、高效、智能。图 5. 病变描述规范性示例应 i 用 NG 与 P 前 T在景患者血液管理中的案例背景随着外科手术量持续增加，临床对血液及血液制品的需求量不断攀升。然而，血液资源稀缺、血源保障难度大、输血相关不良事件频发及成本高昂等问题已成为现代医疗面临的严峻挑战。国际公认的患者血液管理 (PBM) 理念强调以患者为中心，通过贫血诊治、失血减少、个性化输血策略优化与围术期全场景干预，最大程度减少不必要的异体输血，提高患者临床转归并节约医疗资源成本。尽管 PBM 在欧美等发达国家已积累一定推广与实践经验，但在我国，由于多学科协同不足、用血决策仍高度依赖医生主观经验、血液供应链复杂以及临床数据孤岛现象普遍存在，使得 PBM 的落地与优化面临重重困难。在此背景下，充分利用人工智能、自然语言处理与大语言模型等先进技术，将多学科医学知识、全病程动态数据和循证医学证据整合为统一的智能决策辅助平台，无疑是提升 PBM 执行质量和效率的重要方向。管理现状当前国内多数医疗机构的围术期血液管理仍局限于传统临床决策支持系统 (CDSS) 或人工经验判断，这在一定程度上确实能为临床决策提供支持，但也存在一些突出问题，影响了围手术期血液管理的效率和质量。主要体现在以下几点：（1）数据与知识碎片化：患者信息分散于不同信息系查系统) 查结果/术后症状统（电子病历、实验室、麻醉信息系统、手术管理系统、血库系统），难以统一标准化处理，导致医生在决策时需跨多平台检索与分析。（2）规则与模型扩展性不足：传统 CDSS 多基于有限规则与知识库编制，当遇到复杂、罕见或动态变化的临床场景时，规则覆盖度严重不足，无法快速适应新兴治疗方案或临床指南的更新。（3）建议输出僵化、缺乏个性化：现有工具的输出往往为固定模板，难以根据患者特征、术中实时数据和临床上下文进行个性化决策支持，医生理解和采用其建议的难度较高。（4）全病程一体化管理缺失：术前贫血诊断、术中备血策略、术后血红蛋白与凝血功能动态干预等关键节点仍相对独立，缺乏跨环节的信息串联与决策统一，使 PBM 理念在实践中难以充分落实。方案介绍为解决上述难点，我们提出了一套基于 WiNGPT 的 PBM 应用解决方案，其核心理念是利用一个高集成度、可扩展的统一智能决策平台，以术前、术中到术后的全病程角度为医生提供个性化、多学科融合的输血管理支持。基础患信者息指 /患征者信诊息断/既往患病者史体 / 征过 / 敏检史验 / 结输果血 / 史检 / (住院医业生务系系统统 /住院护检验系统电 /输血系统/检 / 图 1. 卫宁健康 PBM 技术路线分析理解结束交输出内容工具 ) AI生成内容血液评估选择患者 (临开始生) AI模型层 (术输中血出专血科量预 +术测后大血模色型素 ) (输医血疗领预域训知练识大 + 模医型疗领 Wi 域 NG 知 P 识 T ) 预训练学习器梯数 l 度 e 量 a 提 r ( n n 升 in 回 _ t 归 r m at 模 e t ) 型 : ) 1 :最弱输血领域数知据识集：和指令集子样本比 m 例 ax de s t i h ) a ors 产血管手术患者血液管理专家共 (m 大 ax 特 fe 征 at 数 u (subsample): 创伤 ICU 出患血者患血血液液管管理理专家共识随机种子(r r n s d ): o 'sq _ r s t tate):42 检查检验知识者血液管理患者手术信息医疗知识图谱南手麻系统住院医生系统人工资格考据试题医学科普书籍告检验系统检查系统通用类试题书籍互联种自然语言处理任务电子病历住院护理人 D 卫 SS 知知识识库 /规则: 输血系统通 (超算大模型) WiNGPT 在患者血液管理中的应用与前景一、多源数据融合与知识图谱构建将来自 HIS、LIS、EMR、血库管理系统等的数据进行预处理与标准化整合，并基于循证医学证据和 PBM 国际指南构建 PBM 专用知识图谱，为大语言模型提供可检索与可解释的领域知识支持。二、统一的大语言模型平台在经过大规模医疗语料预训练的基础语言模型上，针对 PBM 的细分任务（如贫血评估、凝血功能优化、自体输血策略制定、术中备血决策与术后干预）进行指令微调和知识融合，使模型能够理解、分析并对接 PBM 全流程场景。三、提示词与生成式决策支持利用提示词技术，将患者实时数据、知识图谱提取的专业证据与临床问题上下文嵌入模型，实时生成符合患者个体特征、语义自然且循证可靠的决策建议。模型将提供易于理解、可解释的自然语言回答。四、安全与合规性保障在数据处理与模型推理环节嵌入数据脱敏、访问控制与日志审计措施，确保在满足医疗法规和隐私保护要求的同时实现高效、可信的智能决策辅助。方案效果经过试点应用与测试验证，我们在某三甲医院的典型外科手术场景中对该方案进行了初步验证与分析，取得以下成果与进展：决策效率提升：医生在术前对贫血及凝血情况评估的时间显著缩短；对多套系统信息整合的需求明显降低。用血优化效果初步显现：通过统一决策辅助，不必要输血比例有所下降，并在一定程度上减少了血液资源浪费及不良输血反应的发生。自然语言输出更易理解：临床反馈显示，与传统 CDSS 输出相比，基于大语言模型生成的自然语言建议更接近临床思维逻辑，医生接受度和应用率有所提高。可扩展性良好：在增加新术式场景、更新最新 PBM 指南后，仅需在大语言模型端进行提示词扩展与少量新数据微调，无需大规模规则重写或独立开发新模型，显著降低长期维护成本。图 2. 打开自体采血申请图自体采血，不建议自体采血小结实践证明，将患者血液管理理念与大语言模型、知识图谱、提示词技术有机结合，是实现围术期全病程智能化决策辅助的有效路径。该方案能够突破传统 CDSS 在规则覆盖、扩展性、自然语言输出与多学科协同上的限制，为医疗机构提供一个更高效、可扩展、易实施的 PBM 智能决策平台。未来，我们计划进一步拓展该方案的适用场景与疾病类型，并开展多中心验证与随机对照试验，以期在更广泛的临床实践中提升患者转归，优化医疗资源配置，真正推动 PBM 理念在国内医疗体系的深度落地与持续发展。大语言模型与小 RA 宁 G ：结合的知识库应用案例背景随着卫宁健康产品上线用户规模的逐步扩大，运维相关知识呈指数级增长。这些知识较为分散，形成了巨大的非结构化数据库。在传统的运维知识管理和获取方式下，运维人员往往需要耗费大量时间查找和整理信息，影响问题解决效率和决策准确性。在此背景下，引入大语言模型和基于检索增强生成（RAG）的技术，使大语言模型能够从企业内部庞大的知识库中实时获取高价值信息，生成准确且上下文相关的答案，大幅提升运维知识的利用效率和智能化水平。方案介绍卫宁小宁旨在以 WiNGPT 为核心，通过 RAG 技术对公司内部多源异构的运维知识进行统一整合和利用，构建一个智能化的运维问答系统。小宁将对接企业内部多种知识存储格式，支持快速检索与问题响应，同时具备上下文理解能力，提供个性化和动态化的支持。运维人员只需通过自然语言对话，即可快速定位问题、获取解决方案，显著提升运维工作的效率。整体方案设计如下：小宁服务小宁用户界面企业智能助手小宁：大语言模型与 RAG 结合的知识库应用一、构建知识库管理平台该平台涵盖产品类、运维运营类、行政类、人事类等多个领域的知识，支持新增、审核和启用知识，即模型依赖的知识库不是静态的，而是具有动态更新和持续沉淀的特性，并且能确保每条知识记录可追溯创建人和审核人，形成一个知识领域广泛、持续更新且可溯源的知识库，为复杂技术问题提供强有力的支持。二、构建混合检索库将知识库中的记录存储到 Elasticsearch（以下简称ES）数据库中后，利用开源词嵌入模型生成相应的向量，并将这些向量存储在Milvus 向量库中，完成构建混合检索数据库。三、定义 RAG 服务流程通过词频检索、语义检索、秩比融合以及重排序后，选取前几位检索到的问题及其答案作为上下文，与用户提出的问题结合，形成完整提示词，并通过 WiNGPT 生成回答。效果与反馈 HIS系统死锁怎么办？阻塞 E 进 C 程 C， .。并以及下时是杀相死关有帮助系统死锁能对您知基识于库多检种索融合重排序提示工程 WiNGPT 图 2. 小宁交互流程小宁自 2024 年 1 月正式上线以来，使用量迅速增长，7 通过构建高可用知识库并结合 RAG 技术，我们从多维度优化了信息检索效果。WiNGPT 的持续迭代不断提升回答的准确性。此外，配套的用户反馈评估机制为后续回答提供监督和规范，形成闭环改进，确保卫宁智能运维助手小宁在实践中持续进步。月后的访问量达到之前的三倍，8 月的访问量迎来峰值，随后进入平稳期，保持在较高水平。不断提升的人气，表明小宁这一创新工具已在公司内部获得大量关注，对员工具有较大吸引力。 Elasticsearch 知识库图 1. 混合检索库构建流程图词嵌入模型 Milvus 企业智能助手小宁：大语言模型与 RAG 结合的知识库应用服务质量和用户体验的改善让小宁的用户满意度不断增加。整体来看，小宁的好评比例逐月上升，认可度不断提高。小结尽管目前用户的访问量和点评率还有很大的提升空间，但我们依然能从数据中看到积极的信号：好评差评比正在逐渐提升，这表明小宁正在赢得运维人员的认可。接下来，我们期望通过知识库数量与质量的持续提升以及 WiNGPT 的不断改进，为使用者提供更全面、精准的信息支持和更好的用户体验。表 2. 小宁月度用户反馈统计图差评率（%）好评率（%）点评率（%）表 1. 小宁月度访问量统计图 80 70 60 50 40 30 20 10 0 访问量 /100 倒彩量点赞量展望从医学影像的智能诊断、手术机器人辅助操作到临床决策支持系统，AI 正深刻改变医疗行业，重塑医疗流程。然而，在提供高效工具的同时，AI 也引发了关于医疗从业者创造力是否会被削弱的担忧：过度依赖 AI 是否会导致诊疗方案同质化、限制医疗创新？医疗创新不仅关乎新技术，更关乎医疗质量提升、患者获益最大化及医疗资源优化，明确 AI 与医疗的关系，对指导技术发展方向，规避潜在风险及推动临床创新意义重大。 AI 对医疗创新的双重影响深入剖析人工智能在医疗领域的应用就不得不面对一个核心议题：人工智能将如何影响医疗创新？下面我们将从正反两个维度，探讨人工智能对医疗创新可能产生的影响。促进作用（1）减轻重复性任务，释放思维空间：AI 辅助诊断工具（如识别肺结节、眼底病变、乳腺肿块）能高效处理重复性工作，减少医生疲劳，使其有更多精力投入复杂病例分析、新疗法设计或疑难疾病诊治。（2）拓展诊疗与研究思路： AI 通过分析多模态医疗数据（影像、基因组、临床文本），能提示罕见病诊断线索或为临床试验提供创新分层标准。研究人员可在 AI 基础上调整验证，挖掘个性化、前沿的医疗创新点。潜在风险与挑战（1）诊疗方案同质化：AI 模型基于既有数据和知识库训练，可能导致诊疗建议模式化。过度依赖AI 决策支持系统，或将减少对非常规诊疗策略的探索。哈佛医学院在 2022 年的一项研讨指出，缺乏引导时，AI 标准路径可能占据主导，降低创新性的尝试。（2）独立思考能力弱化：过度信任 AI 诊断结果，可能导致临床思维固化，尤其在新药研发、罕见病诊断和复杂手术中。当决策者成为“被动审稿人”，临床方案或趋于保守，减少创新。（3）伦理与责任划分：AI 参与诊疗决策引发伦理问题。若出现误判或不当治疗，责任归属不明晰的情况下，医生可能会更倾向于机械式地接受 AI 的输出，以回避责任，进一步弱化深度思考与创新能力。迈向人机协同：实践建议为了更好地应对人工智能对医疗领域的挑战，我们必须积极探索人机协同的有效路径，为此，我们提出以下实践建议：（1）坚守人类主导，发挥创造性判断临床专家应始终是最终决策者。制定明确的临床路径审核流程，要求医生对 AI 建议进行校核、评估与调整。在团队会诊中，AI 作为参考工具，而非最终决策者。（2）引入多元数据，促进跨领域合作人工智能与人类创造力的共生之道人工智能与人类创造力的共生之道将多元异质数据（不同地区人群、特殊疾病、社会健康因素）纳入 AI 训练，打破数据同质化限制。与人类学家、心理学家、医药产业设计者、卫生经济学家合作，拓宽 AI 医疗创新视野，促进方案、药物研发和器械设计的多样化。（3）建立创新评估体系，量化 AI 贡献构建衡量创造力与新颖度的指标，例如：方案多样性指数：统计同类疾病治疗方案数量与差异度。新颖性评分：专家评价 AI 方案在突破传统、满足特殊需求方面的独创性。临床实用性与安全性平衡指数：评估新方案的创新价值与风险。通过研讨、评审、患者反馈，建立持续改进的反馈机制。（4）强化监管与政策引导，确立伦理标准政策制定者与行业机构应发布伦理指南和行业标准，监管 AI 在医疗创新中的应用。如高风险决策或新药审批，强制要求多轮专家审核与患者知情同意。 AI 在医疗领域的应用并非简单的技术叠加，而是一场深刻的模式变革。它既是强大的信息筛选器，能够加速诊断进程并辅助决策，同时也有导致决策同质化、弱化独立思考的潜在风险。关键在于我们如何积极塑造这一变革的方向。通过构建合理的人机协同模式，有效利用多元数据，实施严格的创新评估，并辅以完善的伦理监管框架，我们相信，人工智能不仅不会削弱医疗专业人员的创造力，反而将成为激发创新潜能的强大催化剂，助力构建更具韧性、包容性和创造力的医疗生态系统。展望2025，通过更加完善的人机协同设计和政策框架，我们有理由期待一个人机共创的，更加丰富和深远的医疗创新未来。总结今年的报告以当下 AI 界最受关注的 "AGI 何时实现 " 开篇，引发对智能“重新审视”的思考。在 AI 高效处理脑力劳动的同时，创造力、思辨力和同理心是人类的核心价值。AI 发展需兼顾算力与算法、开源与知识产权、通用与垂直领域，并在技术、商业与社会责任间寻求平衡，尤其在医疗等领域，生成内容的准确性、可靠性及伦理道德至关重要，需格外谨慎。要重塑临床环境，就必须重新审视现有的医疗体系。生成式AI 的普及，不是简单地引入几个算法，而是要对医疗流程进行再造，提升医护团队的技能。AI 技术的引入，将推动医疗模式从“治已病”向“治未病”转变，并催生出像“AI 护理协调员”这样的新角色。报告还探讨了生成式AI 的商业化之路，病历质控、医学影像分析、个性化诊疗等领域尤其值得我们关注，并强调了医学专业知识的融入、算法优化和用户体验的重要性。在技术层面，报告详细介绍了卫宁健康人工智能实验室开发的 WiNGPT 在 2024 年的最新进展。它在数据生成、后训练对齐、评估体系 WiNEval 等方面都取得了不俗的成绩，还有 RAG、Agent 和数字人等技术的加持。作为医疗垂直领域的大语言模型，WiNGPT 在专业性、性价比和自主可控上都有独到之处，并在实际应用中展现了强大的实力。报告分享了与上海市第一人民医院的合作研究，展示了 WiNGPT 在影像报告生成中的实际应用价值，以及基于美国放射学会（ACR）标准的临床评估框架。此外，混合专家模型（MoE）技术在胸片领域的应用，也证明了其在提升模型效率和性能方面的潜力。在产品案例部分，报告列举了 WiNEX Copilot、CDSS+RAG、基于大模型的 PACS 质控、患者血液管理以及企业智能助手“小宁”等多个成功的应用，展现了生成式AI 如何在提升医疗效率、优化资源配置和推动医疗创新方面发挥实实在在的作用。展望未来，我们强调以人为本，引入多元数据，建立创新的评估体系，加强监管和政策引导，让人工智能与人类的创造力相辅相成，共同进步。报告呼吁医疗界携手合作，让每个人都能在良好的医疗生态中，公平地享受到 AI 带来的医疗福祉。总而言之，生成式AI 正引领医疗行业迈向一个全新的时代，人机协同将成为新常态，个性化和公平将成为医疗服务的新标准。卫宁健康人工智能实验室的探索和实践，为这场变革提供了宝贵的经验。但这仅仅是个开始，未来依然充满挑战，需要在技术、伦理、监管、教育等方方面面进行更深入的思考和探索。只有如此，我们才能真正驾驭人工智能的力量，构建一个更加智能、高效、人性化的医疗体系，增进全人类的健康福祉。趋势：参考文献 [1] AI in Healthcare 2024 Statistics: Market Size, Adoption, Impact [2] CMS Artificial Intelligence Playbook [3] 卫生健康行业人工智能应用场景参考指引 _ 百度百科 [4] Si70k57j2zzIvIs3JNZrs8YEkDu_&wd=&eqid=ade3ec38000587fb00000003676256b3 医疗大语言模型十问： [1] Scaling Laws for Neural Language Models. ttps:// 研究 [1] Reproducible scaling laws for contrastive language-image learning. [2] Moe-llava: Mixture of experts for large vision-language models [3] Llava-med: Training a large language-and-vision assistant for biomedicine in one day 案例： [1].Wang, L., Ma, Y., Bi, W., Lv, H., & Li, Y. (2024). An Entity Extraction Pipeline for Medical Text Records Using Large Language Models: Analytical Study. Journal of medical Internet research, 26, e54580. https://doi. org/ [2].Tozuka, R., Johno, H., Amakawa, A., Sato, J., Muto, M., Seki, S., Komaba, A., & Onishi, H. (2024). Application of NotebookLM, a large language model with retrieval-augmented generation, for lung cancer journal of radiology, Advance online publication. https:// 01705-1 chatgpt4o: "A futuristic cyberpunk cityscape with dense, towering buildings, pastel color tones (pink and blue), futuristic flying vehicles, floating spherical structures, and people walking in modern outfits. Highly detailed, soft lighting, emphasizing a blend of technology and urban life, in a hand-drawn artistic style." 卫宁健康科技集团股份有限公司地话：02 海 1- 市 0 静 33 安 10 区 00 寿阳路 99 弄 9 号卫宁健康大厦投稿邮箱：yzwn . @ w w in inn n in .c . o com .c . n cn 微信公众号官方小程序 mailto:wn.@

合作伙伴

来自星星的小胖子

关注进入主页

联系我们

智库文档公众号

客服微信

合作伙伴

来自星星的小胖子

标签

联系我们

意见反馈