筛选诊断AI，不要只看准确率

2025-12-8 10:39| 编辑: 沙糖桔| 查看: 1056| 评论: 0|来源: 小桔灯网｜作者：桔哥儿

摘要: 医疗AI去泡沫化，进入拼内功阶段

最近卫健委联合多部门发布了对8月"AI+医疗卫生"的政策解读，明确了中国医疗 AI 从炫技转向实战的实施意见，我认为这标志着医疗 AI 进入了去泡沫化、拼内功的阶段。

来源：NHC网站截图

文件核心逻辑不再是试图复制北上顶级专家，而是通过“人人可享的高水平居民健康助手”去解决基层医疗资源匮乏的痛点。作为AI诊断的从业者，我想剥离宏大的叙事，结合政策导向和技术评估标准，聊聊医疗 AI 的底层逻辑变化和识别靠谱的AI诊断产品，市面上声称“准确率高达 99%”的模型，可能不仅不够好，甚至是危险。一句话：医生无法验证的AI，不能用于诊断。

在医疗场景中，单纯谈论“准确率（Accuracy）” 存在严重的误导性。如果一种罕见病发病率只有 1%，模型只要把所有人都猜成“健康”，也能拿到 99% 的准确率，但它在临床上毫无价值，甚至因为漏诊而耽误治疗。因此，评估一个 AI 是否靠谱，必须拆解为“敏感性、特异性与阳性预测值”的博弈。对于癌症筛查或急诊分诊，我们需要极高的“敏感性”，也就是“宁可错杀，不可放过”；但在确诊环节，如果没有足够的“特异性”，医生会被海量的假阳性警报淹没，产生严重的警报疲劳，最终沦为增加医生负担的干扰项。更重要的还有“阳性预测值”这个指标，它告诉医生：当 AI 报警时，患者真的生病的概率有多大，这才是医生在做决策时最关心的实战指标。

表1：指标汇总整理表（作者制图）

除了指标的博弈，我们还得警惕 AI 的作弊行为。很多在实验室表现完美的模型，泛化能力严重不足，往往是因为它们在训练时走了捷径，学会了识别图中的急诊标签而非病灶，或者是过度拟合了某一种品牌 CT 机的成像风格。这也是为什么政策中特别强调建设“中试基地”和“临床专病数据集”的原因——只有经过多中心、多设备、且金标准（如病理结果）确凿的真实世界数据验证，AI 才能从科研玩具变成医疗器械。对于从业者来说，现在的当务之急是抛弃那些老旧的公开数据集，利用国家建立的新基建进行压力测试。

基于当下的技术成熟度与政策环境，在实际应用中我们必须学会做权衡。目前的“黄金策略”是：对于病历生成、医保风控等管理类任务，以及肺结节、骨折检测等成熟的影像筛查，可以大胆引入，因为它们能立竿见影地释放医生精力；但对于复杂的临床诊疗决策，必须保持审慎。在这一领域，我认为可解释性远比单纯的精度更重要。医生绝不会信任一个只吐出结果的“黑盒”，宁愿牺牲一点点预测精度，也要换取 AI 能够生成热力图或归因报告，告诉医生“为什么我通过这个判断”，这才是人机协作的基础。2025 年的医疗 AI，不再是全知全能的神，而是一个勤恳、需要监管、且必须会“说人话”的数字住院医生。

当前全球医疗AI市场呈现出显著的技术分层与地缘差异，基于计算机视觉（CV）的“预测性AI”在放射学、病理学和眼科领域的深耕，其核心在于通过FDA、NMPA及CE等监管机构的严格审批，确立了作为医疗器械的法定地位；另一方面是基于大语言模型的“生成式AI”的爆发性增长，在临床诊断中的直接应用面临监管更严峻的审慎。

表2：AI诊断产品对比（作者制图，截至日前不完全统计）

参考内容：

《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》政策解读.
AI for IMPACTS Framework for Evaluating …… doi: 10.2196/67485.
How to Determine If One Diagnostic Method …… doi: 10.3348/kjr.2023.0448.
Toward Clinical Generative AI: Conceptual Framework……doi: 10.2196/55957.
Revised Tool for the QUADAS-AI …… doi: 10.2196/58202.

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏分享邀请

上一篇：达安的壮举是精神，还是实力下一篇：曾950%的溢价收购博弈，海利生物IVD转型启示录

筛选诊断AI，不要只看准确率

声明：

最新评论

相关分类

官方推荐 /3

个人中心