立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索

筛选诊断AI,不要只看准确率

2025-12-8 10:39| 编辑: 沙糖桔| 查看: 679| 评论: 0|来源: 小桔灯网|作者:桔哥儿

摘要: 医疗AI去泡沫化,进入拼内功阶段


最近卫健委联合多部门发布了对8月"AI+医疗卫生"的政策解读,明确了中国医疗 AI 从炫技转向实战的实施意见,我认为这标志着医疗 AI 进入了去泡沫化、拼内功的阶段

来源:NHC网站截图


文件核心逻辑不再是试图复制北上顶级专家,而是通过“人人可享的高水平居民健康助手”去解决基层医疗资源匮乏的痛点。作为AI诊断的从业者,我想剥离宏大的叙事,结合政策导向和技术评估标准,聊聊医疗 AI 的底层逻辑变化和识别靠谱的AI诊断产品,市面上声称“准确率高达 99%”的模型,可能不仅不够好,甚至是危险。一句话:医生无法验证的AI,不能用于诊断。


在医疗场景中,单纯谈论“准确率(Accuracy)” 存在严重的误导性。如果一种罕见病发病率只有 1%,模型只要把所有人都猜成“健康”,也能拿到 99% 的准确率,但它在临床上毫无价值,甚至因为漏诊而耽误治疗。因此,评估一个 AI 是否靠谱,必须拆解为“敏感性、特异性与阳性预测值”的博弈。对于癌症筛查或急诊分诊,我们需要极高的“敏感性”,也就是“宁可错杀,不可放过”;但在确诊环节,如果没有足够的“特异性”,医生会被海量的假阳性警报淹没,产生严重的警报疲劳,最终 沦为增加医生负担的干扰项。更重要的还有“阳性预测值”这个指标,它告诉医生:当 AI 报警时,患者真的生病的概率有多大,这才是医生在做决策时最关心的实战指标。



表1:指标汇总整理表(作者制图)


除了指标的博弈,我们还得警惕 AI 的作弊行为。很多在实验室表现完美的模型, 泛化能力严重不足,往往是因为它们在训练时走了捷径,学会了识别图中的急诊标签而非病灶,或者是过度拟合了某一种品牌 CT 机的成像风格。这也是为什么政策中特别强调建设“中试基地”和“临床专病数据集”的原因——只有经过多中心、多设备、且金标准(如病理结果)确凿的真实世界数据验证,AI 才能从科研玩具变成医疗器械。对于从业者来说,现在的当务之急是抛弃那些老旧的公开数据集,利用国家建立的新基建进行压力测试。


基于当下的技术成熟度与政策环境,在实际应用中我们必须学会做权衡。目前的“黄金策略”是:对于病历生成、医保风控等管理类任务,以及肺结节、骨折检测等成熟的影像筛查,可以大胆引入,因为它们能立竿见影地释放医生精力;但对于复杂的临床诊疗决策,必须保持审慎。在这一领域,我认为可解释性远比单纯的精度更重要。 医生绝不会信任一个只吐出结果的“黑盒”,宁愿牺牲一点点预测精度,也要换取 AI 能够生成热力图或归因报告,告诉医生“为什么我通过这个判断”,这才是人机协作的基础。2025 年的医疗 AI,不再是全知全能的神,而是一个勤恳、需要监管、且必须会“说人话”的数字住院医生。


当前全球医疗AI市场呈现出显著的技术分层与地缘差异,基于计算机视觉(CV)的“预测性AI”在放射学、病理学和眼科领域的深耕,其核心在于通过FDA、NMPA及CE等监管机构的严格审批,确立了作为医疗器械的法定地位;另一方面是基于大语言模型的“生成式AI”的爆发性增长,在临床诊断中的直接应用面临监管更严峻的审慎。


表2:AI诊断产品对比(作者制图,截至日前不完全统计)


参考内容:


  1. 《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》政策解读.

  2. AI for IMPACTS Framework for Evaluating …… doi: 10.2196/67485.

  3. How to Determine If One Diagnostic Method …… doi: 10.3348/kjr.2023.0448.

  4. Toward Clinical Generative AI: Conceptual Framework……doi: 10.2196/55957.

  5. Revised Tool for the QUADAS-AI …… doi: 10.2196/58202. 


声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部