最近卫健委联合多部门发布了对8月"AI+医疗卫生"的政策解读,明确了中国医疗 AI 从炫技转向实战的实施意见,我认为这标志着医疗 AI 进入了去泡沫化、拼内功的阶段。 来源:NHC网站截图 文件核心逻辑不再是试图复制北上顶级专家,而是通过“人人可享的高水平居民健康助手”去解决基层医疗资源匮乏的痛点。作为AI诊断的从业者,我想剥离宏大的叙事,结合政策导向和技术评估标准,聊聊医疗 AI 的底层逻辑变化和识别靠谱的AI诊断产品,市面上声称“准确率高达 99%”的模型,可能不仅不够好,甚至是危险。一句话:医生无法验证的AI,不能用于诊断。 在医疗场景中,单纯谈论“准确率(Accuracy)” 存在严重的误导性。如果一种罕见病发病率只有 1%,模型只要把所有人都猜成“健康”,也能拿到 99% 的准确率,但它在临床上毫无价值,甚至因为漏诊而耽误治疗。因此,评估一个 AI 是否靠谱,必须拆解为“敏感性、特异性与阳性预测值”的博弈。对于癌症筛查或急诊分诊,我们需要极高的“敏感性”,也就是“宁可错杀,不可放过”;但在确诊环节,如果没有足够的“特异性”,医生会被海量的假阳性警报淹没,产生严重的警报疲劳,最终 沦为增加医生负担的干扰项。更重要的还有“阳性预测值”这个指标,它告诉医生:当 AI 报警时,患者真的生病的概率有多大,这才是医生在做决策时最关心的实战指标。 表1:指标汇总整理表(作者制图) 除了指标的博弈,我们还得警惕 AI 的作弊行为。很多在实验室表现完美的模型, 泛化能力严重不足,往往是因为它们在训练时走了捷径,学会了识别图中的急诊标签而非病灶,或者是过度拟合了某一种品牌 CT 机的成像风格。这也是为什么政策中特别强调建设“中试基地”和“临床专病数据集”的原因——只有经过多中心、多设备、且金标准(如病理结果)确凿的真实世界数据验证,AI 才能从科研玩具变成医疗器械。对于从业者来说,现在的当务之急是抛弃那些老旧的公开数据集,利用国家建立的新基建进行压力测试。 基于当下的技术成熟度与政策环境,在实际应用中我们必须学会做权衡。目前的“黄金策略”是:对于病历生成、医保风控等管理类任务,以及肺结节、骨折检测等成熟的影像筛查,可以大胆引入,因为它们能立竿见影地释放医生精力;但对于复杂的临床诊疗决策,必须保持审慎。在这一领域,我认为可解释性远比单纯的精度更重要。 医生绝不会信任一个只吐出结果的“黑盒”,宁愿牺牲一点点预测精度,也要换取 AI 能够生成热力图或归因报告,告诉医生“为什么我通过这个判断”,这才是人机协作的基础。2025 年的医疗 AI,不再是全知全能的神,而是一个勤恳、需要监管、且必须会“说人话”的数字住院医生。 当前全球医疗AI市场呈现出显著的技术分层与地缘差异,基于计算机视觉(CV)的“预测性AI”在放射学、病理学和眼科领域的深耕,其核心在于通过FDA、NMPA及CE等监管机构的严格审批,确立了作为医疗器械的法定地位;另一方面是基于大语言模型的“生成式AI”的爆发性增长,在临床诊断中的直接应用面临监管更严峻的审慎。 表2:AI诊断产品对比(作者制图,截至日前不完全统计) 参考内容:
|
/3