立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 杂侃天下 查看内容

突发,美国公共数据库对中国科研人员禁用,pubmed咋办?

2025-4-8 16:25| 编辑: 归去来兮| 查看: 694| 评论: 0|来源: 实战医学统计

摘要: 让我们一同面对这个百年不遇之大变局。

中午一条群内消息,犹如重磅引发了小伙伴的集体关注。美丽公共数据库对中国开始禁用了。

其实2024年底美丽数据跨境新规就正式通过了,2025年该来就回来的,医学数据seer数据库是首当其冲的,剩下的都会一个个来。硕士博士毕业生依靠老m这几个库素材,现在要高度关注后续发展。本文全面搜集目前国际资料后评价了毛衣站后关税站同时爆发的医学数据战争,让我们一同面对这个百年不遇之大变局。

一、引言

近年来,国内科研内卷,以至于高度依赖各类大型公共数据库来获取医学和生命科学数据。然而,中美在数据和技术领域的紧张关系加剧,美国于2024年底推出了针对跨境数据的新规,并将在2025年开始实施。该新规旨在限制中国等“受关注国家”获取美国人的敏感个人数据,这对中国科研人员使用美国的公共医学和学术数据库可能带来重大影响。 随着两天美国关税与中国反击关税,双方关税已经取到了50%。覆巢之下安有完卵?我们不得不开始担心,主宰医学领域的PubMed文献检索数据库与国际公共数据库今年是否还能正常访问?

二、 2025年美国数据跨境新规概述

2.1 新规背景与出台

2024年2月,美国总统签署了第14117号行政命令:《关于阻止受关注国家获取美国人大规模敏感个人数据及美国政府相关数据的行政命令》。该命令指出,某些国家持续获取美国人的敏感个人和政府数据,已对美国国家安全构成重大威胁。行政命令要求美国司法部制定细则,禁止或限制美国主体从事可能导至包括中国、俄罗斯、伊朗等六个“受关注国家”及相关个人获取美国人敏感数据的交易。此后,美国司法部于2024年12月26日发布了最终规则,细化了行政命令的实施办法,新规将在联邦公报公布90天后(约2025年春季)正式生效。这是美国历史上首次禁止向中国等国家跨境传输此类数据的规定,引发了学术界和产业界的高度关注。新规的核心目的是出于国家安全考虑,防止中国等国家或其科研人员获取大量涉及美国个人的敏感信息。值得注意的是,“敏感数据”特别聚焦于生物医学和个人隐私领域的数据,包括基因组数据、个人健康数据等。对于科研界而言,这意味着在美方数据库中广泛存在的基因、临床健康等数据将受到严格管控。

2.2 新规对数据类别的定义与范围

新规首先明确了所涵盖的“敏感个人数据”类别和判断“大规模(bulk)”的数量门槛。六大类敏感个人数据及其阈值如下。人类基因组数据:包括人类全基因组测序数据等。阈值定义为涉及超过100名美国人的数据集。生物识别信息:可用于识别个人身份的生物特征数据(如脸部图像、虹膜扫描、指纹等),阈值为涉及超过1000名美国人的数据。个人健康数据:能够表明或描述个人健康状况的信息(如疾病诊断、病历记录等),阈值为涉及超过10000名美国人的数据。精确地理位置数据:精度在1000米以内,可定位个人或设备的位置数据,阈值为超过1000台美国设备的数据。个人财务数据:个人金融账户、交易等信息,阈值为涉及超过10000名美国人的数据。此外还有个人身份识别信息(个人身份标识符与其他数据的结合)的类别,阈值更高(>100,000人),主要涉及与其他敏感数据关联的大规模身份数据。换言之,新规不因数据已脱敏就放松要求——只要数据性质属于敏感类别且数量达到阈值,就纳入管制。这一点对科研数据影响巨大,因为许多生物医学数据库中的数据虽然已去除个人身份信息,但规模庞大且关涉个人健康或基因信息,仍然属于新规监管范围。 同时,新规对于“敏感个人数据”的定义中豁免了一些情形,如与个人无关的纯商业数据、已在政府公开记录或公开存储库中合法获取的数据等,也就是说,已经公开发布、任何公众都能合法获取的数据不在敏感个人数据之列。这暗示,如果某些医学数据库的数据完全开放且合法公开,新规理论上不将其视作“敏感”数据交易的一部分。然而,许多公共医学数据库中的数据虽面向研究者开放,但需要申请或同意特定条款,并非完全无遮拦的公开数据;对于这些数据,新规的限制将实质生效。

三. 影响数据库范围及分析

本文将逐一梳理若干关键的医学和生物学数据库,包括SEER、TCGA、dbGaP、GTEx、PubMed Central、ClinicalTrials.gov、NIH公开数据集、CDC开放数据平台、NCBI GEO等,说明每个数据库所含的数据类型、以往的开放程度,以及在2025新规影响下中国科研人员能否继续访问或使用、访问限制的变化、数据使用协议的新要求以及这些数据库支持的研究类型等。我将逐一说明每个数据库的数据类型、访问模式,以及在2025年美国新规影响下中国科研人员能否继续访问、访问限制如何变化、数据使用协议的新要求和对应的主要应用研究领域。

3.1 SEER癌症数据库

数据类型与简介:SEER(Surveillance, Epidemiology, and End Results)是美国国家癌症研究所(NCI)建立的权威癌症统计数据库,收集了美国各地的癌症发生率、生存率、治疗和死亡等流行病学数据。SEER涵盖数百万美国肿瘤患者的记录,对于研究癌症的发病趋势、预后因素、治疗效果等具有极高价值。数据类型主要是临床和流行病学数据,包括患者的人口学信息、肿瘤类型分期、治疗方式和生存随访等,属于典型的个人健康数据范畴。 访问模式(开放或申请):SEER提供了公开的统计查询工具(例如SEER*Stat软件可以访问公共数据),但要获取更详细的研究数据需要申请。研究者需提交在线申请并签署SEER数据使用协议,承诺用于科研且不尝试重新识别个人。传统上,这一申请对国际研究者也是开放的,只要提供机构邮箱(不接受个人邮箱如gmail/163等)并同意协议即可获取数据。也就是说,SEER研究数据过去是开放获取但需注册审批的形式,对合规的学术用途基本无门槛收费限制。 新规下的访问可用性:由于SEER数据涉及大规模美国患者的健康信息,明显属于新规定义的“个人健康数据”,且规模远超1万人阈值,因此受新规管控。如果按照新规,NCI等美国实体向中国研究人员提供SEER数据将构成敏感个人健康数据的跨境传输。在新规实施后,中国科研人员无法再直接申请并获取SEER研究数据。美方很可能在数据申请流程中新增限制,例如要求申请者具有美国本土机构账户或公民/永久居民身份,拒绝中国机构或个人的申请。即便不立即完全禁止,中国研究者可能面临额外审查和长时间等待,甚至需要提供额外证明数据用途符合豁免情况(但一般科研用途不在豁免之列)。因此,可以预期SEER对中国的开放访问将大幅收紧乃至中断。正如业内分析所指出,在行政命令发布后,包括SEER在内的这些数据库未来可能都无法供中国科研人员自由使用了。

3.2 TCGA癌症基因组数据库

数据类型与简介:TCGA(The Cancer Genome Atlas,癌症基因组图谱)是由美国NCI和国家人类基因组研究所(NHGRI)于2005年发起的大型癌症基因组计划,已成为全球最大的癌症基因组数据库之一。TCGA收集了超过20种肿瘤类型、约1万多名美国癌症患者的肿瘤样本,生成了全基因组测序、全外显子组测序、RNA表达谱、DNA甲基化、蛋白组学等多层次基因组和分子组学数据,并配套有患者的临床信息(诊断、治疗反应、预后)等。数据类型涵盖基因序列变异、基因表达、表观遗传、蛋白表达以及对应的临床指标,属于人类基因组数据和其他组学数据的典型代表。 访问模式:TCGA的数据通过NCI的GDC(基因数据共享平台)和NIH的dbGaP等提供。TCGA将数据分为开放访问级别和受控访问级别:开放级数据(如基因表达矩阵、已处理过的突变列表、生存时间等不易直接识别个人的数据)可在网上公开下载,无需登录;受控级数据(如原始测序读数、详细临床信息等可能更敏感的数据)则需经dbGaP申请授权才能获取。这种模式在新规出台前使全球研究者都可以方便获取大量TCGA分析结果数据,而原始数据受到一定保护。 新规下的访问可用性:TCGA所包含的是大规模美国癌症患者的人类基因组和组学数据,显然属于新规严控的核心敏感数据类型。规模上也远超阈值(TCGA涉及上万名患者,超过了>100人的基因组数据门槛和>1000人的其它组学数据门槛)。因此,TCGA开放数据对中国的可及性很可能被取消或显著降低。美国方面可能采取以下措施:将原本开放的部分数据也纳入受控访问,需要登录并审查申请者身份;直接根据访问IP或账户所属国家屏蔽来自中国的下载请求。此外,TCGA受控数据本就需要申请,在新规下,像中国机构的研究者将难以获得dbGaP的授权批准。可以预见,中国科研人员将几乎无法自行获取TCGA的原始数据,只能访问有限的公开摘要信息。如果严格执行,新规等同于禁止中国科研群体获取美国的癌症基因组原始数据。有业内人士直言,像TCGA这类完全符合限制条件的数据库,其未来对中国的访问可能被直接禁止。

3.3 dbGaP基因型-表型数据库

数据类型与简介:dbGaP(Database of Genotypes and Phenotypes)是美国国立生物技术信息中心(NCBI)维护的受控访问数据库,存储了大量受试者的基因型和表型数据。它涵盖各种生物医学研究项目的数据,如基因组关联研究(GWAS)、测序项目、队列研究等,涉及疾病范围广泛(癌症、心血管、神经疾病等)以及对应的临床/表型信息。数据类型包括人类遗传变异数据(基因分型、序列)、基因表达数据、病例的临床特征、影像数据等,通常具有个人颗粒度且可能关联受试者隐私信息,是典型的敏感个人 biomedical 数据。 访问模式:dbGaP的所有具体研究数据均为受控访问。研究者需通过NIH的电子系统提出申请,包括提供研究计划、所属机构信息、保证符合伦理与隐私保护要求等。每个数据集由Data Access Committee审核申请资格。一般要求申请人有研究机构身份、研究目的合理且经过本机构伦理审查。同时申请者需同意dbGaP的数据使用协议(不可重新鉴定身份、不得分发数据等)。国际研究人员在过去可以申请,只要条件符合,事实上也有中国团队通过国际合作获得dbGaP数据的情况。但审批通常严格且耗时。 新规下的访问可用性:dbGaP所涵盖的大部分数据属于人类基因组/组学或个人健康数据,往往涉及数百乃至上万人的规模研究,因此基本都落入新规管制范围。如果严格执行,新规将导至中国研究机构或研究者基本无法获得dbGaP数据批准。美国NIH出于合规,很可能直接更新政策:凡申请者为来自受关注国家的机构,或者研究团队包含受关注国家人员,将直接不予授予数据访问权限。这等于封闭了中国科研人员获取美国人遗传与健康数据的大门。就算通过美国合作者提出申请,最后数据也只能在美方控制下使用,不允许转交中方。简而言之,新规下dbGaP对中国的可访问性趋近于零,除非特定项目能符合豁免(但基础研究通常不可能)。 适用研究类型:dbGaP的数据广泛用于遗传学和医学研究,包括GWAS分析、遗传流行病学、基因-环境交互研究、罕见病基因发现等。中国科研人员过去通过dbGaP获取过如美国癌症队列、生物银行的数据来做二次分析。如果这一途径受阻,中国研究者将不得不寻求其他数据源,如欧洲的EGA(欧洲基因组-表型档案)或UK Biobank等对国际开放的数据,或开展中国人群的独立队列研究以弥补美国数据的缺失。

3.4 GTEx组织表达数据库

数据类型与简介:GTEx(Genotype-Tissue Expression)计划是NIH资助的一项研究,测定了数百名健康供体多个组织中的基因表达谱,并获得每位供体的基因组基因型数据。GTEx数据库包含不同组织的RNA测序数据、蛋白质表达数据,以及供体的遗传变异信息。其主要数据类型是人类转录组数据(多组织基因表达)和基因组基因型数据,还有一些基础临床信息。GTEx的数据用于研究基因表达调控、表达数量性状等,属于人类组学数据+健康数据。 访问模式:GTEx的数据也分公开和受控两部分:汇总统计数据(如表达量均值、eQTL分析结果等)公开提供,而个体层面的基因型和表达数据需要通过dbGaP受控访问(因为这些可以潜在识别个人供体)。研究者需经授权才能下载GTEx的个人样本数据集。 新规下的访问可用性:GTEx涉及约900多位美国捐献者,基因组+转录组数据的组合,因此至少在人类基因组数据类别上超过了>100人的阈值,属于受控敏感数据。对于中国科研人员,GTEx的个体数据访问预计会被阻断,与TCGA/dbGaP情况类似。原本公开的汇总分析结果,因为不含具体个人记录,可能还会留在论文或数据浏览器中开放查询。但如果这些结果被认为也有价值,理论上仍可公开(因为已脱敏汇总并不构成个人数据)。因此,GTEx项目的原始数据将对中国关闭,但部分汇总信息或分析结果仍可能公开可见。总体而言,中国研究者将无法获取GTEx供体级别的数据来进行自己新的分析,只能利用现有公开的有限结果。

3.5 PubMed Central文献数据库

数据类型与简介:PubMed Central(PMC)是美国国立医学图书馆(NLM)建立的生物医学文献开放获取存储库。它收录并免费提供了全球大量生物医学研究论文的全文,尤其是由NIH资助研究的论文须在PMC存档开放。PMC主要内容是学术论文全文,涉及期刊文献、综述、会议论文等,不包含原始的个人医学数据。需要注意,PMC与PubMed不同:PubMed是文献题录和摘要数据库,而PubMed Central提供全文。题目中提到的“PubMed Central”即指这个全文数据库。 访问模式:PMC自建立以来就是完全开放的公共资源。任何国家的用户都可以通过互联网访问PMC,检索并阅读其中存储的免费论文全文。无需注册也无任何地域限制,因其宗旨是促进科研知识共享。PMC上的内容都是已发表文献的公开版本,不涉及隐私受限数据。 新规下的访问可用性:鉴于PubMed Central内容是公开出版物,不包含“敏感个人数据”,因此不在新规限制范围。美国新规并非针对公开文献,而是针对个人可识别的数据集。因此,可以预期PMC对中国用户的访问将不受新规影响。即便在行政命令发布时有学者担心“会不会连PubMed这样的基本数据库都无法访问”,但那可能是过度忧虑。美国政府没有动机去封锁公开文献,因为文献不涉及国家安全风险,且美国也在推动科研成果开放获取。事实上,新规本身将通过公众可合法获得的数据排除在敏感数据定义之外,包含学术出版物在内的公开信息不受管制。 因此,中国科研人员仍可正常访问和使用PubMed Central来获取论文全文,不会因为国别身份而被拒绝访问PMC网站或下载文章。这一点对于维持科研文献获取来说是极其重要的基本保障。

3.6 ClinicalTrials.gov临床试验注册库

数据类型与简介:ClinicalTrials.gov是美国国立医学图书馆维护的全球临床试验注册与结果数据库。美国法规要求在美国开展的许多临床试验必须在该网站注册登记,并在研究完成后报告结果摘要。ClinicalTrials.gov收录了全球25万+临床研究项目的信息,包括试验名称、课题设计、入选条件、地点、以及部分试验的结果数据(如主要结局指标的统计结果)。数据类型主要是项目信息和汇总结果,少量有病人的汇总统计数据,但没有个人级别数据。 访问模式:该网站对公众完全开放。无需注册登录,任何人可以搜索查询临床试验的登记信息和公布的结果。其目的是提高试验透明度和避免重复,因此访问上没有国别限制,一直对全世界用户开放利用。因此,中国研究者将和以往一样,继续能够查阅临床试验的注册情况和结果。

3.7 NIH公开数据集平台

数据类型与简介:NIH公开数据集泛指由美国国立卫生研究院及其各附属机构发布的各种开放获取科研数据。这可能包括:基于大型项目整理的公开数据库(如特定疾病的汇总统计数据集)、训练用的医学影像数据库、公共健康调查的公开样本、模型动物实验数据等。数据类型多样,可能是去识别化的汇总健康统计、示例科研数据、非敏感的人类数据或基础科学数据。例如,NIH曾开放过COVID-19相关的数据集,或人类蛋白相互作用数据集等。 新规下的访问可用性:需要具体分析数据性质:如果某公开数据集涉及美国人的健康数据且数量巨大,即使已脱敏汇总,理论上还是敏感个人数据的集合,只不过当前被公开了。按照新规定义,公开发布的合法数据不算敏感个人数据。因此已有的开放数据集可能不在新规管制之列。然而,为谨慎起见,美国机构可能审视现有开放数据集,是否有可能被利用拼凑出个人隐私或对国家安全有影响。少部分如果被认为有风险,可能会下架或转入受控访问。但大多数真正公开的数据集通常风险较低(例如只是统计汇总或非人类数据)。所以,总体判断:NIH开放数据集平台的大部分内容,中国科研人员仍能访问,但涉及敏感人类数据的大型开放集未来可能不再发布或被关闭。 举例来说,NIH的癌症统计年报、健康趋势报告等汇总数据将继续开放,因为那属于公共卫生统计,不会禁。而如果有数据集包含成千上万匿名个体的详细医疗记录(很少直接开放如此详细的数据),那按新规本来也不应公开,之后更不会有类似开放。

3.8 CDC开放数据平台

数据类型与简介:CDC(美国疾控中心)的开放数据平台(data.cdc.gov等)提供了大量公共健康相关的数据集,包括疾病监测数据(如流感、传染病发病率)、健康调查数据(如行为风险因素监测BRFSS汇总)、环境健康指标等。数据类型大多是公共卫生统计,通常已汇总到群体或州/县级别。有些也提供调查微观数据,但经过匿名处理(如NHANES——国家健康和营养调查公开版数据)。CDC还发布指南、报告及可视化工具的数据。 新规下的访问可用性:CDC开放数据主要是聚合的公共卫生信息,一般不含可识别个人的数据,因此多数应不在新规限制范围。例如,每周的传染病病例数、州级健康指标,这些都不是个人敏感数据。不过,某些CDC项目如NHANES公开数据虽然是个人记录但匿名的,涉及约万名受访者的健康指标,这严格说属于“个人健康数据>10000人”——按新规定义本应受管控。但因为NHANES早已公开发布多年,且无法识别个人,所以可能被视为合法公开数据而不予管制。为了保险,美国可能减少类似微观数据的直接开放,但短期看已经开放的CDC数据中国仍可访问。美国没有迹象会切断国际社会对其公共卫生数据的获取,因为这也符合全球合作应对疾病的利益。 适用研究类型:CDC数据支持流行病学、预防医学、公共卫生政策等研究。中国学者可用其作国际比较研究、模型验证等。例如,将美国的疾病流行情况与中国比较,或利用CDC开放的疫情数据建立预测模型。这类研究今后仍能进行,因为数据来源未断。不过,如果想获取更详细的美国个人健康微观数据,则需要另想办法(如通过公开发表论文中附录的数据,或与美方官方合作项目)。

3.9 NCBI GEO基因表达数据库

数据类型与简介:GEO(Gene Expression Omnibus)是由NCBI维护的基因表达数据存储库,创建于2000年。全球各研究机构在发表论文时常将高通量基因表达实验数据提交到GEO。收录内容包括基因芯片表达谱、RNA测序表达数据、single-cell测序数据等,以及相关的实验描述和样本信息。GEO包含来自世界各国研究的提交,但其中也有大量美国研究的数据。数据类型多为基因表达矩阵(基因在各样本中的表达值)、甲基化数据等,有的人体数据也有人源以外(细胞系、动物)数据。对于人类样本,GEO通常不收录直接个人标识,但有可能附带一些供体属性(年龄、性别、病种等)。 访问模式:GEO是完全公开的数据库。用户可通过网页检索特定系列(Series)或样本(Sample)的编号,然后下载其提交的数据文件(常是TXT/CSV矩阵或CEL原始文件等)。不需要登录,也不限制国别。由于这些数据往往已在文章中发表对应分析,一般视为学术公共数据资源。 新规下的访问可用性:GEO有别于前述数据库的一点是:它的数据贡献者不仅是美国政府项目,还有全球科研人员。新规管辖的是美国主体,NCBI作为美国机构管理GEO。如果GEO里包含大规模美国人源数据(如涉及上千美国受试者的表达数据集),理论上可能触发限制。然而多数GEO提交的数据量并非非常巨大在人数上,且很多是非美国人或者体外实验。即便有美国人数据,也是少数病例或已经公开发表的结果。根据新规定义,公开通过开放存储库提供且公众可合法获取的数据不算敏感个人数据。因此,GEO绝大部分数据集应该可以继续供中国科研人员访问。如果美国考虑安全,对GEO可能采取的措施有限,因为整个GEO都是公开科学数据,若加以封锁将引起学界反弹。更可能的情况是保持开放现状。 不过,有一种情形值得注意:一些大型项目在人类基因组数据,出于隐私会选择提交到dbGaP而非GEO。如果某研究确实敏感,就不会在GEO出现。所以GEO内容本身已经是可公开的一般性数据。因此,新规不会明显削弱中国研究者访问GEO。

四、老m跨境医学数据库禁止访问总结

上述表格反映:涉及大量美国人健康/基因信息的数据库(如SEER, TCGA, dbGaP等)在新规下对中国几乎封闭,而以公开文献和统计为主的资源(如PMC, ClinicalTrials.gov, CDC数据)仍然开放。介于两者之间的是一些已经公开但含匿名个体数据的资源(如GEO, 部分NIH数据),目前看大概率继续开放,但需关注政策动向。

五、SCI用公共数据发表的影响

2025跨境新规下,不仅影响一手医学数据获取,也将对中美跨境科研合作和成果发表造成连锁反应。我最关心的是SCI用公共数据发表是否会收到新规的影响?目前暂时没有定论,会不会以后送审NHANES这类数据被定向退稿。

长远看,新一轮跨境新规对中美科研公开交流的氛围会受到一些损害,出现敏感领域的信息隔离。最根本的解决之道是在国内收集、整合类似的数据资源。中国顶层其实早就建立自己的癌症登记系统和数据库替代。目前中国已有全国肿瘤登记年报,但科研可用的微观数据开放有限。其实,国内真的不缺好的队列,mega队列也是全球顶级,只是并未开放。下一步,期待boss们真的能加快数据开放步伐,在隐私合规前提下向广大的科研工作者提供国内公开数据。

六、 结论

2025年起实施的美国数据跨境新规,限制中国科研人员登录数据库范围广泛:凡是包含美国人基因组、健康等敏感信息的大型数据库,如SEER癌症登记、TCGA基因组计划、dbGaP遗传数据库、GDC平台、GTEx项目等,都在新规管控之列,中国科研人员过去依赖的这些数据源将变得完全不可及。

PS: 幸好pubmed还能用

声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部