3月18日,Science上发表了题为「肿瘤早期检测(Early detection of cancer)」的文章,下面我对这篇文章进行全面的解读。
为啥现在写?为啥这几个人写?
Nature、Science就某个特定的领域发表综述并不多,往往会过3~5年或5~10年才会有一篇重磅的综述。这种综述通常是约稿,那么 为何现在会发表这个肿瘤早期检测这个主题的综述呢?
作者认为,现在是肿瘤早期检测的风口。当前,我们对肿瘤的认知越来越充分,技术的进步也为我们提供了更有力的工具去揭示肿瘤发生的机制,政府或者私人的基金对肿瘤早期检测越来越关注。原文是「We believe that early detection of cancer is approaching a tipping point , as biological insight and technological capacity are increasing at an unprecedented rate and as public and private funders of research are increasingly willing to invest」。Tipping point,即临界点、引爆点。站在风口上,猪都会飞。肿瘤是个长期存在的话题,新冠疫情可能会结束,但肿瘤将会长久伴随着我们。
既然要写这篇综述, 为什么由这些人来写,为啥Science不邀请我来写? 哈哈!或者换个说法,这几个人在肿瘤早期检测领域,做出过啥贡献。首先,我们看一下这篇文章的第一作者和通讯作者,来自英国癌症研究中心的David Crosby 。 查了一下,Crosby是英国癌症研究中心下属的肿瘤预防和早期检测研究中心的主任(Head of Prevention and Early Detection Research)。
我查一个人的学术贡献,通常会直接去Google Scholars查询作者的H-index,虽然我找到了David Crosby,但我发现只有1999~2005年之间的13篇文章,显然哪里除了问题,可能是David Crosby自己后来关闭了Google Scholars?我继续挖了一下,发现David Crosby近几年发了几篇肿瘤早期检测的文章。
比如2020年11月在Lancet Oncology上发表的A roadmap for the early detection and diagnosis of cancer;还有2022年1月在British Journal of Cancer上发表的关于肿瘤液体活检的评论性文章。先约上,以后有机会再讲。
至于文章最后的通讯作者 Shankar Balasubramanian ,这人眼熟呀!
这是剑桥大学的教授,他的研究聚焦于G-四联体(G-quadruplexes),H-index高达100。G-四联体是特殊的DNA结构,我们以后也可以讲一下G-四联体的专题。不过我有点困惑的是,为啥Shankar Balasubramanian会出现在这篇肿瘤早期检测的文章中。
早筛、早诊、早期检测,傻傻分不清楚
回到文章本身,文章题目中「Early detection」需要特别强调一下,这里应该翻译为检测。我在很多文章中,往往看到作者将早期检测、早期筛查、早期诊断混为一谈,这里需要明确区分开。用WHO在Guide to Cancer Early Diagnosis报告中的图片解释一下。
这里可以看到,筛查(Screening)是指针对无症状的人群,之前没有任何症状,比如你去做年度的体检;而诊断(diagnosis)是指,有了症状以后,然后去医院做各种全面的检查,最终确诊。而早期检测(early detection)其实包括了筛查和诊断,甚至也包括了术后或治疗后,对肿瘤复发的检测,可以早期检测到更小的复发信号。
正文中,其实也明确提到了这一点:筛查是针对无症状的人群,而这篇文章聚焦到原发癌的早期检测以及癌前病变,包括筛查和有症状人群的检测。原文是:Screening, which proactively tests asymptomatic people, constitutes a subset of early detection measures. This Review focuses on early detection of primary cancers and precancerous changes in the context of both screening and symptomatic detection.
数据说话,肿瘤早期检测的重要性
大约有50%的肿瘤一检测到就是晚期(~50% of cancers are still only detected at an advanced stage)。早期检测到底有多重要?一个直接的数据就是,在早期检测到肿瘤的话,病人的存活率更高。
这里给了四组典型的数据,A图中是来自英国的数据,可以看到,对于直肠癌、乳腺癌、肺癌、卵巢癌、食管癌和黑色素瘤,在早期检测到,比如第1期(Stage 1),黑色素瘤的五年生存率接近100%,而如果在第4期(Stage 4),五年生存率降到30%左右;其他癌症的趋势类似。B图是美国的数据,跟英国的数据一致。C图是WHO下属的国际癌症研究机构(International Agency for Research on Cancer,IARC)在东南亚的数据,可以看到在泰国南邦、新加坡和印度孟买,结肠癌和乳腺癌如果在早期被检测到,比如还是局部的癌症(Localized),患者的存活率更高;如果进展到区域的癌症(Regional)或者进一步地,癌症发生了扩散(Metastatic),那么存活率会逐步降低。D图是国际癌症基准伙伴关系(International Cancer Benchmarking Partnership,ICBP)提供的关于澳洲、北美和欧洲发达国家结肠癌的数据,也得到了类似的结论。总之,癌症越早检测越好!
想要吐槽的是,欧美这些国家癌症数据统计方面确实比较领先一些,每年1月初,美国癌症研究会会在影响因子高达500的神刊CA Cancer J Clin上发表过去一年美国的癌症数据Cancer statistics;而中国的癌症数据,则要滞后5~6年,比如今年2月27日,国家癌症中心的赫捷院士等,在国产期刊Journal of the National Cancer Center (JNCC)上发表了中国的癌症数据。
为啥有的癌症可以在早期检测到,而有的不行?
有一些癌症,可以在早期检测到,比如宫颈癌、乳腺癌、结直肠癌和肺癌等,而有一些癌症,一旦检测到大部分就是晚期,比如食道癌、胰腺癌和卵巢癌。一方面,是因为在宫颈癌、乳腺癌、结直肠癌和肺癌中,已经建立了相对完善的筛查流程,比如乳房X光摄影用来筛查乳腺癌,宫颈刮片用来筛查宫颈癌,粪便用来筛查结直肠癌以及低剂量螺旋CT筛查肺癌;而且我们注意到,X光和CT都是基于影像学的无创方式,而宫颈刮片和粪便也是无创的样本。而对于食道癌、胰腺癌和卵巢癌,因为在身体内部,比较隐蔽,早期病变不容易觉察,也没有太好的技术去做筛查。
值得注意的是,由于宫颈癌和乳腺癌筛查相对成熟,因此已经被纳入到国家的「两癌」筛查项目。而乳腺癌和肺癌是全球发病率排名前两名的癌症,进行早期筛查可以有效提高患者的生存率。
早期筛查还与地区经济水平密切相关。大约70%的肿瘤死亡病例来源中低收入国家。比如,1970~2011年撒哈拉以南的非洲黑人女性中超过60%的乳腺癌发现时就是晚期,而在美国同一时期的黑人女性中,晚期乳腺癌的比例从60%降低至32%。而对于宫颈癌,在欠发达地区有更高的死亡率。这里作者使用了低人类发展指数的国家(low human development index (HDI) countries)。为什么呢?一方面,在欠发达地区,大家的健康意识相对薄弱,筛查率相对较低;而且即使筛查出来了有问题,后期由于经济方面的考虑,积极治疗的意愿相对较低。这也是国家大力推行「两癌」筛查的原因吧。
肿瘤早期检测的五大挑战
挑战1:认识早期肿瘤的生物学特性
这篇文章的格局比较大,首先提到了对于肿瘤的认知。我记得本科的时候【化学生物学】的老师讲到:understand nature, then manipulate nature;即首先要认识自然,才能改造自然。但现状是we do not fully understand which lesions will progress to consequential disease and which will not.
人们对于肿瘤的认识不断加深。现在比较公认的是,肿瘤是由正常细胞转化而来,而且肿瘤的发生发展是个连续的过程。首先,正常细胞发生了分子或者细胞水平的变异,这个时候可能细胞本身或者组织本身,并不能看到变化,好像是自己人中出现了叛徒,但难以辨认。随后,这个细胞或者一团细胞具有生长或增殖的优势,长得更快了,实现了从良性到恶性的转变;进一步地,癌细胞的生长空间不够了,就要去抢占地盘了,开始发生侵袭;空间还不够,就会发生转移。
这个图中是肿瘤发生经历的历程,在这些阶段中,每个阶段的肿瘤检测都具有重要意义。比如癌前病变阶段,注意这里是癌前,因此还不能被称为癌,只是一种病。有一些癌前病变很容易发展为癌,而有一些癌症最终不会。比如结肠息肉发展为结肠癌的风险较高,一旦发现了,就需要进行及早干预;而MGUS(未确定意义的单克隆丙种球蛋白病),是血液中一种称为M蛋白的异常免疫球蛋白水平中度升高的疾病,每年只有1%的可能性发展为多发性骨髓瘤;巴雷特食管(Barrett's esophagus)每年发展为食管癌的可能性只有0.3%。
一旦检测到癌前病变,我们是否要立即进行干预呢?不干预自己又不放心;干预了,但是风险确实较低,比如巴雷特食管(Barrett's esophagus),1000个人如果都进行了干预,比如射频消融,但最终只有3个人是真正有效的干预,而剩下的997个人都是过度治疗,造成医疗资源的浪费。因此, 关键的问题在于,如何判断癌前病变的良恶性 。
癌症如何才能实现更早期的检测和判断良恶性呢?由于早期分子层面的变化,现有的临床手段很难检测到,因此需要分子或细胞水平的检测,比如对于MUGS患者,如果正要发展为阴燃性骨髓瘤(smoldering myeloma),甚至进一步发展为多发性骨髓瘤,这些MUGS患者的血液中检测到了染色质变异和基因突变。这进一步说明了分子检测的有效性。This demonstrates how detection and molecular stratification of a preneoplastic lesion can trigger intervention before clinically observed definite malignancy. 因此,分子检测是现有临床检验手段的重要补充。
当然,肿瘤不是孤立存在的,肿瘤有微环境,而且肿瘤细胞还会跟免疫系统存在交互。当细胞发生癌变以后,免疫系统也会出现变化,因此也可以使用基于免疫系统的标志物检测肿瘤。
当然,为了更加系统和深入的研究肿瘤,肿瘤的生物学模型至关重要。第一代的模型是转基因模型,比如通过基因敲除等途径构建转基因的肿瘤模型,可以揭示一些肿瘤细胞内在和外在的特性,但这些转基因的模型不能最真实的反映人类肿瘤的情况。第二代模型是具有免疫活性的小鼠模型,进一步的模型还包括循环肿瘤细胞衍生外植体、肿瘤患者来源的移植瘤模型以及复杂的类器官模型。
挑战2:鉴定风险人群
人生而平等,但每个人得肿瘤的风险/概率不同,因此每个群体使用的检测策略也存在差异。Early detection strategies will not be of equal value to everyone. 我们比较容易理解的是,吸烟的人患肺癌的风险相对更高,那么就更需要去做肺癌的筛查。如何评估哪些人更易患哪种癌症,这就需要借助风险分级(Risk stratification)。
总的来说,一个人患癌的风险跟年龄、家族史、环境暴露以及生活方式相关。大家比较熟知的有好莱坞明星安吉丽娜·朱莉因为从母亲那遗传了 BRCA1 基因突变,患乳腺癌的几率高达87%,因此提前切掉乳房预防乳腺癌的故事。确实,携带遗传性BRAC1和BRAC2突变的女性,患乳腺癌和卵巢癌的风险大大提高。
构建一个有效的风险分级模型需要大规模人群的临床样本和数据。目前英国Our Future Health initiative项目招募了500万名志愿者,美国的Project Baseline项目招募了1万名志愿者;亚洲的Asia Cohort Consortium招募了100万名志愿者,而欧洲的 EPIC(European Prospective Investigation into Cancer and Nutrition)项目招募了50万名志愿者。这些大规模的纵向研究可以揭示肿瘤的风险因素,并有效评估不同人群对不同种肿瘤的易感性。
鉴定出风险人群后,这些风险人群要真正重视并行动起来,要积极开展早筛项目。就像我们需要经常说服父母去做体检一样。即使在美国,2019年也只有不到5%的肺癌风险人群进行了肺癌的筛查,主要是由于医疗体系中筛查项目的不健全以及个人本身的依从性不高。进行筛查后,还要进行科学合理的随访,才能真正起效。
道理大家都懂,为何最后却依然做不好呢?可能没有引起真正的重视吧。
挑战3:发现并验证标志物
如果我们克服了前面两个挑战,比如知道了肿瘤在发生的早期,会有哪些分子层面的变化;我们也知道了,哪些人群是高风险人群,需要进行筛查项目。但,在实际的操作层面,具体要检测哪些指标呢?巧妇难为无米之炊,我们需要有标志物才能进行肿瘤的早期检测。
如何评价一个标志物的好坏呢? 这里有几个指标,主要包括敏感性、特异性、阳性预测值和阴性预测值(positive predictive value,PPV)
用上图解释一下这些概念。一共有2030个人接收了内镜检测,其中有30个人诊断为肠癌,而另外2000人没有患肠癌。而一种新的肠癌标志物,最终在30个肠癌患者中,检测出20个,另外10个漏检了,敏感性为20/30=67%;2000个未患癌的人中,检测出了1820人未患癌,还有180人误诊为癌症,特异性为1820/2000=91%。
从另一个角度想,这个标志物一共检测出了200个阳性,其中20个是真阳性,还有180个是假阳性,那么阳性预测值PPV等于20/200=10%;这个标志物一共检测出1830个阴性,其中1820个是真阴性,还有10个漏检的,那么阴性预测值NPV为1820/1830=99.5%。由此可见,这个标志物漏检比较多,而且检测的阳性中,真正阳性的只有10%,容易造成过度医疗,因此这个标志物检测肠癌并不理想。
通过这个举例,我们可以看到,敏感性、特异性、PPV、NPV可以评估一个标志物的有效性。
发现了一个标志物,其实还需要进行 大量的验证 。这里作者举了两个失败例子,前列腺特异抗原PSA用于前列腺癌以及CA-125用于卵巢癌的检测。PSA is not generally recommended as a primary, population-level screen. Another example of a blood marker for cancer that showed promise was CA-125 for ovarian cancer. 这两个标志物有点鸡肋,食之无味,弃之可惜。目前它们难堪大用,反而容易造成过度医疗。
此外,目前还涌现了不少新的标志物,尤其是表观遗传的标志物,比如DNA甲基化。标志物主要从以下几个维度理解,检测的样本类型是什么?检测的物质是什么?检测的指标是什么?
样本类型包括血液、尿液、宫颈刮片等;检测的物质包括DNA、RNA、蛋白或者代谢物等;具体检测的指标包括突变、丰度和化学修饰等。比如我们要检测血浆中ctDNA的丰度(即多少)、或者ctDNA的甲基化。
对于ctDNA的丰度的检测,往往需要借助高通量测序,产生大数据,并利用人工智能或者机器学习的算法,来找到肿瘤患者中特有的特征。更进一步地,甚至还能追溯到患癌的器官。让我印象深刻的是UCLA的Xianghong Jasmine Zhou教授在Genome Biology上发表的CancerLocator文章,通过分析正常人和肿瘤患者血浆中cfDNA的差异,并利用这种差异鉴定检测者患癌的风险以及癌症种类。
尽管人工智能或者机器学习模型已经有越来越多的应用,但作者也提到了它的弊端,即算法本身是怎么找出这些特征或者标志物的,是不知道的,存在一个黑箱。比如你说阿尔法狗赢了李世石和柯洁,但是怎么赢的,阿尔法狗自己也讲不明白。Many Artificial intelligence (AI) and machine learning (ML) models are criticized for being 「black box,」 that is, unable to explain why the features (e.g., biomarkers) have been selected by the model.
此外,数据和代码的不透明/不公开,使得很多结果没有办法重复或验证。lacking appropriate transparency on data and code, lacking adequate comparator groups, and deviating from existing reporting standards can jeopardize reliability.
挑战4:开发准确的检测技术
我知道要检测哪个标志物后,我要用什么方法检测。这就好比,知道目的地后,我怎么到达目的地。我可以走到北京去,也可以坐高铁去,还可以坐飞机去,哪种方式最准确、最安全、最合理、性价比最高呢?这也是肿瘤检测需要考虑的。
早期检测的一个重要目的是检测到对治疗易感,而且不易转移的肿瘤。这种时期的早期肿瘤,其直径在毫米级,含有10万~100万个细胞,这对检测精度的要求就很高。绝大多数的影像学技术不能检测到这么小的肿瘤,但最新的体内成像设备,比如10.5T的磁共振成像(MRI)在不断迫近这个极限。
除了影像学,在组织病理学和人工智能方面的进步也将提高检测的精准性。组织病理是诊断和预后阶段确认的关键。人工智能的引入,可以提高敏感性,在一定程度上降低主观性以及内部的偏差。
挑战5:合理评估早期检测方法
找到好的标志物,有了好的检测技术,那么如何评估这套检测方案的有消息呢?这个时候临床试验的设计显得至关重要。Trials must be carefully designed to address the relevant population and measure the appropriate end points to provide statistically robust evidence to change practice.
一个好的标志物,并不是对所有临床场景都适用,合适的才是最好的,因此关键在于通过合理的临床试验设计,找到最适宜的临床应用场景。在设计临床试验的时候,需要选择恰当的目标人群,选择合适的临床终点,统计学专家来计算样本量,还要尽可能消除各种偏倚,比如疾病谱偏倚(描述疾病异质性的一个术语,是指诊断或筛检试验的灵敏度和特异度在不同的病人亚组间);试验结果出来后,还要对结果进行合理恰当的解读。
综上,这5大挑战可用下面这张图总结。
要做到肿瘤早期检测并不容易,不仅要克服以上5个核心的挑战,还要各方的参与。比如生物学家和临床医生,继续研究肿瘤的生物学特性,找到新的肿瘤标志物;对于工程师、计算学家和物理学家而言,开发人工智能技术或其他新的科技,助力早期肿瘤信号的检测;对于流行病学专家和人类学科学家,需要鉴定肿瘤的易感因素,从而鉴定出肿瘤的易感人群;对于工业界和政府决策人员,需要加速肿瘤早期检测的实施,并注重健康经济学;对于研究团体而言,需要不断注入科研经费,鼓励多学科的合作,共同推动肿瘤早期检测的进展。
相关数据链接:
1. WHO的Guide to Cancer Early Diagnosis报告:https:// apps.who.int/iris/handl e/10665/254500
2. 文中英国数据来源:Office for National Statistics UK, Cancer survival in England: adult, stage at diagnosis and childhood - patients followed up to 2018, 12 August 2019; www.ons.gov.uk/peoplepopulationandcommunity/healthandsocialcare/conditionsanddiseases/bulletins/cancersurvivalinengland/stageatdiagnosisandchildhoodpatientsfollowedupto2018.
3. 文中美国数据来源:https://seer.cancer.gov
4. International Agency for Research on Cancer (IARC,国际癌症研究机构): https:// survcan.iarc.fr/indexsu rvcan1.php
5. 国际癌症基准伙伴关系(International Cancer Benchmarking Partnership, ICBP): https:// gco.iarc.fr/survival/su rvmark