-
摘要:目的
使用数据挖掘技术建立肺癌危险度预测模型,比较C5.0决策树与人工神经网络用于肺癌风险预测的性能,并探讨其在肺癌风险预测中的价值。
方法选择180例肺癌患者及240例肺良性疾病患者,收集肺癌相关危险因素和临床症状共17个自变量,建立C5.0决策树与人工神经网络模型,比较模型的预测性能。
结果共收集420份病历资料,将所有样本按7:3随机分为训练集样本和测试集样本。人工神经网络模型的测试集准确度为65.3%、敏感度为61.7%、特异性为73.3%、约登指数为0.350、阳性预测值为54.9%、阴性预测值为73.1%、AUC为0.675(95%CI: 0.628~0.720)。C5.0决策树模型的测试集准确度为61.0%、敏感度为47.8%、特异性80.4%、约登指数为0.282、阳性预测值为35.3%、阴性预测值为80.6%、AUC为0.641(95%CI: 0.593~0.687)。
结论人工神经网络模型整体性能优于C5.0决策树,在肺癌危险度的预测中具有潜在的应用价值。
Abstract:ObjectiveTo establish a lung cancer risk prediction model using data mining technology and compare the performance of decision tree C5.0 and artificial neural networks in the application of risk prediction model, and to explore the value of data mining techniques in lung cancer risk prediction.
MethodsWe collected the data of 180 patients with lung cancer and 240 patients with benign lung lesion which contained 17 variables of risk factors and clinical symptoms. Decision tree C5.0 and artificial neural networks models were established to compare the prediction performance.
ResultsThere were 420 valid samples collected in total and proportioned with the ratio of 7:3 for the training set and testing set. The accuracy, sensitivity, specificity, Youden index, positive predictive value, negative predictive value and AUC of artificial neural networks model were 65.3%, 61.7%, 73.3%, 0.350, 54.9%, 73.1% and 0.675 (95%CI: 0.628-0.720) in testing set; those of decision tree C5.0 model were 61.0%, 47.8%, 80.4%, 0.282, 35.3%, 80.6% and 0.641 (95%CI: 0.593-0.687) in testing set.
ConclusionThe artificial neural networks model is superior to the decision tree C5.0 model at overall performance and it has potential application value in the risk prediction of lung cancer.
-
Key words:
- Lung neoplasms /
- Decision trees C5.0 /
- Artificial neural network /
- Risk prediction
-
0 引言
得益于肿瘤学、免疫学、影像学研究的飞速发展,近十年来肿瘤免疫治疗无论在基础研究还是临床试验方面都取得了令人瞩目的进展。成为继化学治疗、手术治疗及放射治疗之后的又一种重要的肿瘤治疗方法。大量研究表明,恶性肿瘤发生、发展的每一个阶段均与免疫系统密切相关。并且,肿瘤微环境有明显的免疫抑制特性,这些免疫抑制表现为局部的免疫抑制、产生免疫耐受以及T淋巴细胞相关信号的系统性功能失调。因此,寻找以免疫为基础的肿瘤诊疗靶点及免疫通路中的特异性抑制剂显得尤其重要。最新研究表明,肿瘤细胞会通过细胞毒性T淋巴细胞相关抗原4(cytotoxic T-lymphocyte-associated antigen 4, CTLA-4)、程序性死亡蛋白-1(PD-1/PD-L1)通路等免疫调节检查点成功逃避免疫系统的攻击。PD1/PD-L1信号通路是近年来发现的参与肿瘤免疫逃逸的重要途径之一;也是肿瘤免疫治疗的重要靶点[1-2]。靶向于PD-1和PD-L1通路的单克隆抗体在肿瘤免疫治疗上表现出良好的治疗效果[3]。
最新研究表明,并不是所有肿瘤患者都对PD-1和PD-L1通路的单克隆抗体有疗效响应,anti-PD-1/PD-L1单克隆抗体在肿瘤免疫治疗中总客观缓解率较低[4-5]。肿瘤微环境中PD-1、PD-LI表达水平越高的患者越可能临床获益[6-7];最新临床试验表明,即使PD-L1阳性患者也可无明显临床获益[8],而且免疫调节检查点的生物学行为和调节机制仍不明确,因此,肿瘤微环境中PD-L1表达水平并不能作为筛选阳性患者的理想生物指标。不仅如此,对于能够预测肿瘤免疫治疗单抗的安全性、有效性的生物预测指标的研究相对缓慢,而这对于肿瘤患者的个体化治疗有着十分重要的意义。到目前为止,免疫组织化学方法仍是检测PD-1与PD-L1表达水平的唯一方法。作为一种经典的方法,免疫组织化学方法仍存在一些不足之处:(1)是一种侵入性方法,需要采取标本制作病理切片;部分肿瘤不适合活检。(2)测定结果仅为病理切片的PD-1与PD-L1表达水平,不能提供机体整体与远处转移时PD-1和PD-L1的表达信息。(3)检测较为复杂,不能对治疗过程及预后PD-1与PD-L1表达水平进行监测。(4)检测PD-1/PD-L1表达水平易受患者曾接受过的治疗方式影响[9-12]。通过核素标记免疫治疗药物分子并利用分子影像学方式进行实时、在体的检测,观测肿瘤靶向性放射性免疫治疗药物分子的体内分布、抗原-抗体结合和抗原特异性T细胞的生物学行为,能够为患者筛选、疗效检测、治疗方案优化、预后评估提供新策略[13-17]。
针对PD-1/PD-L1信号通路,开发能够对该通路的诊断以及评估后续免疫哨点(immuno-checkpoint)抗体药物的应答提供高特异性的分子探针,具有重要的意义[18-19]。本综述对目前已有的PD-1/PD-L1特异性放射性探针进行综述,以期能够为发展新型分子探针在肿瘤免疫治疗效果监测方面提供新思路,使PD-1/PD-L1治疗患者获益。
1 肿瘤免疫治疗
19世纪,William Coley首次提出人体免疫系统能识别体内赘生性细胞,并对其作出反应。在1909年,Ehrlich首次提出了“免疫监视”这一名词,他认为在肿瘤未出现临床表现之前,人体的免疫系统就可以识别并杀死进展期的肿瘤细胞,抑制肿瘤的生长。二十世纪四十年代,氮芥用于治疗淋巴瘤。随着免疫生物学的发展,二十世纪五十年代F. Macfarlane Burnet和Lewis Thomas提出了“免疫监视”理论,认为机体体细胞的基因突变可引起肿瘤的发生,突变的肿瘤细胞可被免疫系统识别并清除,为肿瘤免疫治疗奠定了理论基础。1992年,Honjo等发现了PD-1的存在[20-21](同年,华人科学家陈列平提出了肿瘤微环境中存在“免疫逃逸关键分子”的假设。1999年,陈列平发现了B7-H1的存在)。在1999—2002年间,陈列平的实验室证实阻断PD-1/PD-L1通路可以治疗肿瘤,并在动物实验中取得成功。2006年,在陈列平免疫治疗理论指导下,anti-PD-1抗体首次用于人体肿瘤的临床前评价,肿瘤治疗进入免疫治疗时代[22]。
2010年4月,美国Dendreon公司的Sipuleucel-T(商品名Provenge)获得美国FDA批准,用于治疗无症状或症状轻微的转移性去势难治性前列腺癌(CRPC)。它是迄今为止首个被FDA批准的治疗性肿瘤疫苗。随着分子生物学的发展,肿瘤治疗由单抗特异性靶向治疗逐渐转向新一代的分子免疫靶向治疗。2011年3月,Bristol-Myers Squibb公司的anti-CTLA-4单抗ipilimumab(商品名Yercoy)获得美国FDA批准,用于治疗晚期黑色素瘤,这是FDA批准的首个用于调控免疫检查位点的单抗。近年FDA批准的免疫治疗药物达50余种。
肿瘤细胞与正常细胞存在差异是免疫系统识别肿瘤细胞的基础,也是肿瘤免疫治疗的前提。肿瘤在正常细胞的恶性转化过程中,新出现或过度表达的抗原物质总称即肿瘤抗原,分为肿瘤特异性抗原(tumor specific antigen, TSA)和肿瘤相关抗原(tumor associated antigen, TAA)。肿瘤抗原能诱导机体产生抗肿瘤免疫应答反应,包括细胞免疫和体液免疫。
肿瘤免疫治疗是一种激发或调动机体的免疫系统,增强肿瘤特异性T细胞活性,从而控制和杀伤肿瘤细胞的治疗方法。目前有四种方法:(1)对T细胞免疫检查点的调控,如用抗体阻断CTLA-4以及PD-1通路。(2)嵌合抗原受体-T细胞(CAR-T)免疫治疗。CAR-T治疗最成功的例子是对血液肿瘤方面的治疗。(3)体外激活TILs,该方法主要是从患者的肿瘤组织中提取T细胞,该类细胞在肿瘤微环境中是被抑制的,将其在体外环境中培养,从而将其重新激活,然后回输患者体内,目前发现对肿瘤患者有一些治疗效果,但仍处于临床研究阶段。(4)用肿瘤特异性抗原制作免疫疫苗,该方法仍处于临床研究阶段。
2 PD-1/ PD-L1结构、功能及临床应用
PD-1/ PD-L1是主要的免疫调节检查点之一,PD-1属于CD28家族成员;主要表达于活化的T细胞、B细胞、树突样细胞(DCs)、自然杀伤T细胞(NK细胞)以及活化的巨噬细胞。PD-1的配体为PD-L1和PD-L2,PD-L1是PD-1主要配体;属于B7家族成员;主要表达于巨噬细胞[16, 23];PD-1与相应配体结合后,可抑制T细胞的增殖以及IL-2和IFN-γ等细胞因子的产生,维持自身免疫平衡[23-25]。当机体发生肿瘤时,肿瘤微环境发生改变。有系列研究已经证明PD-L1在许多肿瘤中均有异常表达:如乳腺癌、肺癌、胃癌、肠癌、卵巢癌、膀胱癌、黑色素瘤等人类肿瘤组织;同时也会使肿瘤浸润性淋巴细胞(TILs)中PD-1表达上调,且PD-L1与PD-1表达水平与临床病理类型及预后呈负相关[26-27]。
T细胞的完全活化有赖于双信号和细胞因子的作用。T细胞活化的第一信号来自TCR与pMHC的特异性结合,即T细胞对抗原的识别;T细胞活化的第二信号来自协同刺激分子,即抗原提呈细胞APC或靶细胞表达的协同刺激分子与T细胞表面的协同刺激分子相互作用介导的信号[28]。肿瘤微环境中PD-L1与活化T细胞表面的PD-1结合后,诱导活化T细胞凋亡,发生肿瘤免疫逃逸[1, 29]。PD-1/PD-L1信号通路是肿瘤免疫逃逸的途径之一,同时也是肿瘤免疫治疗的重要靶点。利用抗PD-1、抗PD-L1的单克隆抗体阻断PD-1/PD-L1信号通路,增强机体活化T细胞的免疫杀伤功能,杀死肿瘤细胞,抑制肿瘤的生长,能够发挥良好的肿瘤治疗效果[19, 30-32],见图 1。
目前已经有多个抗PD-1/PD-L1单克隆抗体已被FDA批准用于临床。2014年9月4日,Merck Sharp Dohme公司的Pembrolizumab(商品名:Keytruda)获得FDA批准,用于治疗不可切除或转移性黑色素瘤。它是首个被FDA批准的人程序性死亡受体-1(PD-1)人源化单克隆抗体;Bristol-Myers公司的Nivolumab(商品名:Opdivo)是一个程序性死亡受体-1(PD-1)的阻断抗体,2014年12月22日,美国FDA批准Nivolumab用于不可切除的转移性黑色素瘤。2015年又被FDA批准Nivolumab用于治疗非小细胞肺癌(NSCLC),是首个肺癌免疫疗法药物。2016年5月,Atezoliumab是首个被FDA批准的是人程序性死亡配体-1(PD-L1)人源化单克隆抗体,批准用于治疗膀胱癌和非小细胞肺癌。
3 分子影像引导的PD-1/PD-L1肿瘤免疫治疗
相应患者对于靶向PD-1/PD-L1通路的单克隆抗体的整体有效率为20%~40%,但就患者个体而言,单克隆抗体的有效率差异较大,呈现16%~100%的大跨度,在PD-1/PD-L1阳性的患者有效率可高达90%[3-5]。因而,筛选对肿瘤免疫治疗有疗效响应的阳性患者具有重要意义。
核医学分子示踪技术为肿瘤的早期诊断和预后提供了很好的手段,利用放射性分子探针可以无创地检测及评估肿瘤PD-1与PD-L1表达水平,提供机体整体与远处转移时PD-1与PD-L1表达信息,避免了病理切片及治疗手段对机体PD-1与PD-L1表达水平的影响,为筛选PD-1/PD-L1免疫治疗有疗效响应的患者、优化肿瘤抗PD-1/抗PD-L1治疗方案、评估预后提供了新策略。基于筛选PD-1与PD-L1免疫治疗有疗效响应的患者为目的的分子显像已成为目前肿瘤基础和临床领域研究的热点。目前用于临床(或临床前)研究的免疫靶向治疗分子探针,见表 1。
表 1 临床(或临床前)研究的免疫靶向治疗分子探针Table 1 Molecular targeted probes for immunotherapy in clinical or preclinical studies3.1 抗PD-1 PET显像
Natarajan等在Foxp3+.LuciDTR4转基因黑色素瘤荷瘤鼠模型中进行了64Cu-DOTA-anti-PD-1-mAb PET显像与免疫组织化学的对比研究,发现64Cu-DOTA-anti-PD-1 PET显像与病理切片免疫组织化学吻合,提示64Cu-DOTA-anti-PD-1是一种特异性较好的PET显像剂。Foxp3+.LuciDTR4转基因B16–F10黑色素瘤模型中Foxp3+调节性T细胞(Treg)高表达PD-1,在调节肿瘤微环境抑制免疫方面发挥重要作用。在Foxp3+.LuciDTR4转基因B16-F10黑色素瘤模型中进行1~48 h PET显像与48 h体内分布研究,发现在肿瘤组织和脾脏有特异性摄取;同样设置对照组进行显像和体内分布研究,对照组中以5倍剂量cold-anti-PD-1封闭位点,发现封闭后肿瘤组织和脾脏中摄取明显减少,其他器官无明显改变,进一步提示肿瘤组织和脾脏摄取的特异性。64Cu-DOTA-anti-PD-1的示踪信号能够被5倍剂量cold-DOTA-anti-PD-1封闭,提示较小剂量64Cu-DOTA-anti-PD-1即可用于PET显像。该研究证实64Cu-DOTA-anti-PD-1是一种特异性较好的PET显像剂,是一种非创伤性、高敏感度、可重复性的肿瘤PD-1/PD-L1表达水平的测定方法[10]。
3.2 HAC-PD-1 PET显像
Maute等利用基因工程技术使小鼠体内能够高表达具有PD-L1高亲和力的PD-1(HAC-PD-1)。分别于转基因小鼠两侧种植PD-L1阴性肿瘤和hPD-L1阳性肿瘤制备荷瘤鼠模型。Maute等在荷瘤鼠模型中进行了HAC-PD-1与抗PD-L1单克隆抗体在肿瘤渗透性及肿瘤外周活化T细胞耗竭的对比研究,64Cu-DOTA–HAC PET显像,细胞摄取,体内分布等研究。HAC-PD-1与PD-L1的亲和力是hPD-1与PD-L1亲和力的15 000~40 000倍。HAC-PD-1无Fc段,避免了肿瘤外周活化T细胞耗竭。64Cu-DOTA-HAC PET显像,发现在1 h时肿瘤,肾脏、肝脏摄取较高;在肾脏中摄取较高,提示未与肿瘤表面PD-L1结合的HAC-PD-1主要经肾脏清除;肝脏中较高,提示可能与肝脏中某些蛋白结合相关。研究证实64Cu-DOTA-HAC是一种特异性较好的PET显像剂,可溶性Fc段的单克隆抗体,具有更好的肿瘤渗透性,且可以避免外周活化T细胞耗竭,为PD-1/PD-L1表达水平的检测提供了一种无创、准确的新思路[9]。
3.3 抗PD-L1 SPECT显像
Josefsson等在neu-N转基因乳腺癌荷瘤鼠模型中进行了111In-DTPA-anti-PD-L1 SPECT显像、体内分布与免疫组织化学的对比研究,发现111In-DTPA-anti-PD-L1 SPECT显像、体内分布与病理切片免疫组织化学吻合,提示111In-DTPA-anti-PD-L1是一种特异性较好的SPECT显像剂。Josefsson等实时定量PCR(real-time quantitative PCR, RT-qPCR)、流式细胞术实验发现,在IFN-γ存在时,PD-L1相关mRNA和蛋白水平表达上调。SPECT显像与体内分布研究发现,111In-DTPA-anti-PD-L1在肿瘤组织,脾脏,胸腺特异性摄取,摄取率在72 h达到最高;设置30倍及100倍剂量cold-DTPA-anti-PD-L1 SPECT封闭对照组显像与体内分布研究,发现脾脏中摄取率减少,血池与肿瘤组织的摄取率增高,提示注射未标记的单抗可以提高血池中标记单抗的含量,从而提高肿瘤组织的摄取率。111In-DTPA-anti-PD-L1在注入体内144 h后开始清除。研究证实111In-DTPA-anti-PD-L1是一种特异性较好的SPECT显像剂,是一种非创伤性、高敏感度、可重复性的测定肿瘤PD-1/PD-L1表达水平的方法[12]。
4 结语
目前,核医学已迈进分子时代,分子显像探针等应用研究非常活跃,PET可早期对肿瘤进行鉴别诊断,对晚期转移性肿瘤进行全身显像并指导肿瘤治疗,显示出分子核医学技术无限的应用前景。PD-1/ PD-L1信号通路是近年来肿瘤免疫治疗的重要靶点之一,患者PD-1/PD-L1表达水平可能与其治疗反应呈正相关,与预后负相关,因此开发基于PD-1/ PD-L1的放射性分子探针对于提高肿瘤的诊断率和有效率具有重要意义,也是当前分子显像药物研究的重点之一,可以无创地检测及评估肿瘤PD-1与PD-L1表达水平,为阳性患者筛选、治疗方案优化、预后评估提供了新策略。
Competing interests: The authors declare that they have no competing interests.作者贡献高孜博:数据分析及撰写论文李迪、段书音:数据整理与分析周晓蕾、刘红、王静:论文审阅与修订王威、吴拥军:研究设计与论文修订 -
表 1 肺癌危险度评价研究的变量赋值说明
Table 1 Instructions of variables assignment in risk assessment studies of lung cancer
表 2 肺癌组和肺良性疾病组的样本基线特征及卡方检验(n(%))
Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))
表 3 C5.0决策树和ANN模型的训练集和测试集样本分类结果
Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models
表 4 C5.0决策树模型和ANN模型中纳入变量的重要性排序
Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model
表 5 两种数据挖掘模型的测试集结果比较
Table 5 Comparison of testing set results between two data mining models
-
[1] Siegel RL, Miller KD, Jemal A. Cancer statistics, 2020[J]. CA Cancer J Clin, 2020, 70(1): 7-30. doi: 10.3322/caac.21590
[2] Brownlee AR, Donington JS. Update on Lung Cancer Screening[J]. Semin Respir Crit Care Med, 2020, 41(3): 447-452. doi: 10.1055/s-0039-3400480
[3] Duan S, Cao H, Liu H, et al. Development of a machine learning-based multimode diagnosis system for lung cancer[J]. Aging (Albany NY), 2020, 12(10): 9840-9854. http://uwspace.uwaterloo.ca/handle/10012/16224?show=full
[4] 中华医学会, 中华医学会肿瘤学分会, 中华医学会杂志社. 中华医学会肺癌临床诊疗指南(2019版)[J]. 肿瘤研究与临床, 2020, 32(4): 217-249. doi: 10.3760/cma.j.cn115355-20200202-00036 Chinese Medical Association, Oncology Branch of Chinese Medical Association, Chinese Medical Journals Publishing House. Chinese Medical Association guidelines for clinical diagnosis and treatment of lung cancer (2019 edition)[J]. Zhong Liu Yan Jiu Yu Lin Chuang, 2020, 32(4): 217-249. doi: 10.3760/cma.j.cn115355-20200202-00036
[5] Bade BC, Dela Cruz CS. Lung Cancer 2020: Epidemiology, Etiology, and Prevention[J]. Clin Chest Med, 2020, 41(1): 1-24. doi: 10.1016/j.ccm.2019.10.001
[6] Sakin A, Sahin S, Yasar N, et al. Prognostic impact of blood transfusion in patients with metastatic non-small cell lung cancer receiving chemotherapy[J]. Lung Cancer, 2019, 133: 38-44. doi: 10.1016/j.lungcan.2019.05.007
[7] Akhtar N, Bansal JG. Risk factors of lung cancer in nonsmoker[J]. Curr Prob Cancer, 2017, 41(5): 328-339. doi: 10.1016/j.currproblcancer.2017.07.002
[8] Kim TW, Koh DH, Park CY. Decision Tree of Occupational Lung Cancer Using Classification and Regression Analysis[J]. Saf Health Work, 2010, 1(2): 140-148. doi: 10.5491/SHAW.2010.1.2.140
[9] Sherafatian M, Arjmand F. Decision tree-based classifiers for lung cancer diagnosis and subtyping using TCGA miRNA expression data[J]. Oncol Lett, 2019, 18(2): 2125-2131.
[10] Jeong Y, Xie Y, Xiao G, et al. Nuclear Receptor Expression Defines a Set of Prognostic Biomarkers for Lung Cancer[J]. PLoSMed, 2010, 7(12): e1000378. http://pubmedcentralcanada.ca/pmcc/articles/PMC3001894/
[11] 王海东, 张璐, 王洁, 等. C5.0决策树与RBF神经网络模型用于急性缺血性脑卒中出血性转化的风险预测性能比较[J]. 中华疾病控制杂志, 2019, 23(2): 227-232. https://www.cnki.com.cn/Article/CJFDTOTAL-JBKZ201902021.htm Wang HD, Zhang L, Wang J, et al. Comparing performance of C5.0 decision tree and radial basis function neural network for predicting hemorrhagic transformation in patients with acute ischemic stroke[J]. Zhonghua Ji Bing Kong Zhi Za Zhi, 2019, 23(2): 227-232. https://www.cnki.com.cn/Article/CJFDTOTAL-JBKZ201902021.htm
[12] Meng XH, Huang YX, Rao DP, et al. Comparison of three data mining models for predicting diabetes or prediabetes by risk factors[J]. Kaohsiung J Med Sci, 2013, 29(2): 93-99. doi: 10.1016/j.kjms.2012.08.016
[13] Shi HY, Hwang SL, Lee KT, et al. In-hospital mortality after traumatic brain injury surgery: a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models[J]. J Neurosurg, 2013, 118(4): 746-752. doi: 10.3171/2013.1.JNS121130
[14] Bertolaccini L, Solli P, Pardolesi A, et al. An overview of the use of artificial neural networks in lung cancer research[J]. J Thorac Dis, 2017, 9(4): 924-931. doi: 10.21037/jtd.2017.03.157
[15] 彭玲, 杨渝伟, 王开正. 系统性红斑狼疮自身抗体谱数据的解读与疾病模型预测[J]. 检验医学与临床, 2018, 15(5): 635-638. doi: 10.3969/j.issn.1672-9455.2018.05.019 Peng L, Yang YW, Wang KZ. Interpretation and predictive modeling of antibody spectrum data for system lupus erythematosus[J]. Jian Yan Yi Xue Yu Lin Chuang, 2018, 15(5): 635-638. doi: 10.3969/j.issn.1672-9455.2018.05.019
[16] Pournik O, Dorri S, Zabolinezhad H, et al. A diagnostic model for cirrhosis in patients with non-alcoholic fatty liver disease: an artificial neural network approach[J]. Med J Islam Repub Iran, 2014, 28: 116.
[17] Kourou K, Exarchos TP, Exarchos KP, et al. Machine learning applications in cancer prognosis and prediction[J]. Comput Struct Biotechnol J, 2014, 13: 8-17. http://europepmc.org/articles/PMC4348437/