-
摘要:目的
初步探讨喉鳞状细胞癌患者唾液中miRNA-21对早期喉鳞状细胞癌(LSCC)的诊断价值。
方法收集20例喉鳞状细胞癌患者和15例喉息肉患者及15例健康对照组的唾液,采用RT-PCR定量检测比较miRNA-21的相对表达情况,监测比较6例LSCC患者手术前和手术后6月的miRNA-21的变化。
结果喉鳞状细胞癌患者的唾液中miRNA-21的表达水平较健康对照组显著上调(P=0.036)。ROC曲线分析miRNA-21对LSCC的诊断价值发现,唾液中miRNA-21在ROC曲线下面积(AUC)为0.792(95%CI: 0.5353~0.885, P=0.036)。手术后6月的miRNA-21相对表达水平较手术前明显下降(P=0.041)。
结论喉鳞状细胞癌患者唾液中的miRNA-21存在高表达,将来可能有望成为早期诊断喉鳞状细胞癌的指标。
Abstract:ObjectiveTo explore the diagnostic value of salivary miR-21 for patients with laryngeal squamous cell carcinoma(LSCC).
MethodsWe collected saliva samples from 20 LSCC patients, 15 vocal cord polyp patients and 15 healthy controls were collected. Real-time quantitative reverse transcription PCR was applied to compare the relative expression of miR-21. The changes of miRNA-21 in six LSCC patients before and six months after operation was compared through monitoring analysis.
ResultsThe expression of salivary miRNA-21 in LSCC patients was significantly higher than that in healthy control group (P=0.036). The diagnostic value of miRNA-21 for LSCC by ROC curve analysis showed that the area under the curve (AUC) of the miRNA-21 in saliva was 0.792 (95%CI: 0.5353-0.885, P=0.036). The relative expression level of miRNA-21 was significantly decreased in six LSCC patients beforeand six months after operation(P=0.041).
ConclusionmiRNA-21 is highly expressed in the saliva of patients with laryngeal squamous cell carcinoma, and it could be used as an indicator of early diagnosis of laryngeal squamous cell carcinoma in future.
-
Key words:
- Laryngeal squamous cell carcinoma /
- Saliva /
- miRNA-21 /
- Diagnosis /
- Noninvasive
-
0 引言
晚期肺癌患者5年生存率仅5%,但若能在早期诊断并治疗,5年存活率可达57%[1-2]。因此,结合肺癌危险因素及其临床特征建立肺癌危险度预测模型对早期诊断及治疗肺癌,提高患者5年生存率具有重要意义。近年来,数据挖掘技术已经在生物医学预测模型中得到广泛应用。人工神经网络(artificial neural network, ANN)具有良好的鲁棒性、高容错性和较强的归纳能力,而C5.0算法作为决策树模型的常用算法之一,适用于分类变量和大数据集[3]。因此,该研究拟将肺癌常见危险因素与临床症状相结合,采用C5.0决策树与ANN构建肺癌危险度预测模型,并评价两模型的性能优劣,为肺癌早期筛查及临床辅助诊断提供依据和工具。
1 资料与方法
1.1 研究对象
收集2014年10月至2016年10月郑州大学第一附属医院的住院患者样本420例,其中包括肺癌患者180例,肺良性疾病患者240例。入组患者均知情同意并自愿参加。
入选标准:肺癌组:以《中华医学会肺癌临床诊疗指南(2019版)》为标准[4],经病理学或细胞学被证实为原发性肺癌患者;肺良性疾病组:由郑州大学第一附属医院诊断为肺部良性病变患者。排除标准:(1)入组前曾接受放化疗、药物治疗或手术治疗者;(2)主要脏器功能衰竭患者;(3)合并肺或其他恶性肿瘤患者;(4)妊娠或哺乳期患者;(5)不同意入组者。
1.2 观察指标
调查人员经过统一培训后,通过问卷访谈形式对患者进行调查询问获得数据资料,包括流行病学资料(疾病诊断、年龄、吸烟史、饮酒史、粉尘接触史、输血史、肺癌家族史、炎性反应史)和临床症状(咳嗽、咳痰、痰中带血、咯血、胸闷、胸痛、心慌、乏力、畏寒、发热出汗)。其中年龄根据《中华医学会肺癌临床诊疗指南(2019版)》以45岁为界限进行分组。总数据集包括18个定性变量(17个预测变量和1个因变量),因变量为诊断结果,各变量赋值见表 1。
表 1 肺癌危险度评价研究的变量赋值说明Table 1 Instructions of variables assignment in risk assessment studies of lung cancer1.3 统计学方法
应用SPSS21.0对420例样本数据进行统计分析,对所有变量进行描述性统计分析,采用χ2检验进行差异分析,检验水准α=0.05。
使用SPSS Clementine 12.0软件建立两种数据挖掘预测模型,使用MedCalc15.10软件绘制受试者工作特征(receiver operating characteristic curve, ROC)曲线。将两组样本均按照7:3随机分为两部分,其中训练数据集包含302例样本,测试数据集包含118例样本。C5.0决策树模型和ANN模型的比较采用敏感度、特异性、准确度、阳性预测值(positive predictive values, PPV)、阴性预测值(positive and negative predictive values, NPV)、约登指数和ROC曲线下面积(area under ROC curve, AUC)进行评估。
2 结果
2.1 基本情况
420例患者中,肺癌患者180例(42.9%),肺良性疾病患者240例(57.1%)。肺良性疾病患者中小于45岁者(63.8%)明显多于肺癌组(36.2%),差异有统计学意义(P=0.004)。肺癌患者中吸烟、饮酒者(57.1%、55.7%)均多于肺良性疾病患者(42.9%、44.3%)。肺癌组有粉尘接触史或肺癌家族史者分别仅2例。肺良性疾病组中有6例有输血史,而肺癌组中没有。10个临床症状变量中,肺癌组中痰中带血(64.0%)及胸痛(55.3%)的比例高于肺良性疾病患者(36.0%、44.7%)。两组样本的基线特征分析结果见表 2。
表 2 肺癌组和肺良性疾病组的样本基线特征及卡方检验(n(%))Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))2.2 输入变量的选择
两组间年龄(P=0.004)、吸烟史(P < 0.001)、饮酒史(P=0.028)、输血史(P=0.033)、炎症史(P < 0.001)、痰中带血(P=0.001)、胸痛(P=0.006)、乏力(P=0.049)和发热出汗(P < 0.001)9个因素差异有统计学意义,见表 2。此外由于既往研究提示粉尘接触史、癌症家族史、咳痰、咳嗽和咯血为肺癌的影响因素[4-5],该研究入选这14个因素作为输入变量建立风险预测模型。
2.3 危险度预测模型的构建与比较
2.3.1 两种风险预测模型的建立
经过训练,C5.0决策树风险预测模型的参数设置如下:Use partitioned data: no, Output type: Decision Tree, Group symbolic: no, Use boosting: yes, Cross-validate: no, Mode: expert, Pruning severity: 75, Minimum records per child brunch: 2, Use global pruning: yes, Window attributes: no, Use misclassification costs: no。ANN风险预测模型的参数设置如下:Use partitioned data: yes, Method: prune, Prevent overtraining sample: 50%, Set random seed: 321, Stop on: time (mins) 1 min, Optimize: memory, Continue training existing model: no; Use binary set encoding: yes, Show feedback graph: yes, Model selection: Use best network, Mode: expert。
2.3.2 两种危险度预测模型的性能比较
两种模型训练集和测试集样本的分类结果见表 3。在训练集与测试集样本中C5.0模型的准确率分别为68.54%和61.0%,ANN模型的准确率分别为69.5%和65.3%。可以看出ANN模型在训练集和预测集中准确度均高于C5.0模型。根据两个数据挖掘模型的ROC曲线中各危险因素对应的AUC评估各自变量对模型的影响大小,重要性前10位影响因素排序见表 4。由表可知,对模型影响最大的三个影响因素在ANN模型中分别是吸烟史、痰中带血与胸痛;而在C5.0模型中分别是吸烟史、胸痛与年龄。在ANN模型和C5.0模型中吸烟均为最主要的影响因素。
表 3 C5.0决策树和ANN模型的训练集和测试集样本分类结果Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models表 4 C5.0决策树模型和ANN模型中纳入变量的重要性排序Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model两种数据挖掘模型对肺癌综合预测性能的相关指标包括准确度、约登指数、敏感度、特异性、预测值和AUC。其中C5.0决策树模型的特异性和NPV高于ANN模型,ANN模型预测模型的准确度、约登指数、敏感度、PPV和AUC均高于C5.0决策树模型,见表 5。测试集中两种数据挖掘模型的ROC曲线可发现ANN模型预测性能优于C5.0决策树模型,见图 1。
表 5 两种数据挖掘模型的测试集结果比较Table 5 Comparison of testing set results between two data mining models3 讨论
当前,肺癌的高发病率和高病死率已经造成巨大的公共卫生负担,利用肺癌的危险因素来预测肺癌危险度,对于肺癌的预防和早期筛查具有重要意义。本研究分别建立了C5.0决策树与ANN肺癌风险预测模型,比较发现,ANN模型预测性能优于C5.0决策树模型。
本研究按照0.05的显著性水平,单因素检验发现有9个变量与肺癌患病率呈相关关系:5个流行病学变量中年龄、吸烟史、饮酒史、炎性反应史与肺癌患病率呈正相关,输血史与肺癌患病率呈负相关;4个临床症状中痰中带血、胸痛与肺癌患病率正相关,乏力和发热出汗与肺癌患病率存在负相关关系。同时,本研究的两种数据挖掘模型中吸烟均为关键影响变量。既往研究表明肺癌常见于70岁以上人群且发病率和死亡率随年龄增加而升高,同时吸烟、饮酒以及慢性炎性反应均为肺癌的危险因素之一[5],而围手术期输血对肺癌预后和复发的影响当前研究仍不一致[6],这与本研究结果基本相符。有研究显示,遗传因素与职业性粉尘接触也是肺癌的危险因素之一[7],这与本研究结果不符。
决策树模型是一种由层次分类逐步构建的贪心算法,作为一种新兴的数据挖掘技术,它可以经过多次迭代演算后得到最优化的算法模型,具有较高的数据分析能力。相关研究已经将C5.0决策树模型用于利用基因表达数据和职业危险因素预测肺癌风险的模型建立[8-10]。C5.0算法作为决策树模型的常用算法之一,适用于分类变量和大数据集,已经在生物医学预测模型的建立中得到广泛应用。另外一些研究将C5.0决策树模型与其他多种研究进行比较,建立疾病风险预测模型,均得到C5.0决策树模型的预测性能最优的结果[11-12]。
ANN模型的数学结构模拟人类大脑的生物神经元学习动态,对输入变量经过训练产生一个加权组合的输出结果。ANN相比于一般统计学方法优势显著,具有良好的鲁棒性、高容错性和较强的归纳能力,可以快速识别线性模型、受阈值影响的非线性模型、分类模型、逐步线性模型,甚至偶然影响,故其可以确定潜在的预后影响因素[13]。已有研究将ANN应用于肺癌风险评估相关模型的构建[3, 14]。该研究结果同样显示ANN模型在准确度、敏感度、约登指数、阳性预测值、ROC曲线下面积均优于决策树模型[15-16],这与相关研究结果一致。因此,本研究建议利用ANN模型结合人群的流行病学资料和临床症状判别肺癌高危人群,为肺癌的早期诊断早期治疗提供参考依据[17]。
本研究仍然存在一定的局限性:一方面,纳入的样本量较少,如果能收集更大样本量和多中心样本资料,样本数据将具有更好的代表性,模型将具有更优异的性能;另一方面,纳入的变量种类有限,而与肺癌相关的危险因素众多且对肺癌存在交互作用,如果能纳入环境因素、职业因素、遗传因素、行为生活方式等多种研究变量,模型将更为准确可靠。因此,我们建议未来的研究应涵盖更大的样本量,纳入更为丰富的研究变量进行综合分析,同时将ANN模型应用于肺癌高危人群中筛查验证。
-
表 1 LSCC患者唾液中miRNA-21的相对表达水平与临床参数的相关性
Table 1 Correlation of relative expression of miRNA-21 in saliva with clinical parameters of LSCC patients
-
[1] Landry D, Glastonbury CM. Squamous Cell Carcinoma of the Upper Aerodigestive Tract: A Review[J]. Radiol Clin North Am, 2015, 53(1): 81-97. doi: 10.1016/j.rcl.2014.09.013
[2] Macneil SD, Liu K, Shariff SZ, et al. Secular trends in the survival of patients with laryngeal carcinoma, 1995–2007[J]. Curr Oncol, 2015, 22(2): e85-99. doi: 10.3747/co.22.2361
[3] Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function[J]. Cell, 2004, 116(2): 281-97. doi: 10.1016/S0092-8674(04)00045-5
[4] Tong AW, Nemunaitis J. Modulation of miRNA activity in human cancer: a new paradigm for cancer gene therapy?[J]. Cancer Gene Ther, 2008, 15(6): 341-55. doi: 10.1038/cgt.2008.8
[5] Cao P, Liang ZM, Jin Z, et al. Comprehensive expression profiling of microRNAs in laryngeal squamous cell carcinoma[J]. Head Neck, 2013, 35(5): 720-8. doi: 10.1002/hed.v35.5
[6] Wang Y, Chen M, Tao Z, et al. Identification of predictive biomarkers for early diagnosis of larynx carcinoma based on microRNA expression data[J]. Cancer Genet, 2013, 206(9-10): 340-6. doi: 10.1016/j.cancergen.2013.09.005
[7] Ayaz L, Görür A, Yaroǧlu HY, et al. Differential expression of microRNAs in plasma of patients with laryngeal squamous cell carcinoma: potential early-detection markers for laryngeal squamous cell carcinoma[J]. J Cancer Res Clin Oncol, 2013, 139(9): 1499-506. doi: 10.1007/s00432-013-1469-2
[8] Wong DT. Salivary diagnostics[J]. Oper Dent, 2012, 37(6): 562-70. doi: 10.2341/12-143-BL
[9] Denny P, Hagen FK, Hardt M, et al. The Proteomes of Human Parotid an Submandib- ular/Sublingual Gland Salivas Collected as the Ductal Secretions[J]. J Proteome Res, 2008, 7(5): 1994-2006. doi: 10.1021/pr700764j
[10] Li Y, Zhou X, St John MA, et al. RNA profiling of cell-free saliva using microarray technology[J]. J Dent Res, 2004, 83(3):199-203. doi: 10.1177/154405910408300303
[11] Wei J, Xie G, Zhou Z, et al. Salivary metabolite signatures of oral cancer and leukoplakia[J]. Int J Cancer, 2011, 129(9): 2207-17. doi: 10.1002/ijc.v129.9
[12] Park NJ, Zhou H, Elashoff D, et al. Salivary microRNA: discovery, characterization, and clinical utility for oral cancer detection[J]. Clin Cancer Res, 2009, 15(17): 5473-7. doi: 10.1158/1078-0432.CCR-09-0736
[13] Cai EH, Gao YX, Wei ZZ, et al. Serum miR-21 expression in human esophageal squamous cell carcinomas[J]. Asian Pac J Cancer Prev, 2012, 13(4): 1563-7. doi: 10.7314/APJCP.2012.13.4.1563
[14] Han JG, Jiang YD, Zhang CH, et al. A novel panel of serum miR-21/miR-155/miR-365 as a potential diagnostic biomarker for breast cancer[J]. An Sur Treat Res, 2017, 92(2): 55-66. doi: 10.4174/astr.2017.92.2.55
[15] Correa-Gallego C, Maddalo D, Doussot A, et al. Circulating plasma levels of microrna-21 and microrna-221 are potential diagnostic markers for primary intrahepatic cholangiocarcinoma[J]. PLoS One, 2016, 11(9): e0163699. doi: 10.1371/journal.pone.0163699
[16] Livak KJ, Schmittgen TD. Analysis of relative gene expression data using real-time quantitative PCR and the 2(-Delta Delta C(T)) method[J]. Methods, 2001, 25(4): 402-8. doi: 10.1006/meth.2001.1262
[17] Zhang L, Farrell JJ, Zhou H, et al. Salivary Transcriptomic biomarkers for detection of resectable pancreatic cancer[J]. Gastroenterology, 2010, 138(3): 949-57. doi: 10.1053/j.gastro.2009.11.010
[18] Gursoy UK, Könönen E, Uitto VJ, et al. Salivary interleukin-1beta concentration and the presence of multiple pathogens in periodontitis[J]. J Clin Periodontol, 2009, 36(11): 922-7. doi: 10.1111/cpe.2009.36.issue-11
[19] Jyoti B, Devi P. Detection of human immunodeficiency virus using oral mucosal transudate by rapid test[J]. Indian J Sex Transm Dis, 2013, 34(2): 95-101. doi: 10.4103/0253-7184.120539
[20] Centers for Disease Control and Prevention (CDC). Approval of a new rapid test for HIV antibody[J]. MMWR Morb Mortal Wkly Rep, 2002, 51(46): 1051-2. https://www.ncbi.nlm.nih.gov/pubmed/12487529
[21] Salazar C, Nagadia R, Pandit P, et al. A novel saliva-based microRNA biomarker panel to detect head and neck cancers[J]. Cell Oncol(Dordr), 2014, 37(5): 331-8. doi: 10.1007/s13402-014-0188-2
[22] 叶敏华, 叶鹏辉, 张伟珠, 等.唾液与血浆微小RNA-21对早期食管癌的诊断价值[J].南方医科大学学报, 2014, 34(6): 885-9. http://www.cqvip.com/QK/91170A/201406/50044665.html Ye MH, Ye PH, Zhang WZ, et al. Diagnostic values of salivary versus and plasma microRNA-21 for early esophageal cancer[J]. Nan Fang Yi Ke Da Xue Xue Bao, 2014, 34(6): 885-9. http://www.cqvip.com/QK/91170A/201406/50044665.html
[23] Patel RS, Jakymiw A, Yao B, et al. High resolution of microRNA signatures in human whole saliva[J]. Arch Oral Biol, 2011, 56(12): 1506-13. doi: 10.1016/j.archoralbio.2011.05.015
[24] Wang J, Zhou Y, Lu J, et al. Combined detection of serum exosomal miR-21 and HOTAIR as diagnostic and prognostic biomarkers for laryngeal squamous cell carcinoma[J]. Medi Oncol, 2014, 31(9): 148. doi: 10.1007/s12032-014-0148-8
[25] Huang Y, Yang YB, Zhang XH, et al. MicroRNA-21 gene and cancer[J]. Medi Oncol, 2013, 30(1): 376. doi: 10.1007/s12032-012-0376-8
[26] Schwarzenbach H, Hoon DS, Pantel K. Cell-free nucleic acids as biomarkers in cancer patients[J]. Nat Rev Cancer, 2011, 11(6): 426-37. doi: 10.1038/nrc3066
-
期刊类型引用(1)
1. 黄普超,原慧洁,张桂芳. 基于数据挖掘技术的肺癌危险度预测模型的构建. 实用预防医学. 2022(11): 1390-1394 . 百度学术
其他类型引用(2)