肿瘤防治研究  2015, Vol. 42 Issue (7): 656-661
本刊由国家卫生和计划生育委员会主管,湖北省卫生厅、中国抗癌协会、湖北省肿瘤医院主办。
0

文章信息

叶云,钟英英,孙宇飞,张倩. 2015.
YE Yun,.ZHONG Yingying,SUN Yufei,ZHANG QianC. 2015.
乳腺癌外周血中分子检测标记的筛选
Identification of Gene Signature in Peripheral Blood of Breast Cancer
肿瘤防治研究, 2015, 42(07): 656-661
Cancer Research on Prevention and Treatment, 2015, 42(07): 656-661
http://www.zlfzyj.com/CN/10.3971/j.issn.1000-8578.2015.07.004

文章历史

收稿日期:2014-10-20
修回日期:2015-01-27
乳腺癌外周血中分子检测标记的筛选
叶云, 钟英英, 孙宇飞, 张倩    
545006柳州,广西科技大学生物与化学工程学院
摘要目的 对乳腺癌患者和健康者血液样本的基因表达谱进行分析,从中发现检测乳腺癌的分子标记。方法 以公共数据库GEO中表达谱数据GSE11545作为训练集,利用BRB-ArrayTools软件提取乳腺癌/正常血液样本的差异表达基因作为候选基因,选取两组间差异水平小于0.001的基因,通过复合变量预测、对角线线性判别分析、最邻近算法和支持向量机四种不同的方法对验证集GSE27562中的样本进行分类预测,留一法交叉验证计算错误分类率,ROC曲线评估预测结果。结果 训练集中乳腺癌与正常血液样本的显著差异基因为61个,从中筛选出39个基因作为分类器,四种不同的方法对验证集进行的分类预测准确率都基本达到甚至超过80%,ROC曲线下面积达到0.925,表明分类预测效果良好。结论 基因芯片分析可以筛选出外周血中乳腺癌的分子标记,有望为乳腺癌的早期临床检测提供一种新的方法。
关键词乳腺癌     乳腺癌     基因表达谱    
Identification of Gene Signature in Peripheral Blood of Breast Cancer
YE Yun, ZHONG Yingying, SUN Yufei ZHANG Qian    
College of Biological and Chemical Engineering,Guangxi University of Science and Technology,Liuzhou 545006,China
AbstractObjective To find out molecular signature in breast cancer (BC) for early detection by analyzing the gene expression profile in the peripheral blood of BC and healthy samples.Methods GSE11545 from GEO database was taken as training cohort in this paper.Differentially expressed genes between BC and healthy samples were obtained by BRB-ArrayTools software.And these genes were used as candidate genes to predict classification in validation cohort GSE27562 by four methods including compound covariate predictor,diagonal linear discriminant analysis,3-nearest neighbors and support vector machine.Only genes significantly differed between the classes at 0.001 significance level were used for class prediction.Leave-oneout cross-validation method was used to compute mis-classification rate.Result of prediction was assessed with receiver operating characteristic (ROC) curve.Results Sixty-one differential genes were obtained from the training cohort.39-gene classifier was used to predict validation cohort.The accuracy rate of classification reached or exceeded 80% with four methods.Areas under ROC curve were 0.925.The methods showed satisfactory classification result.Conclusion Microarray analysis is an effective method in screening gene signature in the peripheral blood of BC.It may provide a new method for diagnosing breast cancer in early stage.
Key words: Breast cancer     Peripheral blood     Gene expression profile    
0 引言

乳腺癌是常见的女性恶性肿瘤,目前中国每年约有20余万女性罹患乳腺癌,发病率高于西方国家,并呈现出明显年轻化的趋势[1]。尽管很多乳腺癌患者临床诊断为早期,但依然有30%~40%的患者在治疗后发生了远处转移[2]。因此,有学者提出作为一种全身性疾病,乳腺癌在早期就可发生血行转移[3]。虽然目前乳腺癌的检测手段和技术已有较大提高[4, 5],然而现有的常规检查手段仍然难以发现是否罹患乳腺癌。因此,如果能在外周血中发现一些乳腺癌相关的分子标记,便可以在早期诊断中尽早发现乳腺癌,及时选择合理治疗方案,从而提高生存率。

1 材料与方法 1.1 基因表达谱数据

本研究采用的基因芯片表达谱数据来自美国国立生物技术信息中心(NCBI)的公共数据库GEO (gene expression omnibus),编号为GSE11545(芯片平台为ABI Human Genome Survey Microarray Version 2)和GSE27562(芯片平台为Affymetrix Human Genome U133 Plus 2.0 Array)。选取GSE11545中的乳腺癌血液(n=10)和健康血液(n=10)样本,以及GSE27562中的乳腺癌血液(n=51)和健康血液(n=31)样本进行后续分析。以GSE11545作为训练集提取相关候选基因模型,GSE27562作为验证集来预测基因模型的准确性。

1.2 特征基因的筛选

用BRB-ArrayTools (Version4.3.2)软件包来筛选GSE11545中健康/乳腺癌血液样本的差异表达基因。为了获得质量可靠的信号点,采用倍值过滤和表达水平过滤等方法进行初步质量控制,按以下标准过滤掉部分探针数据:(1)荧光信号强度小于10以及spot flag为0的数据;(2)两类样本的基因中位数值变化小于1.5倍且变化小于20%的样本。然后对这些基因进行随机变量模型的两样本非配对样本t检验,筛选健康/乳腺癌血液中的差异表达基因,差异标准为P < 0.001,10 000次随机,假阳性发现率(false discovery rate,FDR) < 0.01。

1.3 样本验证及预测

以上述得到的差异表达基因中两组间表达差异P < 0.001的基因作为预测模型,对GSE27562的82个血液样本进行分类预测,找到最优的标记基因。使用复合变量预测(compound covariate predictor,CCP)、对角线线性判别分析(diagonal linear discriminant analysis,DLDA)、最邻近算法(3-Nearest Neighbors,3-NN)和支持向量机(support vector machine,SVM)四种不同的方法进行预测,留一法交叉验证(leave-one-out cross-validation,LOOCV)计算错误分类率。为了准确评价预测模型的效果,计算出各分类方法的敏感度(sensitivity)、特异性(specificity)、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV),并作出交叉验证的受试者工作特征(receiver operating characteristic,ROC)曲线。采用敏感度、特异性、PPV、NPV和ROC曲线下面积(area under the curve,AUC)等指标对预测结果进行综合评价。

1.4 基因功能注释及相关通路分析

利用在线分析工具GATHER (http://gather.genome.duke.edu/)对分类模型的特征基因进行基因本体(gene ontology,GO)功能注释及京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路分析,探讨这些标记基因的相关生物学功能。

2 结果 2.1 分类特征基因的获得

经过对GSE11545基因芯片数据的初步质量控制,共有9 451个基因通过了滤过标准,以这些基因对健康/乳腺癌血液样本进行的非配对样本t检验,获得61个基因。去除功能未知的基因,以两组间表达差异P < 0.001的基因作为预测模型,最后共有39个基因用于分类预测。有28个在乳腺癌血液中表达上调,表达倍数变化大于3倍的基因共有7个;11个表达下调的基因中,表达倍数变化达到3倍以上的基因有6个,变化最大的为RPLP0,其在乳腺癌样本与健康对照中的表达量比为0.03,即在乳腺癌中下调达到36.17倍,为编码核糖体蛋白的基因,见表 1

表 1 用于分类预测的乳腺癌特征基因 Table 1 Breast cancer signature used to predict classification
2.2 不同方法的预测分类结果

本研究中以筛选得到的差异基因作为候选基因,保留功能已知的39个基因作为预测模型,采用四种不同的分类方法,从中筛选出特征基因作为预测模型,对未知样本(GSE27562)进行分类预测。CCP和DLDA法的ROC曲线下面积均为0.925,表明分类预测器的预测效果理想,见图 1。几种方法的预测准确率基本达到甚至超过80%,其中3-NN方法预测的准确率最高,分类准确率达到90%,而DLDA和CCP法的准确率也分别为84%和80%,准确率最低的SVM法也达到79%,接近80%。从表 2可以看出,3-NN法对两组样本的预测灵敏度和特异性都达到了0.9,DLDA的灵敏度和特异性也都超过了0.8,SVM对正常血液样本的预测敏感度稍差,仅有0.677。PPV表示A样本被预测为A组的准确率,NPV表示非A样本预测为非A的准确率。四种方法的预测结果中,3-NN的结果最为理想,对健康和肿瘤的预测PPV和NPV接近85%甚至达到93.9%,另外几种方法中,最低的也有72.7%,见表 2

图 1 DLDA和CCP法分类预测的ROC曲线 Figure 1 ROC curve of classification by DLDA and CCP method
表 2 不同分类方法的预测分类结果 Table 2 Prediction results different classification methods
2.3 基因功能注释及相互作用

分别对分类模型的特征基因进行功能注释和KEGG通路分析,发现在乳腺癌血液中表达上调的基因主要与JAK酪氨酸激酶信号转导子及转录活化子(JAK-STAT)通路、脂肪酸代谢、烟酸酯与烟酰胺代谢和嘧啶代谢等生物学功能相关,见表 3。表达下调的基因主要与细胞凋亡、促分裂素原活化蛋白激酶(mitogen-activated protein kinases,MAPK)信号通路、细胞间隙连接、Wnt信号通路、钙离子信号通路等生物学通路显著相关,见表 4

表 3 上调基因的KEGG通路分析 Table 3 KEGG pathway related to up-regulated genes
表 4 下调基因的KEGG通路分析 Table 4 KEGG pathway related to down-regulated genes
3 讨论

远处转移是导致乳腺癌治疗失败和乳腺癌患者死亡的主要原因。因此,乳腺癌的早期诊断,早期发现对乳腺癌预测复发转移、预后判断、临床治疗方案的制定都有非常重要的意义。由于肿瘤的发生、发展以及转移是一系列分子变化的过程,是许多癌基因表达失常或抑癌基因失活所致[6]。基因芯片技术可以大规模平行检测不同样本的基因表达变化,从基因组水平发现全部基因在不同生理状态下的差异表达情况。通过比较乳腺癌患者和健康人的血液样本的基因表达谱数据,发现其中的表达差异基因,应该可以为乳腺癌的早期检测和诊断提供新的靶点,而且外周血具有易获得、创伤小、可反复采集等特点,是临床上常规检测较为理想的标本来源。

目前,已经发现众多基因或其产物作为肿瘤标志物在肿瘤的检测过程中有重要意义,并逐渐在临床中广泛应用于肿瘤的诊断、疗效及预后判断等方面。用于乳腺癌诊断的特异标志物主要有糖类抗原CA153(carbohydrate antigen 153,CA153)、人表皮生长因子受体2(human epidermal growth factor receptor 2,HER-2)基因、癌胚抗原(carcinoembryonic antigene,CEA)、甲胎蛋白(alpha-fetoprotein,AFP)等[7, 8]。然而,这些标志物仍然存在特异性或敏感度不高的问题[9, 10]。为了更好判断预测方法的特异性和敏感度,本研究应用ROC曲线对乳腺癌血液表达谱数据样本进行分类预测,用曲线下面积评价ROC曲线的特性。曲线越接近左上角,AUC越大,诊断效果越可靠,AUC接近0.5时,无诊断意义;AUC < 0.7,表示诊断准确率较低;AUC在0.7~0.9,表示诊断准确性中等;AUC>0.9时,表示诊断有较高的准确性[11]。本研究中,采用CCP和DLDA两种不同方法的ROC曲线下面积均为0.925,表明分类预测器的预测效果理想。另外,本研究选用了两个独立的乳腺癌与健康样本外周血表达谱数据,其中一个数据集作为训练集,另外一个作为验证集。首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来作为评价分类器的性能指标。尽管训练集的样本数较小可能对模型的稳定性造成影响,但从结果看来,模型不管用来预测本身或者新的数据集都可以获得较高的预测准确率,充分说明模型具有较好的稳健性。已有不少研究通过不同平台的芯片整合得到较好的预测模型[12, 13],本研究采用了两个不同的芯片平台数据进行分析,采用完全独立的样本集进行验证,减少了样本预测所受到的干扰,能够得到较高的预测准确率,保证了预测的可行性。

本研究获得的候选基因中并没有已知的BRCA1/2等比较熟知的乳腺癌相关基因,这可能是因为BRCA1/2突变会导致乳腺癌发病风险的增加[14],而表达谱芯片主要关注的是不同样本基因表达高低,无法检测到基因是否发生突变。值得注意的是,在乳腺癌患者和健康对照者血液的差异基因中,还发现了有3个功能未知的基因变化倍数超过5倍,其中UniqueID为172785的基因在乳腺癌中表达下调5.25倍,116953下调9.6倍,23052下调11.39倍。由于无法对这些基因进行功能注释而难以做更深入的研究,因此并没有将其用于后续研究,但这些基因在乳腺癌的发生过程中可能也发挥着重要作用,值得进一步关注和探讨。

无限增殖、迁移性和失去接触抑制是癌细胞的基本特征。本研究中用于分类预测的特征基因与肿瘤的发生发展有着千丝万缕的联系。在乳腺癌血液中表达下调的基因与细胞凋亡、细胞缝隙连接等生物学功能相关,而表达上调的基因则与嘧啶、脂类等物质代谢密切相关,这些通路的改变与不死性、肿瘤细胞代谢旺盛的特征相吻合。同时,上调基因还与JAK-STAT信号转导通路相关,这条通路由多种细胞因子及受体激活,参与肿瘤细胞的增殖、分化、血管生成以及机体免疫调节等过程,该通路的表达异常对促进肿瘤的发生、发展起着重要作用[15]。而表达下调的MAPK通路和Wnt信号通路也与肿瘤的发生、侵袭和转移有着极其密切的关系,其中,MAPK通路在细胞生长中有正性和负性双重作用[16],而Wnt信号通路的失调与乳腺癌的发生发展密切相关[17]。对高通量基因芯片数据的分析获得乳腺癌外周血检测分子标记的相关候选基因,尽管得到的基因数仍然较多会增加临床应用的成本,在乳腺癌早期检测中的预测价值也还需通过大量的临床病例验证,但为乳腺癌的早期诊断和早期治疗提供了新的思路和理论依据。

参考文献
[1] Mo M, Liu GY, Lv LL, et al. Advances in breast cancer screening program[J]. Zhong Liu, 2012, 32(9): 748-54.[莫淼, 柳光宇, 吕力琅, 等. 乳腺癌筛查研究进展[J]. 肿瘤, 2012, 32(9): 748-54.]
[2] Bundred NJ. Prognostic and predictive factors in breast cancer[J]. Cancer Treat Rev, 2001, 27(3): 137-42.
[3] Fisher B. From Halsted to prevention and beyond: advances in the management of breast cancer during the twentieth century[J]. Eur J Cancer, 1999, 35(14): 1963-73.
[4] Ferlay J, Shin HR, Bray F, et al. Estimates of worldwide burden of cancer in 2008:GLOBOCAN 2008[J]. Int J Cancer, 2010, 127(12): 2893-917.
[5] Smetherman DH. Screening, imaging, and image-guided biopsy techniques for breast cancer[J]. Surg Clin North Am, 2013, 93(2): 309-27.
[6] Huang XQ, Zeng H. Correlation between gene expression profiles of adenocarcinoma of esophagus and Barrett's esophagus[J]. Zhong Liu Fang Zhi Yan Jiu, 2009, 36(8): 639-42.[黄绪群, 曾辉. 食管腺癌与Barrett’s食管基因表达谱的研究[J]. 肿瘤防治研究, 2009, 36(8): 639-42.]
[7] Kuasela P, Haglund C, Ruberts PJ. Comparison of a new tumour marker CA242 with CA19-9, CA50 and carcinoembryonic antigen (CEA) in digestive tract disease[J]. Br J Cancer, 1991, 63 (4): 636-40.
[8] Chinese Society of Laboratory Medicine, National Center for Clinical Laboratories, Editorial Committee of Chinese Journal of Laboratory Medicine. Advice of tumor markers in clinical application[J]. Zhonghua Jian Yan Yi Xue Za Zhi, 2012, 35(2): 103-16.[中华医学会检验分会, 卫生部临床检验中心, 中华检 验医学杂志编辑委员会.肿瘤标志物的临床应用建议[J]. 中华 检验医学杂志, 2012, 35(2): 103-16.]
[9] Sha L, Cao Y, Shi L. Usefulness of tumor markers CA153, CA125, CEA and AFP in early diagnosis of breast tumor by ROC curve[J]. Guo Ji Jian Yan Yi Xue Za Zhi, 2007, 28(11): 1039-40.[沙玲, 曹 研, 施莉. 应用ROC曲线对肿瘤标志物CA153、CA125、CEA 和AFP在乳腺肿瘤早期诊断中的应用价值评价[J]. 国际检验医 学杂志, 2007, 28(11): 1039-40.]
[10] Zhang H, Xiang MJ, Mao SL, et al. The clinical value of the combined measurement of three serum tumor markers in breast cancer[J]. Zhongguo Shi Yan Zhen Duan Xue, 2011, 15(1): 96-8.[张华, 项明洁, 毛顺露, 等. 三项肿瘤标志物联合检测在乳腺癌 诊断中的价值[J]. 中国实验诊断学, 2011, 15(1): 96-8.]
[11] Shen Q, Song GH, Zhang JX, et al. Comprehensive evaluation of the diagnostic value of contrast-enhanced sonography for breast cancer by ROC curve and logistic regression[J]. Shi Yong Yi Xue Za Zhi, 2009, 25(7): 1058-60.[沈嫱, 宋光辉, 张建兴, 等. Logistic回归及ROC曲线综合评价超声造影对乳腺癌的诊断[J]. 实用医学杂志, 2009, 25(7): 1058-60.]
[12] Karn T, Metzler D, Ruckhäberle E, et al. Data-driven derivation of cutoffs from a pool of 3, 030 Affymetrix arrays to stratify distinct clinical types of breast cancer[J]. Breast Cancer Res Treat, 2010, 120(3): 567-79.
[13] Rody A, Karn T, Ruckhäberle E, et al. Gene expression of topoisomerase Ⅱ alpha (TOP2A) by microarray analysis is highly prognostic in estrogen receptor (ER) positive breast cancer[J]. Breast Cancer Res Treat, 2009, 113(3): 457-66.
[14] Tilanus-Linthorst M, Verhoog L, Obdeijn IM, et al. A BRCA1/2 mutation, high breast density and prominent pushing margins of a tumor independently contribute to a frequent false-negative mammography[J]. Int J Cancer, 2002, 102(1): 91-5.
[15] Hong X, Zhang YQ. Progress on JAK-STAT signaling pathway in cancer research[J]. Ji Chu Yi Xue Yu Lin Chuang, 2011, 31(4): 463-6.[洪璇, 张艳桥. JAK-STAT信号传导通路在肿瘤中的进 展[J]. 基础医学与临床, 2011, 31(4): 463-6.]
[16] Zeng L. Progress on MARK signaling pathway in invasion and metastasis of tumor[J]. Zhong Liu Fang Zhi Yan Jiu, 2002, 29(5): 914-6.[曾亮. MAPK信号通路与肿瘤侵袭和转移研究进展[J]. 肿瘤防治研究, 2002, 29(5): 914-6.]
[17] Xie BC, Li GL. Wnt gene/Wnt signaling pathway in breast cancer[J]. Zhongguo Sheng Wu Hua Xue Yu Fen Zi Sheng Wu Xue Bao, 2011, 27(2): 125-9.[谢碧琛, 李国利. Wnt基因/Wnt 通路与乳腺癌[J]. 中国生物化学与分子生物学报, 2011, 27(2): 125-9.]