「青莲百奥新视角」从文献历史看Cell肺腺癌候选靶标

2023-8-28 12:17

中科学上海药物研究所谭敏佳研究员团队、蛋白质科学中心(北京)贺福初院士团队、中国医学科学院肿瘤医院程书钧院士团队,上海交通大学李婧教授等团队合作,于2020年7月9日,将成果发表在Cell:Integrative Proteomic Characterization of Human Lung Adenocarcinoma。该研究首次使用103例中国患者样本对肺腺癌开展了全景式多组学研究,利用蛋白质组磷酸化蛋白质组、转录组和全外显子组测序技术,结合临床数据,深度构建了以蛋白质组为主的多组学肺腺癌分子图谱全景。

1606983017112059.jpg

糖基化蛋白质组学

202007131054155515.png

该文基于蛋白质组学数据的LUAD(Lung adenocarcinoma)分型揭示了三种亚型(S-I、S-II 和S-III)与不同的临床和分子特征有关,并得到了数十个潜在的预后生物标志物和药物靶标(图1)。其中,潜在预后标志物有两个(GAPDH和TPI1基因)也同样是可能的药靶。此外,还有4个基因(CARS, CTPS1, GMPS和MCM2)同时出现在潜在药靶和EGFR药靶中。

1606983037171494.jpg

202007131054535680.png

图1:候选预后生物标志物和三类药靶相关蛋白的重叠关系图

这些基因在文献中和肺腺癌(Lung adenocarcinoma)的关键词共同出现的文章数目要数EGFR很多,占了总文章数的90%以上(图2)。而文章重点讨论的HSP90AB1基因(证明为LUAD在血浆蛋白中潜在的预后生物标志物),我们只查到一篇文献报道可能和肺腺癌有关。该文为中国医学科学院肿瘤医院的肖汀教授(本文通讯作者之一)在2016年发表在中文期刊《中国肺癌杂志》,题目是“Hsp90AB1在非小细胞肺癌中高表达并且与肺腺癌患者不良预后相关”。文章中提到的另外两个和预后显著相关的基因,GAPDH和IMPDH2,分别检索到了16篇和0篇和肺腺癌相关的文章。这结果表明,文章中重点关注的和预后相关的三个分子,和肺腺癌相关的文献报道不多。

1606983049175023.jpg

图2. 各基因和肺腺癌关联文献数目的词频图

这些基因列表除了报道偏少外,所发表杂志的影响因子也大部分都不高。除了EGFR外,很少有超过10分的杂志有报道过这些基因和肺腺癌有关(图3)。因此,本文所列出的潜在候选预后生物标志物和药物靶标,可能具有较大的深入研究空间,并具有在杂志上发表的潜力。

1606983063880520.jpg

图3:各基因和肺腺癌共出现文献的影响因子密度图(基因按和肺腺癌关联文献数目排序)

查看这些基因在肺腺癌相关文献中共出现的情况,我们发现,EGFR,MMP9以及EIF2AK3这三个基因之间有的共出现频次,构成了一个较明显的子网络(图4)。NAPDH也和这三个基因构成子网络有较明显的关联,且和TPI1有较明显的关联(这两个基因同时是潜在预后标志物和药物靶标)。

1606983080121387.jpg

图4. 候选标志物或靶标在肺腺癌相关文献的共同出现的文章数网络图

(只展示了至少有10篇共出现文章的结果,连线粗细表示共出现文章的数目)

对某些基因和癌症相关研究的关注可能会随时间发展有一定的变化。为了考察可能的关注度变化,我们分析了不同年份发表的EGFR和肺腺癌相关文章的杂志影响因子进行了分析。分析结果显示,在2000年以前,EGFR和肺腺癌相关的文章相对非常少,在2000-2010年间,文章以IF 8左右多,20分以上也有部分;而在近10年,文章影响因子向两极拉伸,低影响因子明显增加,有部分文章发表在影响因子期刊中(图5A)。而近十年的逐年的数据也表明,在2015年以前发表了不少文章,2017年是一个相对低谷期,近几年文章的影响因子又有所回升(图5B)。因此,EGFR和肺腺癌相关的研究已经很深入,但不排除还有部分能冲顶的文章出现。

A.

1606983094199591.jpg

202007131058519844.png

B.

1606983099151487.jpg

202007131059167558.png

图5:EGFR和肺腺癌关联文章在不同年份的影响因子分布图。

除了文章列出的潜在标志物和药靶外,部分其它基因也可能和EGFR在文献中高度关联,可能具有较强的功能相关性。我们对EGFR和肺腺癌同时出现的文章做了进一步扩展筛查,找出所有可能的相关基因出现的频次。结果发现,KRAS(GTPase KRas)基因出现的频次,ALK(ALK tyrosine kinase receptor)次之(图6)。出现频次高的基本上都是癌基因,说明在所发表的文献中,EGFR和癌症的关联研究占了绝大多数。对这整个关联基因的考察,无疑能给我们提供了已有EGFR相关研究的信息以及进一步研究可能的方向。

202007131059452939.png

1606983104476787.jpg

图6. EGFR和肺腺癌在文献中相关的基因(只列出了有10篇以上共有文章的基因)。

结论

近几年,在TCGA和CPTAC项目的引领下,国际上掀起了癌症多组学研究的热潮,海量的个体化癌症数据得以快速积累,多组学研究进入了个性化时代。海量数据的积累给数据分析带来了极大的机会和挑战,为建立更为精细的疾病模型,以及疾病治疗及药物开发提供方向。为了整合海量个体化癌症数据和海量文献数据的分析,青莲利用文献挖掘的手段,揭示了海量癌症数据发掘的潜在标志物和药靶在历史文献中的图景,为进一步选取特定基因进行深入研究提供了重要线索。


领域:多组学/蛋白质组/代谢组/脂质组