「青莲聚焦」历“九”弥新——揭秘AI 在蛋白质组学是怎样的存在?

2023-8-28 11:19

前面我们通过对《核酸研究》web service专刊的AI相关文章介绍,大致了解了AI在生命科学各领域中的应用。本篇文章我们将介绍AI在蛋白质组学各领域中的应用。

1693192749599189.jpg

点击图片前情回顾

蛋白质组学重点的一个领域是以质谱技术为核心,进行蛋白质的鉴定和定量。串联质谱技术的发展,让我们得以从全局角度研究不同生物系统的蛋白表达和翻译后修饰。随着质谱技术的完善与成熟,产出的数据量也呈现高速增长。近几年,越来越多的临床上百例样本被用于蛋白质组的鉴定和定量,使得蛋白质组的数据解析问题日益凸显。因此,在原始数据处理、数据质量控制、蛋白质和肽段的鉴定和定量、翻译后修饰的监测和复杂多样的下游分析等环节需要更复杂的算法,将大量数据转化为有用的生物信息。同时,和临床数据相结合的蛋白质组数据的解析,也为我们解决临床问题提供了更多的可能,如何将复杂的蛋白质组数据和临床数据相结合进行深入的挖掘,也成为了当下重要的研究课题。

人工智能(artificial intelligence, AI)在近20年里发展异常迅速,在计算机视觉、语音识别、自然语言处理、生物信息学和医疗图像分析等领域取得优越表现。机器学习是现代人工智能的重要分支,如支持向量机和随机森林等算法常应用于生物数据的分析。作为机器学习的后起之秀,深度学习是以人工神经网络为基础的一类算法和架构。深度学习区别于其他算法的特点之一,是它能自动从数据中学习特征和规律,而不需要手动创建特征(handcrafted feature engineering),即科学家常常基于专业知识或经验进行重要特征的提取。

人工智能早已在生命科学领域被广泛应用。在蛋白质组领域,人工智能也逐渐渗透到了蛋白质组的基础鉴定、定量技术,以及质谱信息和临床研究相结合的数据挖掘中。以下我们从蛋白质组的技术,以及与临床相结合的数据挖掘进行介绍。

PART.1

蛋白质组技术相关的数据预测

蛋白质组技术相关的数据预测,包括了蛋白质组实验各个步骤的数据解析(主要包括保留时间的预测,以及串联谱图的鉴定等),以及翻译后修饰和空间结构的预测等。

保留时间的预测常规的蛋白质组学分析流程通常包括样品前处理、色谱分离、质谱检测和数据分析。其中,色谱分离是液相色谱-质谱联用(LC-MS)蛋白质组学分析中的关键环节。保留时间(retention time)是指肽段从色谱柱洗脱(elute)的时间点。准确地预测保留时间有助于1)提升搜库鉴定肽段的灵敏度,2)作为肽段鉴定的质量评估指标,3)构建DIA数据分析的谱图库和4)推进靶向蛋白质组学实验。

可用于预测保留时间的模型主要包括以下几种:

1693192749343966.png

质谱串联谱图的预测

每次质谱实验可获得数十万张质谱谱图(MS/MS spectrum),每张谱图包含不同片段离子的质荷比(m/z)和定量值信息,这些信息只要决定于几个关键因素:1)质谱仪类型和肽段碎裂方法(如CID、HCD或ETD)及参数设定(如归一化碰撞能量,NCE);2)肽段的序列和修饰;3)肽段的前体电荷态。尽管肽段碎裂的机理很复杂,尚未得到清楚的解释,但在实验中可重现,通常也是可预测的。

利用序列预测谱图的工具从方法上可分为两类:一类是假说驱动的,如移动质子假说在串联质谱肽碎裂的研究中广泛被接受,MassAnalyzer就是其中之一;另一类是数据驱动的,一般采用深度学习或传统机器学习的算法。

目前可用于质谱串联谱图预测的方法有以下:

1693192750975077.png

肽段从头测序

肽段从头测序(de novo peptide sequencing)是深度学习在蛋白质组学中的一项突破性应用。从头测序在不依赖蛋白质数据库的情况下直接从谱图推断出序列。

通常,将谱图看作图片,序列看作图片的文字描述,以编码器-解码器架构(Encoder-decoder architecture)设计深度学习模型。典型的例子是DeepNovo和DeepNovo-DIA。

1693192750906165.png

翻译后修饰的预测

目前已经确定的翻译后修饰(post-translational modification, PTM)方式超过400种, 常见修饰过程有磷酸化、泛素化、甲基化、乙酰化、糖基化、SUMO化、亚硝基化、氧化等。PTM增加了细胞蛋白质组复杂性和蛋白质功能多样性,在很多生物过程中扮演着重要角色。机器学习因为其灵活性和实际表现较好,很早就应用于PTM预测。

深度学习在PTM预测上的应用可分为两类:1)预测某种PTM(如磷酸化)的修饰位点,即某位点是否会发生修饰;2)酶特异性预测,即某位点是否会被特定酶(如某一种磷酸化激酶)修饰。

用于PTM预测的深度学习模型包括:

1693192750103135.png

蛋白质结构预测

蛋白质结构一定程度上决定了蛋白质功能。在蛋白质设计和药物筛选等研究中,利用氨基酸序列预测蛋白质空间结构起重要作用。二级结构是指规则的局部结构模式,通常包含为三种类型,即alpha螺旋、β折叠和β转角。二级结构预测可以辅助同源序列比对。蛋白质通过卷曲折叠会构成三维结构,蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。AlphaFold是Google旗下DeepMind开发的一款人工智能程序,它采用深度学习算法通过蛋白质序列来预测蛋白质结构,是目前为止秀的蛋白质结构预测程序。

常用蛋白质结构预测方法的工作流程和网络架构:

1693192751126538.png

PART.2

蛋白质组与临床数据结合的数据挖掘

蛋白质组数据只有一小部分用于当前经典的蛋白质鉴定和定量,利用AI技术的特性,结合临床数据与复杂的质谱数据进行深入的挖掘,有望能获得更多的信息。目前已经有不少工作在这领域进行了尝试,我们介绍两个代表性的案例,一个是基于MALDI-TOF的数据进行临床样本的分类,另外一个是对LC-MS的数据分析进行癌和癌旁的分类。

案例一:基于机器学习的COVID-19检测

Ling Yan等开发了一种基于MALDI-TOF MS的高通量血清肽组分析方法,用于有效检测 COVID-19[32]。分析了146名COVID-19患者和152名对照病例(包括 73 名具有相似临床症状的非COVID-19患者、33名结核病患者和46名健康人)的血清样本。在 MS 数据处理和特征选择之后,使用八种机器学习方法构建分类模型。具有25个特征峰的逻辑回归机器学习模型在检测COVID-19时实现了准确度(百分之99),百分之98的灵敏度和 百分之100的特异性。这一结果证明了在大量人群中筛查、常规监测和诊断COVID-19的方法的巨大潜力。

1693192751656045.png

案例二:基于深度学习的肿瘤分类Hao Dong等采用卷积神经网络(CNN)对公共数据库的肿瘤数据建模和分类,提出了用深度学习处理MS原始数据的新方法[33]。数据集包括HCC、DGC和DGC组织的癌和癌旁数据各110对、84对和58对。利用SVM预筛选出2048个特征峰,训练得到含3个卷积层的深度学习分类器。在以84对-DGC为训练集和58对-DGC为测试集的测试中,CNN深度学习模型达到百分之90的准确率。在与其他五个机器学习模型的比较中,CNN深度学习表现更好。在与以MaxQuant为例的常规分析比较中,使用XIC数据的CNN分类器对癌和癌旁之间的显著差异更加敏感。

1693192751311717.png

两篇文章的研究思路是类似的。由于特征峰过多,首先要做的是降维,即筛选数据特征。再构建恰当的数据集用于模型训练,获得AI分类器。基于交叉检验对多个模型做比较,得到优分类模型和方法。

两个案例也存在不同点。案例一基于机器学习方法,采用三种算法筛选特征,再求并集,只选取了排名靠前的25个特征;而案例二基于CNN深度学习方法,采用一种算法和其他辅助条件筛选2048个特征,数据空间的维度更高。

总结

如上所述,AI在蛋白质组学的很多研究领域表现突出,并且仍有巨大的潜力,甚至在不久的将来可能改变我们分析蛋白质组学数据的方式。不容忽视的是,在多数蛋白质组学研究场景中AI因各种限制而无的放矢;同时,尽管具有优越的性能,但AI模型通常被认为是黑盒子,其可解释性仍然是一个巨大的挑战。目前,正在开发不同的算法和工具来应对这一挑战,如Captum等,但鲜有应用于蛋白质组学研究的报道。


领域:多组学/蛋白质组/代谢组/脂质组