「青莲百奥干货」管窥人工智能在生命科学中的应用

2023-8-28 11:24

智力通常被认为是收集知识和推理知识以解决复杂问题的能力,对于人工智能来说,智能=感知+分析+反应。尽管它十分依赖计算,而不同于计算机科学的是,它强调感知、推理和行动的重要性。人工智能目的就是让机器能够像人一样思考,让机器拥有智能。时至今日,人工智能的内涵已经大大扩展,成为一门交叉学科。

人工智能在理解和执行智能任务方面发挥着重要作用,例如推理、学习新技能以及适应新情况和问题。人工智能的洞察力令人难以置信,它更持久、成本更低、熟练度易于训练和传播、可以比人类更快更好地执行某些任务。

1693193041249980.jpg

在科学领域,人工智能已经对许多领域产生了重大影响,其中包括图像分析或自然语言处理,并且正在扩展到信息学以外的不同领域,包括生命科学和生物医学科学。值得注意的是,人工智能并不是一门新学科,在 1956 年约翰.麦卡锡就率先提出了人工智能的概念,从那时起,人工智能作为计算机科学的一部分发展起来。它的子学科之一是机器学习 (ML),它是通过分析输入数据,然后根据输出反复优化模型的过程,在自然科学中至少有三十年的应用历史。机器学习的一种变体称为深度学习 (DL),是一种基于机器学习的方法,利用类似于生物神经网络的多层神经网络架构,能够分析各种领域爆炸式增长的“大数据”。ML 和 DL 目前在生命科学领域因从数据中提取知识和进行各种预测受到广泛关注。人工智能在包括疾病诊断与鉴定、个性化医疗、药物发现和制造和临床试验在内的生命科学领域得到持续的发展和应用。

从NAR的web server专刊管窥生命科学研究中的人工智能

2021年核酸研究(Nucleic Acids Research)Web Server专刊凸显了人工智能(AI)在生命组学的应用,相关文章占超过两成(共19篇)。应用范围也很广泛,其中以结构生物学(7篇)和生命组学(7篇)为主(「青莲快讯」2021年核酸研究Web Server专刊总揽——点击查看详情),在功能分析、基因工程、药物研究等方面也都有所涉及。多种AI算法得到合理的应用,都在作者们的精心调教下展示出巨大的能量。

接下来请跟着小编一起看看生物学研究经常会涉及到的web服务网站,包括了理化性质预测,蛋白质功能预测,富集分析,疾病与基因关联,文献推荐这五个生物学研究非常重要研究领域。

IPC 2.0:利用深度学习预测等电点和pKa解离常数

网址:http://www.ipc2-isoelectric-point.org/

等电点是指一个特定的分子由于正负电荷的平衡而呈电中性的pH值。在蛋白质和肽中,这取决于七个氨基酸的带电基团和多肽末端的NH+和COO-基团的解离常数(pKa)。有关等电点和pKa的信息被广泛用于二维凝胶电泳(2D-PAGE)、毛细管等电聚焦(cIEF)、结晶和质谱分析。因此,对等电点和pKa值的预测对生物学研究具有非常重要的意义。

经典的等电点预测是采用pKa值进行简单的计算,IPC 2.0根据序列特征预测pKa值,并采用机器学习的方法准确预测等电点,是一个使用深度学习和支持向量回归模型混合预测等电点和pKa值的网络服务器。用户可以输入蛋白质序列或多肽序列进行预测,得到等电点预测的散点图。

1693193042151109.png

DeepGOWeb:基于1D-CNN的蛋白质功能预测

DeepGOWeb是基于2020年发表在Bioinformatics上的DeepGOPlus,并做成了一个网页服务。其核心方法是将深度学习和已知功能蛋白的序列相似性结合起来,并确保预测的蛋白功能和Gene Ontology系统相容。采用CAFA3进行评估,该方法表现非常突出。

DeepGOWeb的主要功能基于一维卷积神经网络(1D-CNN)实现,模型的输入为氨基酸序列,先采用One Hot法进行编码,转化为可计算的数组,再经过卷积和池化处理,接着通过全连接层实现分类,输出单一类别。

DeepGOWeb页面上可以直接输入蛋白质序列,在结果页面中会列出和提交序列相似的蛋白质及其打分,以及预测得到的GO注释。

该网站可以对任意已知或未知蛋白质序列进行GO功能的预测,如果研究过程中想了解某些蛋白的功能,该网站无疑是个很好的选择。

1693193042485218.png

KOBAS-i :整合多种富集方法,提供综合评分

网址:http://kobas.cbi.pku.edu.cn

KOBAS是2005年由北大生物信息中心推出的功能富集分析网站。KOBAS-i在KOBAS的基础上,引入了该团队发表的基于支持向量机(SVM)的评分方法(Chen Ai, 2018),称为结合优先级和敏感性的基因集分析(CGPS),将9个著名的基因集富集(GSE)工具提供的结果整合为一个综合评分(R score),将通路作为综合结果进行分类和排序。

和以往使用KOBAS类似,用户只需要选择物种,基因列表类型,并输入基因列表,即可针对某个背景数据集进行功能富集分析。

1693193043584353.png

DGLinker:基于知识图谱的疾病-基因关联预测

DGLinker利用生物和表型信息数据库生成知识图谱,可用于预测疾病与基因的关联。用户需要提供感兴趣的表型或(和)基因的列表,DGLinker 后台经过富集分析得到特征基因,用特征基因生成一个邻接矩阵,然后对邻接矩阵进行缩放和加权以产生每个基因的终评分。将评分与阈值作比较,高于阈值的基因作为候选基因。其中,权重和评分阈值是从已知的相关基因组中学习得到的。DGLinker主要依赖edgeprediction,这是本文作者之一Daniel M. Bean于2017年发布的工具包,作为知识图谱边预测算法的python实现。

1693193043574641.png

LitSuggest:NCBI推出文献推荐和注释服务

网址:https://www.ncbi.nlm.nih.gov/research/litsuggest检索和阅读相关文献是生物医学研究中的一种常规做法。现有的检索系统,如PubMed,常常只返回次优结果。因此,NCBI推出了LitSuggest,一个提供一体化文献推荐和整理服务的网络服务器。LitSuggest采用机器学习技术,能准确地推荐相关的pubmed文章。LitSuggest相较于其他工具的优势:

  • LitSuggest允许用户在一个界面中策划、组织和下载分类结果。

  • 用户可以通过更新训练语料库轻松地对LitSuggest结果进行微调。

  • 结果可以随时共享,实现科学文献的合作分析和整理。

  • LitSuggest为每个用户的项目提供自动的个性化的每周新发表文章的摘要。

人工智能已经越来越多应用于生命科学的多个研究领域中,我们从今年的核酸研究在线服务专刊可以窥见一斑。人工智能的应用给生命科学研究带来了惊喜,并将逐渐渗透到生命科学研究的各个分支领域。对于生物学科研工作者而言,掌握人工智能的技术无疑是个挑战。但从该专刊提供的工具可以预见,我们并不需要掌握人工智能的技术,只需要带着我们的科学问题,寻找人工智能的解决方案,能获得比经典方法更符合客观的结论,提升我们研究的速度和精度。


领域:多组学/蛋白质组/代谢组/脂质组