分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

在代谢物鉴定领域应用的软件工具

ACDLabs CN
2022.8.12

作者 ACD

TA的动态

下文是对ACD/Labs的产品经理Anne Marie E.Smith等人发表在Forntiers上关于软件在代谢物鉴定领域的应用文章的编译。

0613692e39d8381ca396fdfd93e61969.png

近几十年来,高分辨率质谱仪器的发展令科学家鉴定微量浓度下药物相关代谢物的能力提高很快。然而,由于需要从原始数据中获得有用的信息,产生的大量数据已经成为一个挑战。本文描述了已经开发的各种化学信息学工具如何来解决这些代谢物鉴定的挑战。它们可以分为两类:实验前代谢物预测和实验数据分析。前者可以细分为rule-based,machine learning-based和docking-based的三类。实验数据分析工具帮助科学家自动执行LC/MS数据的去卷积和代谢物识别。实验数据分析工具可以使用实验前的预测来提高代谢物识别的能力,但也并不局限于这些预测,因为通过特定技术可以发现意想不到的代谢物。这些软件工具改进了人工技术,提高了科学家的生产力,并使大型数据集的高效处理成为可能。除了对可用软件工具的回顾,我们还介绍了使用ACD/Labs开发的MetaSense在这两类研究中可以提供的帮助。越来越大的数据集和高度数据驱动的工作流程的趋势要求代谢产物鉴定实验室进行更复杂的信息学转换。传统上,实验工作与处理数据的信息技术工具是分离的。我们认为,MetaSense可以帮助科学家通过数据可视化建立联系,并通过可搜索的中央型数据库保存和共享结果,使未来的数据挖掘和机器学习成为可能。


01
引言

药物代谢影响药物分子的药代动力学和药效学,同时改变其药理活性和毒性。在药物研发过程中确定药物代谢是生产安全有效药物的关键。最近,由于高分辨率质谱(HRMS)等仪器的进步,检测痕量代谢物的能力得到了显著提高。这些原始数据需要科学家对数据进行处理以获取有用的代谢产物结构信息,并且必须以可读和易于共享/搜索的方式阐明数据结果。

传统的代谢鉴定(代谢物识别)工具,如人工专家系统,已不再足以满足日益复杂的化学信息学领域的需求。代谢物识别团队的有效性取决于他们的软件工具、实验设备和数据管理策略。本文概述了代谢物识别软件的现状,包括现有商业应用的概述和对未来创新的展望。


02
基于软件的技术概述

代谢物识别软件有两个主要分支,一个分支着重在实验前从一个结构预测生成代谢物,另一个分支着重于预测产物和数据结合对实验数据的分析。

2.1 实验前代谢物生成

根据结构预测可能的代谢物是实验前代谢物生成工具的主要方式。实验前预测最常用的三种方法是rule-based,machine learning-based和docking-based。这些计算方法并不是相互排斥的,因为它们从不同方面处理预测代谢物。通常rule-based的方法能生成潜在代谢物的结构,其他技术主要预测代谢位点(SoM)。

2.1.1 Rule-Based 代谢物预测

顾名思义,基于规则的预测软件使用经验推导的规则来预测给定分子的生物转化途径。该软件通过将分子与代谢反应的实验数据库进行比较,找到可能的代谢物。另外,该算法可以识别满足不同反应类型SoM标准的子结构,然后评估将发生哪些转化。重复进行这个过程,以预测下一级的代谢物。

基于规则的系统提供了预测的优势,可以与实验观察到的结果进行合理的比较。研究人员可以评估特定代谢物是如何被预测的,让专家可以应用他们的知识。由于这些工具受到可用规则集的限制,需要软件更新和内部数据扩充来改善这一限制。这可能是一个耗时的过程。

基于规则的代谢物识别软件包括

  • Nexus Meteor:一个基于知识的系统,使用生物转化词典表达为通用反应描述。利用推理规则将这些生物转化应用于结构。

  • BioTransformer:混合软件工具,预测几种系统中的异种生物代谢。它使用生物转化数据库(MetXBioDB)、反应知识库和一个包含机器学习算法的推理引擎,如来预测酶的选择性。

  • GLORYx:一相代谢和二相代谢代谢产物预测软件。GLORYx采用一种混合方法,其中包括用于代谢位点SoM预测的基于随机的机器学习算法,以及使用SMIRKS符号编码的生物转化规则的文献衍生数据库。

2.1.2 基于机器学习的代谢物预测

机器学习是一种基于现有知识构建预测算法的策略。该模型处理训练数据以找到规律,算法捕获这些规律。当初始训练完成后,可以对算法进行改进,以考虑代谢产物预测的新数据。此更新过程可以是自动化的,但即使在无监督模式下,也可能需要大量时间进行统计分析。

机器学习模型需要捕获潜在反应位点的反应性特征的规律。这种计算策略在几个方面与基于规则的模型有所不同。机器学习模型不受预先确定规则的限制,允许它们考虑更广泛的代谢途径。部署基于机器学习的预测软件通常需要来自之前实验代谢物识别研究的数据,这需要资源的收集和管理。多数机器学习软件没有将其计算逻辑组织成人类可读的规则,这意味着对结果解释具有挑战性。

使用机器学习模型的代谢物识别软件的例子包括

  • XenoSite服务器:提供可视化的工具,XenoSite服务器使用神经网络机器学习模型。

  • MetScore:使用基于Forest的随机方法预测I相和II相代谢。采用量子化学衍生的分子表示进行反应性预测。

  • SMARTCyp:采用基于配体的CYP450代谢位点SoM预测方法,通过预先计算的量子力学活化能来估计位点的反应性。

2.1.3 基于docking-based的预实验代谢物生成

基于docking-based的方法使用药物分子的3D结构信息来预测它们如何与CYP450相互作用。对接CYP450和目标物,在这种情况下,最合适的构象将提示首选的SoM。另外,预测出的代谢物结构也可以使用基于规则的混合对接方法进行后续对接,因此流程变为:

1. 基于规则生成代谢物

2. 在CYP450反应位点对接代谢物

3. 根据互补选择可能的代谢物

基于docking-based的模型通常仅限于CYP450,不包括来自人类肝脏微粒体(HLM)的其他活性。大多数基于对接的代谢物预测研究并不使用单一的软件包。相反,他们使用组合工具来完成分析。这提供了灵活性,但可能是用户体验和生产力的障碍。

基于docking-based的软件的例子包括

  • IDSite:评估蛋白质-配体复合物的能量,并使用对接工具(GLIDE)将配体放置到活性位点。这与结构建模程序(PLOP)相结合,以确定结合方向并预测代谢位点SoM。

  • MetaSite:采用一种被称为伪对接的方法。该软件通过将配体结构与GRID分子相互作用场对齐来预测潜在的SoM,GRID分子相互作用场编码细胞色素酶的活性位点“指纹”。

2.2 实验后处理的代谢物识别工具

上文的实验前代谢物识别软件的主要目的是避免不必要的代谢实验。

实验后预测软件的设计是为了加速代谢物数据分析。实验后处理的代谢物识别软件将预测和实验数据来综合识别和验证代谢产物。在母化合物的结构基础上预测代谢物的结构。应用程序然后评估分析数据,以确定这些理论代谢结构是否存在。

典型的软件有:

  • Mass-MetaSite:使用液相色谱-质谱、UV、荧光和放射色谱数据自动识别小分子和多肽的代谢物。化学结构根据质谱和质谱/质谱片段模式分配到色谱峰。

  • MZmine:具有代谢物鉴定功能的质谱分析数据处理工具。代谢物结构由复合数据库搜索确定,这可能涉及机器学习算法的预测。

03
MetaSense操作和功能

MetaSense®是ACD/Labs开发的代谢物预测包,采用基于规则和机器学习进行实验前预测和实验后数据分析,简化了专家的工作过程。

3.1 实验前代谢物生成

3ee540792ae3097f880105f31e83866c.png

图1A总结了MetaSense的代谢物生成过程。整个过程由两个主要部件组成:

1. 生物转化规则数据库将潜在SoM的化学环境映射到预期的反应产物列表。生物转化规则集汇编自若干综述出版物,并通过分析CYP450底物及其代谢物的内部数据库进一步扩展。这些规则按以下反应类型分类:

  • i -水解相:不稳定官能团自发或酶解裂解

  • I相氧化还原反应,包括羟基化、脱烷基化、杂原子氧化、环氧化物形成、环去饱和和随后的芳构化

  • II相偶联反应,如磺化,葡萄糖醛酸化,谷胱甘肽的添加,和各种氨基酸

2. 软件排序算法估计特定SoM的代谢反应的可能性。所使用的评分函数取决于反应类型。

水解和II相代谢阶段的基于简单的启发式方法,反映了SoM的整体不稳定性和基于母体化合物的物理化学特征对加合物的敏感性。例如,通过预测的logD7.4值来评估亲油性降低偶联物(例如磺化、葡萄糖醛酸化)的可能性。相反,谷胱甘肽的添加是完全基于规则的,它的目标位点是通过对一组亲电片段的亚结构搜索来确定的。

对于I相代谢的氧化还原反应,MetaSense使用与ACD/LabsPercepta平台共享的基于机器学习的区域选择性预测模型。这些模型确定了由CYP450和其他代谢酶在HLM中表达的五种常见氧化还原反应类型的弱点。

模型使用GALAS(Global, Adjusted Locally According to Similarity)方法,该方法可以描述为两个过程的结合:

  • 用于预测感兴趣属性的碎片基线QSAR模型

  • 基于相似性的算法(或局部模型),该算法根据基线模型对训练集中识别的最相似化合物的性能分析引入额外的修正。

与传统的碎片化技术使用整个分子的一个“数字图像”不同,这种区域选择性模型根据所选择的中心原子使用几种独特的分子表示。该模型的输出是一个特定原子成为HLM酶目标的概率,以及一个可靠性指标——基于局部相似性修正步骤的预测置信度的定量度量。可靠性指数RI可证明该值与定量模型(如MAE,RMSE)和定性模型(如敏感性,特异性)的公认模型精度指标之间的直接相关性。最后,将GALASHLM代谢位点预测模型的两个输出结果结合起来,得到从0到1的总体SoM得分。

一旦计算出分子中所有可能的反应位点的SoM得分,它们将通过得分阈值进行过滤,然后被应用于生成一列代谢物结构。这个过程可以重复运作以产生生物转化图。

3.2 实验后代谢物鉴定

3ee540792ae3097f880105f31e83866c.png

图1B-D总结了MetaSense实验后的工作流程。该过程首先将实验数据文件和相应的结构导入处理环境。这可能包括来自LC/MS/MS、放射性示踪、紫外线示踪或同位素富集工作流程的数据。该软件可以使用来自大多数主要仪器供应商和代谢物预测软件的数据,如星Nexus,MetaSite,或用户自己创建的SDFiles。

经过处理后,解析后的谱图被上传到中央数据库,并自动创建生物转化图。科学家可以回顾整个项目,并根据专业知识添加缺失的代谢物。

液相色谱/质谱分离出提取离子色谱(XIC)。预测的代谢物匹配峰准确的质量和同位素模式。由于每个XIC可能包含多个代谢物的峰,利用片段化规则和片段-离子质量位移在MS/MS光谱中定位生物转化位点。如果反应位点不明确,代谢物结构用Markush符号表示。该软件还支持数据依赖采集、全离子碎片化和MSE。

未预期的代谢物通过对照样本的比较和质量差的分数来确定。由于所有的数据和解释都是链接和存储在一起的,用户可以查看原始的色谱图和光谱,并将它们发送到其他软件工具进行结构说明。

MetaSense提供了两个显著的特性

  • 自动创建生物转化图生物转化图,手动创建耗时较长。根据结构数据和实验数据生成了生物转化图和动力学图。MetaSense使用化学智能来细化生物转化图,排除化学上不可行的步骤。

  • 在一个可搜索的数据库中存储分析和化学数据,包括峰值区域,元数据等。如果发现新的代谢物,分析数据可以重新处理和更新。

3.3 MetaSense分析特非那定的过程

fc5088f5601275a02bc5c59ff33ca47f.png

特非那定代谢产物的时间过程研究如图2所示。设置实验前代谢预测反应(I/II相),并使用数据集中的实验后ID进行过滤。通过预测碎片的谱赋值来评估结构的可行性。亲本或代谢物的区域被可视化,允许用户在整个研究过程中评估代谢物的形成。


04
讨论

代谢物识别的科学家比以往任何时候都能获得更多的数据。这包括高分辨率仪器的实验数据和计算机模型产生的硅数据。有效的数据处理是一个重大的挑战。我们预测生产率的突破将来自于数据管理的改进。

4.1 数据的互联表示

来自新陈代谢研究的数据是高度相互关联的,但它们可以被组织成四个层:原始数据、元数据、处理数据和谱图解析。

来自仪器检测器的原始数据是代谢物数据的基础。

  • 原始数据与元数据相连接,包括仪器条件、化学结构、生物模型、样品类型和样品制备方法。

  • 原始数据和元数据然后被处理各个信号。

  • 处理后的数据被抽象到解释层,包括生物转化图、动力学图和其他可视化。

代谢物识别专家必须了解这些数据层和解释之间的联系。从原始数据自动化生产生物转化图和动态图可以节省时间。更高层次的抽象必须与原始数据相连接,以支持严格的分析,并确定报告和监管审查的证据链。

这四层数据及其连接应该便于查看。大多数代谢物识别软件不符合这个标准,因为这些工具不允许在实验设计处理的数据-原始数据之间进行超链接。数字工具的创新将克服这些限制,使研究人员能够跟踪多个数据层之间的连接。

4.2 分析性数据管理策略

代谢物识别软件的生产力与可用数据的数量和质量直接相关。这最终是由研究机构的数据管理策略决定的。因此,分析数据管理系统应该被认为是任何代谢物识别程序必不可少的。

分析数据管理系统的设计必须满足整个研究组织的需要。这需要在特定研究人员的功能需求和实际考虑(如费用、部署时间或前向兼容性)之间取得平衡。一些最相关的问题包括:

  • 数据存储策略:虽然从理论上讲,一直存储每个数据片段是理想的,但这并不实用,也不划算。需要存储哪些特性来为未来的数据挖掘和机器学习做准备?

  • 可查找性:可查找的数据包括足够的元数据,以便随时检索。丢失的数据往往需要重复实验,导致时间和成本的增加。可以通过围绕元数据管理的健壮业务实践来改进可查找性。

  • 同质文件格式:数据必须以长期可用的格式维护。数据应该以一致的、与供应商无关的格式存储,以减少访问障碍,促进互操作性,并简化数据比较。

  • 当前的需求与未来的扩展:满足单个实验室需求的本地数据库可以快速部署,开销最小。这样的分散系统可能不利于机器学习项目或实验室间合作。企业系统需要更多的工作来部署和管理,但是可以设计为促进数据科学项目。

  • 遗留数据的作用:研究机构积累了大量的数据。遗留数据可能没有根据当前的最佳实践进行处理或建立数据库。这些数据应该单独管理,还是可以与新数据一起使用?它是否需要重新格式化、再处理或其他形式的维护?

每个研究功能都有它们优先考虑的特定数据库功能。代谢物识别科学家受益于可搜索的数据库,包括生物转化图和汇总表。


05
展望

由于仪器和软件的改进,代谢研究的准确性和效率显著提高。下一个挑战将是处理和预测工具进步,以管理现代分析设备产生的数据量。应该开发应用程序来表示原始数据、元数据、处理过的数据和解释之间的连接。我们需要专用工具来理解这四个数据层之间的关系。机器自动化解析依赖于有效地编组和整理数据。研究机构需要投资于支持成功代谢物识别计算机模型的系统。药物代谢预测和鉴定方面的创新将引导科学家开发更安全、更有效的药物。

当前已有代谢数据偏向于哺乳动物,基于这些数据构建的软件非哺乳动物的代谢物预测能力有限。这些软件不能可靠地预测植物、昆虫或细菌产生的代谢物,因此多用于哺乳动物的代谢物研究。对农药的开发和环境毒理学的深入研究是不利的(Hoagland等人,2000;Hatzios等人,2001年)。因此对农药研发,环境毒理,植物微生物研究这些研究方向从事研究的机构可以在专家知识的支持下建立内部的生物转化数据库,以提高代谢物识别软件在特定领域的性能。


发布需求
作者
头像
仪器推荐
文章推荐