分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

加速新药研发!新算法助力质谱数据准确高效预测小分子

2021.8.04
头像

小编

  小分子的鉴定是生命科学一项关键任务。质谱(mass spectrometry,MS)可用于分析化合物成分,高通量质谱技术能够从数十万个环境中收集小分子的串联质谱。然而,现有的方法是基于化学领域的知识,无法解释小分子质谱中的许多峰。

  卡内基梅隆大学和俄罗斯圣彼得堡国立大学的研究人员提出一种算法——MolDiscovery,提高了小分子识别的效率和准确性。该算法使用分子的质谱数据来预测未知物质的「身份」,在研究早期告诉科学家他们是偶然发现了新事物,还是仅仅重新发现了已知事物,可节省发现新的天然医药产品的时间和金钱。

  该研究于6月17日以「MolDiscovery: learning mass spectrometry fragmentation of small molecules」为题发表在《自然通讯》(Nature Communications)杂志上。

171857_202108041445491.jpg

  MS 是一种电离化学物质并根据其质荷比(质量-电荷比)对其进行排序的分析技术。广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物。

  质谱图是小分子的指纹,可以用一组质量峰表示,但与指纹不同的是,没有庞大的数据库来匹配它们。尽管已经发现了数十万种天然分子,但科学家们无法获得他们的质谱数据。

  目前,已经出现了包含数万个小分子注释质谱的谱库,为开发基于机器学习的方法来提高计算机数据库搜索的灵敏度和特异性铺平了道路。然而,现有方法对于超小分子(< 400 Da)表现不佳,并且对于「重」小分子(>1000 Da)在计算上不足。

  现在,该研究团队提出一种质谱数据库搜索方法—— MolDiscovery,通过学习概率模型来将小分子与其质谱相匹配,大大提高了小分子识别的准确性,同时使搜索效率提高了一个数量级。

  从全球天然产物社会分子网络(GNPS;http://gnps.ucsd.edu) 搜索了 800 万个串联质谱后,MolDiscovery 以 0% 的错误发现率 (FDR) 鉴定了 3185 个独特的小分子,与现有方法相比,增加了 6 倍。在具有已知基因组的 GNPS 存储库的一个子集上,MolDiscovery 正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。

  MolDiscovery 框架

  MolDiscovery 框架主要分两个过程:训练过程和评分过程。具体步骤:

  从构建代谢物图和生成碎片图开始。对于后者,MolDiscovery 使用一种新的高效算法来查找代谢物图中的桥接和 2-cuts;

  MolDiscovery 继续学习匹配碎裂图和质谱的概率模型(图 1a-e);

  对小分子光谱对进行评分(图 1f-k),计算 FDR。

171857_202108041446111.jpg

171857_202108041446112.jpg

图1:MolDiscovery 框架。(来源:论文)

  基准测试

  MolDiscovery 与其他五种最先进的方法进行了比较,数据库搜索结果显示,MolDiscovery识别效果最好,平均可以正确识别测试 GNPS 和 MoNA 数据中的 43.3% 和 64.3% 的小分子。

171857_202108041446113.jpg

图2:所有测试方法的最高 K = 1、3、5 和 10 准确度。(来源:论文)

  MolDiscovery 也是针对 DNP 搜索 GNPS 的最快和最节省内存的方法之一。在预处理阶段,MolDiscovery 比其中一种方法快 300 倍以上。

  还根据正确分子匹配的质量范围评估了运行时间。对于质量 >1000 Da 的分子光谱,相同质量范围内,MolDiscovery 平均只需 6 分钟和 24 秒。

  注释 8 倍多的光谱,识别出 6倍多的独特化合物

  从GNPS 搜索了 800 万个串联质谱,在严格的 0% FDR 水平下,MolDiscovery 注释了 8 倍多的光谱,并识别出比 Dereplicator+ (一种从MS中识别小分子的数据库搜索复制器)多6倍的独特化合物。

  MolDiscovery 搜索在 10 个线程上花费了 34 天,与单线程上的预测 329 天非常接近。值得注意的是,在搜索如此大规模的光谱数据集时,MolDiscovery 比其他方法要高效得多,只需要对分子数据库进行一次预处理,可以有效地搜索未来的光谱。

  节省新药研发时间、成本

  「科学家们浪费了大量时间来分离已知的分子。」研究团队成员 Hosein Mohimani 说。「早期检测分子是否已知,可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能用于新药开发的新型天然产品。」

  Mohimani 解释说:「例如,科学家检测出一种在海洋或土壤样本中有望成为潜在药物的分子后,可能需要一年或更长时间才能识别出这种分子,而不能保证该物质是新的。MolDiscovery 使用质谱测量和预测机器学习模型快速准确地识别分子,且无需依赖质谱数据库进行匹配。」

  该团队希望 MolDiscovery 将成为实验室发现新型天然产物的有用工具。MolDiscovery 可以与 Mohimani 实验室开发的机器学习平台 NRPminer 协同工作,帮助科学家分离天然产物。

ScienceAI
文章推荐