分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

打造 IBM 自动化合成实验室的秘诀 (下篇)

力扬实验室自动化方案
2023.4.27

——背景——

今天给大家介绍的是来自 IBM Research Europe 研究人员近三年发表的一系列关于人工智能应用于有机合成的相关工作。由于篇幅有限,本文分为上下两篇,主要概述其代表工作并由笔者整理归纳其整体工作思路,仅供参考。

图 1  IBM RXN for Chemistry 主要工作及其整体思路(笔者自己整理归纳,仅供参考)

IBM RXN for Chemistry 主要发表的工作包括: 1) 读取文献、专利中的有机实验操作文本并转化为机器可读的操作元[1];2) 对反应数据进行预处理 (生成反应指纹[2-3]、数据增强[4]、数据降噪[5]、反应原料与产物的原子映射[6]);3) 有机反应正向预测[7-8];4) 逆合成反应预测[9];5) 反应产率预测[10];6) 将反应 SMILES "翻译" 成操作元[11]。(以上工作的源代码都开源)

以上这些工作构成了 IBM RXN 的云服务,同时也训练了一整套基于 Transformer 的人工智能模型,从读文献学习实验操作,到学习有机反应规律,学会正向反应、逆合成反应及评判反应产率高低,最后学会对某一条新反应自己设计合成实验,一定程度上实现了 "基于云服务与 AI 驱动的自动化有机合成实验室" 的构想。

上一期已经介绍了前半部分的工作,讲解了 "读文献" 生成实验操作元与有机反应数据的预处理,本期将继续介绍学习有机反应数据后进行的三项预测任务以及预测新反应的实验操作。

——预测正向反应的产物——

对于人类化学家,刚开始学习有机化学时遇到最常见的题目是根据反应物、试剂和反应条件写出产物。那么对于人工智能也可以利用各种算法学习有机反应的规律,实现对有机反应产物的预测。在这一领域,IBM Research Europe 的研究人员先是在 2018 年发表了一种基于循环神经网络 (RNN) 与注意力机制的 sequence to sequence 模型来预测反应产物[7]。在 2019 年发表了 "Molecular Transformer" (如图 2 所示) —— 一种基于 Transformer 的模型来预测反应产物,其表现优于 RNN 模型,在 USPTO_MIT 数据集上 Top1 准确率为 90.4%[8]。此外,在一些杂环的芳香亲电反应中,它的表现优于基于量子化学计算的 RegioSQM,能更准确地预测反应的区域选择性。

图 2  Molecular Transformer 示意图[8]

——逆合成反应预测——

仅仅是学会预测正向反应的产物是不够的,在有机化学中我们遇到更多的问题是有一个目标分子需要我们找到合成路线,也就是需要找到一步接一步的反应来实现目标分子的合成。其实这个问题和前一节的问题正好反过来,即知道产物,需要预测反应物 (与试剂)。

IBM Research Europe 的研究人员在 2020 年发表的工作,就是基于 Transformer 模型预测一步逆合成反应,再结合超图探索策略 (hyper-graph exploration strategy) 找到合适的逆合成路线,如图 3 所示[9]。

图 3  从预测逆合成反应到寻找合成路线的流程示意图[9]

在预测逆合成反应时,为了验证与评估预测表现,研究者应用了上一节所提及的正向反应预测模型,构建了一个逆合成反应预测 + 正向反应预测的循环。当逆合成反应预测出目标分子的 N 个备选反应物后,再分别对这 N 个备选反应物进行正向预测得到 N 个产物。研究者对此定义了两个指标,一个是循环准确率 (Round-Trip Accuracy),即 N 个产物中再次回到目标分子的比例,另一个是覆盖率 (Coverage),即 N 个产物中至少有一个回到目标分子的比例。结合上一篇文章中提到的数据降噪处理方法,逆合成反应预测的覆盖率可以达到 97.1%,循环准确率可以达到 86.2%,此外还考虑了预测逆合成反应的类别多样性与类别相似性。

在超图探索过程中,研究人员采用了 Coley 等人在 2018 年发表的 SCScore (一种分子合成复杂性的打分)[12],再结合类贝叶斯概率来决定图扩展的方向,最终找到由 eMolecules 数据库提供的可用的分子。在合成路线设计的评估方面,目前还没有 benchmark,只能说体现了一定的潜力,可以为人工设计合成路线提供思路与启发,尚且无法处理复杂天然产物分子,对少数类别反应 (氧化还原、酯化皂化等) 的学习还不到位,容易得到不符合逻辑的逆合成切断策略。

——预测反应产率——

在挑选逆合成反应来组成合成路线时,一个反应的产率是能直观体现反应的效用,也是给合成路线打分的重要因素。IBM Research Europe 研究人员在 2021 年发表了 Yield-BERT 模型来预测反应产率,如图 4 所示[10]。研究人员在一些高通量反应数据集与专利反应数据集分别进行训练与测试,在某一特定反应 (例如 Buchwald–Hartwig 反应与 Suzuki–Miyaura 反应) 的高通量数据集上,Yield-BERT 的 R2 可以达到 0.95 与 0.81,比一些基于 one-hot 或者 DFT 算符作为输入的方法表现更好。在专利反应数据集 (克级与亚克级) 上的表现都很一般,R2 不到 0.2,可能原因是相似度 (反应指纹) 接近的不同类别反应的产率差别较大 (一致性较差),模型在预测时会得到一个平均值。因此,对于产率预测问题,数据的质量很重要,同时对于其他类似的有机反应回归问题,例如预测反应活化能等,也可以尝试使用这种模型框架。

图 4  Yield-BERT 示意图[10]

——生成反应实验操作——

在确定了有机合成路线后,就需要针对每一步反应设计具体实验条件与操作。针对这个问题,IBM 的研究人员在 2021 年发表了 《Inferring experimental procedures from text-based representations of chemical reactions》 的工作,介绍了将有机反应 SMILES "翻译" 成有机合成实验操作的模型 smiles2actions,以及为了训练模型而生成的数据集,如图 5 所示[11]。

图5  smiles2actions数据集生成与模型示意图[11]

研究者用了机器学习模型与基于 Transformer 的模型 (Transformer 与BART) 进行类似机器翻译的任务,然后用机器翻译常用的序列相似性打分 BLEU,以及操作元 100%、90%、75% 和 50% 准确率来评估模型表现,结果如表 1 所示[11]。此外研究人员还找了有机合成领域的专家来评估预测结果的完整性。针对 500 条反应,研究者向有机化学家提供了真实合成操作与预测的合成操作进行盲评,其中专家认为 62% 的预测结果是合理的,认为 60% 的真实结果是合理的,这反映了预测结果在人为评估中的表现与真实结果接近。不过在原文献中,研究人员并没有报道实际应用预测的实验操作来合成某一分子的实例。

表1  各模型预测合成操作的结果

——总结与讨论——

本篇介绍了 IBM Research Europe 在有机合成与有机反应相关工作的后半部分 —— 预测反应、设计合成路线以及预测合成实验操作。就目前而言,IBM Research Europe 已经在 IBM RXN for Chemistry 的网站上发布了逆合成路线设计的功能,有机化学家可以在家中提交目标分子,得到 AI 预测的合成路线,再对合成路线中的每一步反应设计具体实验条件与操作,提交给 IBM 的 RoboRXN 服务器,那么就会有机器 (如图 6 所示) 帮你完成分子的合成实验 (目前机器合成服务还没开放)。通过云服务与 AI 辅助的路线设计,可以解放化学家于重复性劳动中,从而能有更多时间与精力去设计新分子,创造新事物。

图 6  IBM RoboRXN 示意图 (摘自官网介绍视频)

而在未来,IBM 将进一步实现基于云服务与 AI 驱动的自动化实验室,围绕我们上下两篇文章所介绍的这些工作,从自动读文献学习合成实验操作,到预处理反应数据进行正向反应预测、逆合成路线设计,再到预测合成反应的实验条件与操作。理想情况下可以实现针对目标分子的全自动合成,但是目前来看,笔者认为有两大难点还需攻克,一个是逆合成路线设计的能力有限,还需要人工参与路线的挑选优化,并且对复杂结构的分子 (例如一些多环天然产物) 还是束手无策的;另一方面是根据反应设计实验条件与操作的实际应用效果还有待检验,在原文献中还未报道相关应用,并且针对效果不佳的合成实验还需要设计反馈机制来优化反应条件与操作 (可能衍生到有机方法学的探索,借助高通量反应机器来筛选最优合成条件),甚至可能需要更换合成路线。总之一旦结合了自动化合成实验的反馈,AI 辅助的逆合成路线设计也会有更具实际意义的进步方向。

>> 重温上回介绍 - 打造 IBM 自动化合成实验室的秘诀 (上篇) <<

>> 更多相关介绍 - 迎接「AI+化学」,化学分析实验室如何革新?<<

参考文献:

[1]Vaucher, A. C.; Zipoli, F.; Geluykens,J., et al., Automated extraction of chemical synthesis actions from experimental procedures. Nat. Commun. 2020,11 (1), 3601, DOI:10.1038/s41467-020-17266-6

[2]Schwaller, P.;Probst, D.; Vaucher, A. C., et al.,Mapping the space of chemical reactions using attention-based neural networks. Nat. Mach. Intell. 2021,3 (2), 144-152,DOI: 10.1038/s42256-020-00284-w

[3]Probst, D.;Schwaller, P.; Reymond, J.-L., Reaction Classification and Yield Prediction using the Differential Reaction Fingerprint DRFP. ChemRxiv 2021, DOI:10.33774/chemrxiv-2021-mc870

[4]Schwaller, P.;Vaucher, A. C.; Laino, T., et al.,Data augmentation strategies to improve reaction yield predictions and estimate uncertainty. ChemRxiv 2020, DOI:10.26434/chemrxiv.13286741.v1

[5]Toniato, A.;Schwaller, P.; Cardinale, A., et al.,Unassisted noise reduction of chemical reaction datasets. Nat. Mach. Intell. 2021,3 (6), 485-494, DOI:10.1038/s42256-021-00319-w

[6]Schwaller, P.;Hoover, B.; Reymond, J.-L., et al.,Extraction of organic chemistry grammar from unsupervised learning of chemical reactions. Sci. Adv. 2021,7 (15), eabe4166, DOI: 10.1126/sciadv.abe4166

[7]Schwaller, P.;Gaudin, T.; Lányi, D., et al., “Foundin Translation”: predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models. Chem.Sci. 2018,9 (28), 6091-6098, DOI: 10.1039/C8SC02339E

[8]Schwaller, P.;Laino, T.; Gaudin, T., et al.,Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction. ACS Cent. Sci. 2019,5 (9), 1572-1583, DOI: 10.1021/acscentsci.9b00576

[9]Schwaller, P.;Petraglia, R.; Zullo, V., et al.,Predicting retrosynthetic pathways using transformer-based models and ahyper-graph exploration strategy. Chem.Sci. 2020,11 (12), 3316-3325, DOI: 10.1039/C9SC05704H

[10]Schwaller, P.;Vaucher, A. C.; Laino, T., et al.,Prediction of chemical reaction yields using deep learning. Mach. Learn.: Sci. Technol. 2021,2 (1), 015016, DOI: 10.1088/2632-2153/abc81d

[11]Vaucher, A. C.;Schwaller, P.; Geluykens, J., et al.,Inferring experimental procedures from text-based representations of chemical reactions. Nat. Commun. 2021,12 (1), 2573, DOI: 10.1038/s41467-021-22951-1

[12]Coley, C. W.; Rogers, L.; Green, W. H., et al., SCScore: Synthetic Complexity Learned from a Reaction Corpus. J. Chem. Inf. Model. 2018,58 (2), 252-261, DOI: 10.1021/acs.jcim.7b00622

想了解更多方案详情,

👇喜欢本文,四连

发布需求
作者
头像
仪器推荐
文章推荐