来源:Nature自然科研
原文以AI designs organic syntheses为标题
发布在2018年3月28日的《自然》新闻与观点上
原文作者:Derek Lowe
为合成化学设计有效合成路线的软件一直依赖于研究者的规则输入。现在有报道称人工智能程序系统可以自己学习相关规则。
合成有机化学是一门关于从简单的分子着手构建所需化学结构的科学。研究者的学识和经验一直是构建成功的合成路线的关键。但在《自然》发表的一篇论文中(论文免费阅读链接:https://rdcu.be/OQBL),Segler等人报道称:一款人工智能程序可以设计化合物合成路线,而且效果至少在理论上与由人类设计的不相上下。
在设计合成路线时,有机化学家常常需要使用逆向思维。上世纪60年代,E。 J。 Corey提出逆向合成的概念,并因此荣获1990年的诺贝尔化学奖。逆向合成为化学家们提供了特定的思维方式(图1)。在观察目标分子时,他们会问:“这个化合物能从什么原料制得?要形成哪些键?哪些原子或化学基团可以增加或转化?”然后,重复该过程,直到得到前体分子。这样做的目的是反推得到易获取的起始化合物,同时平衡好构成良好合成路线的各种因素,包括反应的步数、预计的产率以及所涉及的化学物质的易用性。有机化学家们经常要处理这些问题,例如在药物发现项目中制备大量化合物用于测试。
图1|逆合成分析。化学家使用被称为逆向合成的策略来设计有机分子合成的路线。a,首先设计一个理论路线,将目标分子依次转换成易制备或可购买的中间体。在这个例子中,目标分子中的红色键和原子可以从中间体分子中的红色双键得到。接下来,中间体的红色双键和蓝色键可以通过两个可直接购买的原料一步得到(Et是乙基的缩写)。b,然后选择反应将原料转化为目标分子:在上面的例子中,使用狄尔斯-阿尔德反应得到中间体,随后通过金属催化氧化获得目标分子。Segler等人报道的人工智能程序可以通过自行推断设计规则,来为分子设计合理的合成路线。
自19世纪中叶合成有机化学诞生以来,已有大量的合成有机反应被报道,且其数量每时每刻都还在增长。20世纪80年代之前,许多化学家通过收集记载了文献中有用反应的、交叉引用的手写索引卡片,来指导设计合成路线。随着计算机技术的普及,这些索引卡片自然地移动到数字数据库中。
近年来,当化学家想了解将官能团X转变为官能团Y的各种方法时,他们会先使用计算机程序来绘制感兴趣的分子结构,然后在线搜索相关反应。这几乎总是会产生一个长长的清单,研究人员需要根据其知识和经验来选择最合适的反应。一直以来,把这些反应串成一种有用的合成方法被认为只有人类才能做到。
但一定要这样做才行吗?是否有一个程序能够基于一个足够大并精心制作的化学反应数据库,不仅可以找到反应还能将它们编排成合理的合成路径呢?从上世纪60年代Corey提出逆向合成以来,人们就一直在试图找到这样的程序,但几无进展(直到最近)。
两个根本问题使该梦想受挫。首先,计算机硬件无法处理这一量级的挑战。第二,化学文献很难用软件程序所能理解的术语来定义:对于给定的反应,它们大部分时间都适用于某种化合物类型,但仅在某些特定条件下才真正适用。例如,官能团X将变成官能团Y,除非官能团Z存在于反应物分子的其他地方。当官能团Z存在时,如果官能团Q与其在同一个分子的附近,则反应可能仍然有效,但仅当pH低于某个值或温度足够高或无水时,这些才会成立。
克服第二个问题的方法多种多样。一是为程序提供一份人为制定的可实现预期化学转化反应的详尽列表,把所有的限制和条件都考虑在内。然后,程序利用一种类似于评估国际象棋招式组合的方式,将这些反应组合起来得到合成路线。这种方法已取得一定成效,市场上已有几个相互竞争的商业软件产品。
Segler等人研究了另一种方法:可不可以设计一个可以自行学习研究人员所知知识的程序,从而代替研究人员把专业知识加载到机器上的过程呢?这个概念已经产出了惊人的结果,已有程序可以自行学习玩游戏,如围棋,而不是使用人的策略来训练它们。
作者设计了一个计算程序,它可以自动从一个大型商业数据库中提取化学转化反应,并谨慎地使用那些报道过多次的反应。他们的系统认为这些挑出来的反应是有机合成中“可行的步骤”。当系统被要求设计一个目标分子的合成路线时,它会像人一样从目标分子开始逆向工作,根据所学的设计规则挑选出最有希望的前体分子,然后评估合成这些分子的可行性。作者将三个人工神经网络与随机蒙特卡洛树搜索(计算机在某些决策过程中使用的一种搜索算法)相结合,以缩小最有希望的合成路线范围,且不会在某一特定路径上被很快卡住。
更重要的是,给出的路线不仅由程序的评分系统评估,还由训练有素的有机化学家对其可行性进行盲评。面对机器生成的目标分子的合成路线以及研究文献中报道的合成路线,这些化学家没有对同仁们研究得出的合成路线表现出任何的偏好。换句话说,他们认为这个程序所建议的化学反应和研究人员提出的一样合理。
这并不一定意味着所有机器建议的路线都能在实验室中得到预期的结果;但是,正如有机化学家所抱憾的一样,许多人类设计的路线一样会失败。未来进一步的程序开发应该将这些实际结果包括在内,以确定机器提出的路线是否比人类设计的路线更好(或者至少不差)。今年,有一项评估较传统的、人工管理的逆向合成程序的研究值得注意,该研究就包含了一个类似的实验室测试部分。就Segler及其同事所做的程序而言,其设计的合成路线与研究人员做的相比“不差”就是一次重大胜利,因为其用时更少,覆盖的文献更多。
如果这类程序达到预期——几乎没有理由认为它们做不到,那么合成化学家的一项主要工作就将消失。技术创新在过去也产生了类似的效果,但通常是取代那些没有人会怀念的繁重的体力活。令人不安的是,日益发展的人工智能正在将“触手”伸向脑力劳动。虽说总会有那些软件无法处理的、复杂而又不同寻常、前所未见的结构,但是在解决较为常规的合成问题时,研究员将被人工智能取代。
说智力活动可以被划为能被自动化代替的繁重体力活,可能冒犯了许多化学家,并让其感觉受到威胁。但是人工智能的应用实际上会释放出更多的时间来让化学家思考更高深的问题,譬如应该合成哪些分子以及为什么,而不是把重点放在如何制备出分子的细节上。并非所有的研究人员都欢迎这种转变。但不管怎样,它似乎不可回避。