2024 年 12 月 06 日

客户案例 | Nat. Commun.:大语言模型驱动的端到端自动化化学合成开发平台

第一作者:阮怡翔
通讯作者:莫一鸣
通讯单位:浙江大学化学工程与生物工程学院
论文DOI:10.1038/s41467-024-54457-x(点击文末「阅读原文」,直达链接)

近日,浙江大学莫一鸣研究员团队在国际顶级学术期刊《自然·通讯》(Nature Communications)上发表了一项自动化化学合成开发平台最新研究成果。该研究利用Opentrons自动化移液工作站,结合一种基于大型语言模型(GPT-4)驱动的反应开发框架(LLM-RDF),成功应用于铜/TEMPO催化的醇类氧化为醛的的全流程开发,并在SNAr反应、光催化C-C偶联反应和非均相光电化学反应任务中进一步验证了其适用性。

在该研究中,Opentrons自动化移液工作站被用于进行HTS底物筛选、动力学研究和光催化反应条件优化等实验步骤。LLM-RDF通过将化学家的专业知识、LLM智能体的分析能力与开源的自动化平台相结合,显著简化了传统上以专家为主导的劳动密集型反应开发流程,极大地提升了实验效率。

在药物研发和工艺开发中,设计合理的合成方案是核心任务之一。然而,由于设计空间巨大且需要实验验证,这一过程通常耗费大量时间和成本。化学家和化学工程师需要反复进行设计-合成-测试-分析循环,以找到高效的合成方案,同时还需兼顾效率、成本、可持续性、安全性及杂质控制等复杂需求,这使得单纯使用算法或自动化手段难以有效应对。近年来,大语言模型(LLM)驱动的智能体凭借对复杂非标准化输入的灵活决策能力,在文献数据挖掘、分子与材料设计、反应条件优化以及实验设备自动化等化学与材料研究领域取得了显著进展。然而,目前LLM智能体在化学合成开发各阶段的应用仍较为分散,未能充分展现其在完整开发流程中的潜力。为此,该研究团队开发了一个基于LLM的反应开发框架(LLM-RDF),以验证LLM智能体在化学合成反应开发全流程中的适用性和高效性。

1. 覆盖化学合成开发全流程:
开发了一个基于LLM的反应开发框架(LLM-RDF),整合了从文献搜索、高通量反应筛选、反应动力学研究、反应条件优化和规模放大到产品纯化的所有关键任务,实现了对化学合成开发的全流程覆盖。

2. 支持网页交互:
开发网页界面让用户以自然语言操作自动化实验平台和分析实验结果,无需编程技能,显著降低了利用自动化设备和机器学习算法进行化学研究的技术门槛。

3. 广泛适用性:
验证了LLM-RDF在SNAr反应、光催化C-C偶联反应和非均相光电化学反应中的高效性,展现了其在多种化学反应领域的适用性。

图1 基于LLM的反应开发框架(LLM-RDF)

典型的化学合成反应开发流程包含五个主要步骤:(1)文献检索和信息提取,(2)底物范围和条件筛选,(3)反应动力学研究,(4)反应条件优化,以及(5)反应放大和产物纯化(图1a)。该研究在LLM-RDF中开发了一组基于大语言模型(GPT-4)的智能体,包括Literature Scouter、Experiment Designer、Hardware Executor、Spectrum Analyzer、Separation Instructor和Result Interpreter(图1b),用于完成每个步骤中的核心任务。化学家用户可以通过网页界面与LLM-RDF交互,使用自然语言描述任务,LLM智能体提出建议或执行操作后,由化学家进行审查和决策直至完成任务(图1c)。

图2 LLM智能体驱动的底物适用性与反应条件高通量筛选

该研究选择了好氧醇氧化这一新兴的可持续醛类合成方法作为模式反应,并通过Literature Scouter获取文献中报道的铜/TEMPO催化醇氧化方法。随后,对找到的醇氧化反应方法开展了底物适用性和反应条件的高通量筛选(HTS)。在此过程中,Experiment Designer解析了HTS实验任务,随后Hardware Executor将其转化为OT-2移液工作站的Python执行代码,实现了自动化实验操作(图2b)。实验结束后,Spectrum Analyzer根据实验样品的GC-FID-MS波谱数据,自动识别了底物和产物的特征质谱峰,确定其保留时间,并对对应的FID信号进行积分得到反应收率(图2c-f)。最后,Result Interpreter智能体总结了HTS结果,发现碱DBU显著优于NMI,铜盐活性顺序为CuCl2 < CuBr2 < Cu(OTf)2 ~ Cu(BF4)2。Result Interpreter同时还发现位于吸电子官能团α位的醇羟基反应活性有所增强,但它仍不能对某些底物完全无法反应的原因进行深入分析。

图3 LLM智能体驱动的反应动力学研究

研究人员观察到,在HTS实验中使用DMSO作为溶剂时,反应底物12s中伯羟基的氧化选择性优于其在文献中使用MeCN作为溶剂时的情况(图3b)。为进一步研究这种溶剂效应,该团队开展了动力学研究。在此过程中,Experiment Designer设计了一个为期10小时的采样方案(图3c)。随后,Hardware Executor生成了OT-2移液工作站的运行代码,实现了自动采样操作。采集到的反应样品通过¹H NMR进行分析,Spectrum Analyzer基于目标产物12p的化学位移信息,自动识别NMR峰、完成峰面积积分并计算样品组成(图3d)。最后,Result Interpreter基于实验结果拟合动力学模型,计算反应速率常数(k₁、k₂、k₃),并发现在MeCN中产物过氧化速率常数(k₃)显著高于DMSO,表明溶剂对反应选择性具有重要影响(图3e)。

图4 LLM智能体驱动的反应条件优化

该研究团队同时对二元醇底物12s进行了反应条件优化,以最大化反应收率。通过网页界面以自然语言描述优化任务后,Experiment Designer和Hardware Executor智能体将信息转化为结构化数据,并传递至自驱动优化平台。该平台由贝叶斯优化器、自动化合成设备和HPLC组成,分别负责提出新反应条件、执行实验和分析结果,实时优化进展会显示在网页界面中供用户查看(图4a)。优化过程中采用了基于PI准则(计算新条件是否可能成为最优条件的可能性)的停止策略。在36次实验后,PI停止准则被满足,找到了多个高收率反应条件(图4b-c)。同时Result Interpreter在第26次实验后建议终止,其指出反应收率已接近理论最大值,且反应空间探索已充分。如按此建议终止可减少10次实验,且优化结果无明显差异(图4d)。这表明Result Interpreter在优化过程中有效平衡了探索和利用(exploration and exploitation),体现出了其决策的合理性。

图5 LLM智能体驱动的反应规模放大和产物纯化

基于前期优化的高产率条件,由Experiment Designer选择了第35次实验的条件(反应时间45分钟、催化剂Cu(OTf)₂、1.34当量的碱DBU)进行规模放大(图5c)。随后,Experiment Designer提出了逐级放大策略:先在1 g规模验证反应的可重复性和稳定性,再扩展至100 g规模评估工业生产可行性,其中强调了气液两相有效接触和充足氧气供应的重要性,并精确计算了试剂配比,研究人员随后基于此进行了1 g规模的放大实验。纯化阶段,Separation Instructor经两轮决策后确定洗脱液比例为正己烷:乙酸乙酯=3:1,此条件下目标产物12p的Rf值为0.28,杂质的Rf值为0.49,达到有效分离(图5b)。最终,使用自动过柱机分离得到915 mg产品,纯度>98%,分离收率为86%(图5d)。

图6 LLM-RDF在实际化学合成开发任务中的应用

该研究团队进一步探索了LLM-RDF在实际化学合成开发任务中的适用性,通过了三个具体案例进行验证:亲核芳香取代(SNAr)反应的反应动力学研究,光催化C-C交叉偶联反应的反应条件优化,以及非均相光电化学反应器的放大设计(图6)。

此研究开发了一个基于LLM的反应开发框架(LLM-RDF),成功实现了醇类氧化为醛反应从文献检索到产品纯化的全流程开发。随后,LLM-RDF在三个实际化学合成开发任务中进一步验证了其适用性,展现了其在合成方法搜索、自动化设备代码生成、波谱分析、化学计量计算、分离条件优化和反应器设计等任务中的自主研究与决策能力。通过结合化学家、LLM智能体和自动化实验平台,LLM-RDF显著简化了传统上以专家为主导的劳动密集型反应开发流程。此研究中,智能体之间的通信仍通过人为中介完成,以审查实验计划和结果。未来,随着LLM可靠性进一步提升,可开发类似AutoGen框架的多智能体系统,实现智能体直接通信,减少人工介入,仅在关键决策时提供支持,从而大幅提升反应开发的自主性和效率,为化学合成开发的智能化和自动化奠定基础。

智能电化学微反应过程课题组以高附加值化学的智能与绿色合成为目标,融合化学工程、人工智能、自动化高通量装备等交叉领域技术,开发新型合成方法、自动化筛选核心器件、自驱动人工智能算法与无人实验室平台。课题组至今在Science(2篇),Nat. Comm., Angew. Chem.等杂志已发表多篇高水平论文。课题组组长莫一鸣博士,博导,本科毕业于清华大学,博士毕业于麻省理工学院,国家级青年人才,国家重点研发计划青年首席科学家,曾入选“35岁以下科技创新35人”中国区榜单。

*本文转载自《研之成理》公众号,版权归原作者所有,如有侵权请联系删除。

相关阅读

加载更多

联系我们

经验丰富的服务团队和强大的生产支持团队为客户提供无忧的订单服务。

    请选择语言