【ZiDongHua 之创新自科文收录关键词:自动化科技 人工智能  化学合成  数据科学  化学 】

化学合成领域的数据科学革命正在加速,自动化、实时分析和 AI 是「催化剂」

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 绿萝

自动化和实时反应监测使数据丰富的实验成为可能,这对于驾驭化学合成的复杂性至关重要。将实时分析与机器学习和人工智能工具相结合,可以加速最佳反应条件的识别并促进无差错的自主合成。

不列颠哥伦比亚大学的研究人员在《Nature Synthesis》发表题为「Automation, analytics and artificial intelligence for chemical synthesis」的评论,强调了数据丰富的实验和跨学科方法在推动合成化学未来发展方面的重要性越来越大。

自动化在合成「迷宫」中的作用

合成大多数分子需要进行多步转化、平衡输入材料(溶剂、试剂、催化剂)、反应参数(温度、添加顺序、时间)以及后处理和纯化策略。穿越这个多因素挑战类似于在资源有限的迷宫中搜索。

从历史上看,化学家必须借鉴以前的经验,制定谨慎的策略并根据有限的数据做出决定。实验室自动化等使能技术(Enabling technology)从根本上改变了现状,提高了分析反应数据的数量和准确性,从而可以在更短的时间内做出更好的决策。可以部署诸如高通量实验 (HTE) 之类的技术来快速调查可能的反应条件,但这些技术通常只能提供固定反应时间的分析产率百分比,而放弃与反应机制或动力学有关的关键细节。

图 1:通过超高效液相色谱分析的 Suzuki–Miyaura 交叉偶联显示了起始材料以及产物和常见副产物的不同峰面积与时间的关系。(来源:论文)

推论策略,称为数据丰富的实验 (DRE),侧重于提取实时反应进程数据,量化所有可测量的物种或参数,并为单个反应提供全面的逐个播放。使用实时监控进行路线侦察和优化可提供反应动力学的详细图片,揭示反应中间体、速率常数和副产物反应途径等关键信息。

自动化是使 DRE 方法成为可管理和富有成效的努力的关键使能工具。首先,需要硬件和仪器自动化来准确地协调整个反应过程中反应等分试样的捕获和分析。这取决于选择的分析技术(高效液相色谱-质谱、核磁共振光谱、高分辨率质谱)在不同程度上适用,但在所有情况下,反应过程测量所需的频率,精度和延长的持续时间都不利于人工操作。其次,反应分析数据的庞大数量和复杂性需要软件自动化技术来帮助注释、处理原始数据并将其转换为代表每个反应组分的浓度与时间阵列的趋势。最后,复杂的反应操作可以自动化执行,例如温度或催化剂剂量的精确变化,允许从单个反应中提取数据,这通常需要多次实验。

用「规则」和「目标」代替发条式执行

当前的数据驱动反应研究范式几乎完全侧重于使用人在回路中的步骤将数据转换为信息。这意味着分析工具创建实时反应趋势,然后由操作员解释以计划或指导实验活动。固定的多变量统计工具,例如实验设计或优化策略(例如批处理贝叶斯优化)利用自动化来获取大型数据集,但最终的解释和脚本编写是手动的。

现在存在一个紧急机会,实时监控的遥测技术可用于显著加速过程优化和反应发现。可以利用实时数据,使自动化系统能够接收有关流程的关键反馈。这既确保了预期实验的准确执行,又增强了自动合成协议的可转移性和可重复性。可以使用相同的数据集来允许自动反应硬件适应变化的环境。这在尝试执行多步转换时具有令人难以置信的影响,因为必须在合成进行之前形成前体。代替在设定时间添加固定数量材料的硬编码脚本,可以训练反应器在第一个反应完成时添加足够的试剂。这些条件参数允许进行更典型的传统研发工作流程的即时更正,并通过提供遵循实验「规则」实现的合成「目标」,为无差错自主合成打开大门。

人工智能和机器学习增强反应设计的潜力

机器学习 (ML) 和人工智能 (AI) 工具是实验数据驱动工作流程的强大补充,可加速反应条件的识别。预测模型是根据从 HTE 或文献来源获得的实验数据建立的,这些数据可以建议执行未知转化的反应条件。此外,通过将机器人反应执行、端点采样和数据提取与 ML 优化算法相融合,创建了自主优化平台。使用这些方法,可以减少确定理想条件所需的实验次数,但是,这两个示例都将实验结果减少到单个数量分数,例如产率百分比或立体选择性百分比。这些策略有其优点,但减少到固定时间的单一测量掩盖了化学反应固有的复杂性。

许多研究表明,从现有文献中提取反应性能数据(产率)会导致混合结果。数据偏向于最常发布的条件,导致提取流行的反应参数而不是最佳条件。更糟糕的是,定量测量以及应用的条件或技术的异质性使得无法区分报告的产量是实验失败还是分离困难的结果。对报告的合成数据进行同质化和系统化的尝试正在出现,但是,它们仍处于起步阶段。

HTE 自动化系统生成的数据集更加一致,但仍可能存在系统性偏差,限制了它们的广泛适用性。特别是,选择用于分析所选分析指标的时间点可能会提供假阳性或假阴性数据。例如,记录的低产品收率可能是由于反应组合启动延迟,或者所需产品在反应条件下不稳定。因此,选择错误的时间窗口来询问反应可能会导致被询问的系统过于简单化或误解。虽然来自 HTE 的稀疏数据可以作为路标,但许多真正有趣和意想不到的突破被遗漏了。

实时反应监测具有关键优势,预测模型可以使用完整的动力学数据进行训练。这些全面的数据解决了与数据完整性、偏差和过度简化相关的所有问题。首先,通过记录整个反应曲线,可以捕获和解释不同研究人员的反应性能差异。不匹配将有助于集中精力纠正协议传输失败的问题。其次,将捕获反应物种的全部演变,从而描绘出目标材料以及副产品和中间体的演变。这些趋势将作为未来反应发现的有用元数据,因为它们捕获了可能的转化,即使它们不是研究的重点。最后,使用经过适当训练的神经网络,可能需要很少的反应趋势才能明确地对基础机制进行分类。一般来说,ML 方法的模式识别能力非常适合训练整个反应的复杂模式。

总的来说,合成化学领域的数据科学革命正在加速,增强了对强大的、数据丰富的实验的需求。实时反应分析已被用于显著减少达到分子目标所需的时间。通过进一步将这些自动化数据收集方法与新的 ML 和 AI 工具联系起来,预测最佳条件和发现新合成路线的能力将呈指数级增长。