姜雪峰/罗三中/廖矿标/姜珊/马晶/江俊/帅志刚共话:AI与自动化如何引领未来化学发展新动力

物质科学
物质科学Physical science在过去,人们对于化学实验室的了解,就是一群研究人员身着白大褂,头戴护目镜,手里摇着试剂瓶。然而,迄今为止,化学领域前沿研究中已经开始使用人工智能(AI)驱动的自主合成机器人开展实验操作。Physical science在过去,人们对于化学实验室的了解,就是一群研究人员身着白大褂,头戴护目镜,手里摇着试剂瓶。然而,迄今为止,化学领域前沿研究中已经开始使用人工智能(AI)驱动的自主合成机器人开展实验操作。这些可自主学习的机器在速度和准确性上有可能超越人类,加速分子和材料的发现与合成。
2024年6月17日,Cell Press细胞出版社旗下期刊Cell Report Physical Science发表了题为“Artificial intelligence and automation to power the future of chemistry”的Voice文章。在本文中,我们采访了国内该领域的多位资深专家,共同探讨了人工智能和自动化在未来化学领域发展中所发挥的关键作用。

长按图片识别二维码阅读原文解锁化学领域新篇章:人工智能驱动的仪器革新

姜雪峰
华东师范大学
人工智能(AI)的出现能够为化学领域的发展带来革新,为高效创新的实现提供机遇。在AI驱动的化学中,装置与硬件是理论模型和实际应用之间的关键纽带。高通量(HT)筛选设备、光谱仪和色谱系统等先进装置能够快速收集海量准确数据,这些数据对训练和验证人工智能算法至关重要。此外,化学实验室中机器人和自动化硬件的集成可以快速、精准地执行复杂而对人不友好的实验,进一步增强人工智能在预测化学反应、设计新材料和优化合成途径方面的能力。因此,高精准的前沿仪器与人工智能之间的协同作用能够缩短实验周期、降低成本并加深认知,从而推动化学领域的发展。
基于此,我的研究重点在于设计和优化尖端的科学仪器和硬件。这些设备能够将AI算法无缝集成到化学研究中,并在加快实验进程以及大数据收集和分析方面起到关键作用。例如,我们的工作促成了AI驱动的机器人合成平台与高通量筛选系统的开发。这些平台能够实现全自动化化学合成,并以前所未有的速度和效率筛选大型化合物库。通过将AI算法与最先进的设备相结合,就能够以更快的速度挖掘具有某种特性的新型化合物或材料,并将其应用于药物开发到材料合成等各种领域。
此外,AI驱动的设备仪器也提高了化学分析的准确性和可靠性。利用AI算法分析质谱仪和核磁共振波谱仪等仪器产生的复杂光谱数据,可以让我们从分子结构和化学反应中获得新见解。这不仅加快了科学探索的步伐,还使研究人员能够更深入地了解化学反应的本质。同时,AI驱动的数据分析工具还能够帮助我们合理地解释实验结果并指导未来的研究方向。通过自动分析大型数据集并识别相关数据,AI算法能够帮助我们更有效地优化实验参数,并提出更为明智的决策方案。
在未来,AI与先进科学仪器之间的协同作用将持续推动化学领域的创新。通过AI驱动设备和硬件的开发,我们可以开拓化学研究的新领域,解决当前人类社会面临的紧迫问题,如生物医药的开发、可再生能源的探索和环境的可持续发展。
总之,AI与前沿科学硬件设备的结合有望为化学领域的未来发展提供强大动力。通过AI和尖端设备的协同作用,必然加速科学探索和创新的步伐,为建设一个更加清洁绿色,可持续发展的世界而努力。
人工智能在合成化学领域的进展与挑战
罗三中
清华大学
近年来,人工智能在合成化学领域快速发展,在数据自动提取、反应和性质预测、逆合成分析和自动合成等多个方面都有广泛应用。人工智能与合成化学的结合,有望在未来几十年来彻底改变现有的研究范式。其中,“合成助手(Synthetic Copilot)”是一个备受瞩目的概念。合成助手能够根据科研人员的研究兴趣收集并总结最新的文献,提供新的研究方向建议,协助化学家设计新分子和合成路径。在实验室中,具备实体形态的合成助手能够自主开展实验,利用在线分析仪器进行自动检测和结果分析。当然,化学家丰富的专业知识、创造性思维和化学直觉仍将为整个过程提供核心指导。
尽管取得了显著进步,人工智能在合成化学中的应用仍面临数据稀缺、算法可解释性、实验验证的稳健性、反应结果的准确检测和分析以及化学系统复杂性的捕捉等诸多挑战。首先是高质量合成化学数据库仍十分匮乏。现有的数据提取算法尚未达到解析复杂化学语义的要求,因此,利用大语言模型(LLM)收集相关信息并将其转化为结构化数据库至关重要。此外,开发能够提取插图和分子结构的多模态模型,对于构建多样且信息丰富的数据库也至关重要。此外,高通量实验(HTE)同样为模型训练提供了宝贵的数据来源。
化学特征工程是合成化学中应用AI技术的另一个关键环节。它是指将分子及其周围的化学环境映射到抽象数学结构中的过程。然而,如何保证在这个过程中损失尽可能少的关键信息仍极具挑战。研究人员现在专注于分子的特定性质和可计算参数,以开发如分子指纹、化学表示语言(如SMILES和InChI)、分子图和点云等描述符。尽管AI在这方面已取得重大进展,但在开发手性分子描述符以及准确表示复杂化学反应及其反应物、催化剂、溶剂和反应条件之间复杂关系方面仍面临诸多难题。因此,计算机科学家和化学家之间的合作对于设计新的化学表示方法和反应网络至关重要。
人工智能模型、反应数据和实验之间的协同互动正在改变合成化学。多样化的AI模型提升了反应优化、催化剂发现和化合物合成的效率和准确性。将人工智能与机器人技术和自动化相结合,可能会彻底改变未来的实验工作流程。主动学习和贝叶斯优化等创新策略,可以显著加快新反应发现和优化的周期,为未来的全自动实验室铺平了道路。
通用人工智能(AGI),特别是由大语言模型(LLM)驱动的AI系统,预期将为化学领域的智能化发展做出了重大贡献。AGI可以理解化学知识、提取和分析化学文本,并预测化学性质或反应性。此外,它还可以协助研究人员规划和开展实验,减少实验时间和成本。由 LLM 驱动的智能合成助手可以通过整合各种化学工具和数据库,推理复杂的合成化学问题。然而,为了更广泛地应用于化学研究,我们仍需要解决可靠性和专业性相关的问题。随着AGI技术的进步,它有可能在复杂合成化学任务中变得更加有效,超越其作为“人机桥梁”的角色。
总之,人工智能通过使研究过程各个方面更加智能化,显著推动合成化学的发展。尽管面临诸多挑战,但跨学科的交叉合作可以带来创新的解决方案。高质量的数据、先进的分子表示、自主实验室技术的整合,以及AGI在整个研究流程中的应用,有可能为合成化学带来一场“寒武纪爆发”式的巨大变革。
高通量实验赋能人工智能驱动的合成化学
廖矿标广州国家实验室
1828年,德国化学家维勒合成了尿素,自此开启了合成化学的新篇章。在接下来的两个世纪中,合成化学一直都是科学进步的基石,对人类社会产生了重大影响。合成的结果通常受到多种变量的影响,例如反应条件和底物结构。化学家的研究目标之一便是阐明这些变量与结果之间的复杂关系,然而广阔的反应空间为这一工作带来了巨大的挑战。长期以来,合成化学一直受困于低效且繁琐的实验过程。反应优化、新反应发现以及复杂天然产物的合成通常需要化学家耗费数月甚至数年的时间与精力。
在第四次工业革命的推动下,合成4.0时代开启,自动化、数据科学和人工智能等前沿技术渐渐融入化学。为了应对这种转变,化学界已经着手开发人工智能化学,以解决化学难题。如今,人工智能已经遍布人们生活的各个层面,从个性化推荐、自动驾驶到药物发现。它已成为识别数据中隐藏模式的强大工具。在某种程度上,合成化学也需要通过模式识别来构建目标分子。为了加深理解并拓宽合成反应的应用,化学家们对开发基于人工智能的反应预测模型表现出了浓厚的兴趣。其中,反应数据集是开发人工智能模型的基石,其内容包括底物结构、反应条件和结果(产率或选择性)。然而,尽管已经积累了大量数据,但存在诸如数据偏向阳性、不一致和缺乏注释等问题。因此,尽管已有数个基于人工智能的反应预测模型被报道,但建立精确预测模型的任务仍然充满挑战,且亟待解决。
高通量实验(HTE)是一种利用机器人技术并行进行反应研究的前沿技术,为获得标准化和可靠的数据集提供了途径。凭借最小化数据点选择偏见的能力,HTE有望显著提高数据收集的质量和全面性。通过快速开展平行实验,HTE有助于生成可靠的数据集,从而实现更准确、更可靠的分析。此外,HTE协议的标准化还确保了实验之间的一致性,进一步增强了结果数据集的可靠性。因此,研究人员可以借此更深入地了解反应机制,探索反应趋势,并开发预测模型。基于此,将HTE整合到研究工作流程中,将有望彻底改变化学数据的收集模式,推动从药物开发到材料合成等领域的发展。
将自动化、数据科学和人工智能与传统合成化学相结合,彻底改变了我们探索化学领域和应对合成挑战的方法。我们努力的核心是开发高效、经济且用户友好的 HTE 设备。HTE赋能的AI技术,将成为化学领域中探索和研究的新范式,带来巨大的发展机遇。
数据驱动的材料发现:人工智能与自动化相结合
姜珊上海科技大学
新材料的探索对于推动各行业和应用领域的创新至关重要。然而,世界上的材料种类不计其数,成分和结构探索的可能性无穷无尽,这为快速识别特定用途的潜在材料带来了巨大挑战。探索新材料的传统方法通过实验来合成和表征材料,这一过程既耗时又费力。
为了改善上述问题,亟需开发高效准确的新方案以探索广阔的化学世界。数据驱动的新材料探索代表了材料科学的一种变革性范式,它彻底改变了材料设计的方法。在这种方法中,数据被视为从材料数据集中获取知识的宝贵资源。材料数据库和人工智能等先进工具为材料研究带来了新的机遇,并有望全面应用于新材料的探索。
迄今为止,模拟计算在材料发现中最重要的应用之一是性能预测,这通常比实验表征更为快速。而高通量计算是一种评估材料性能和探索新材料的有效方法。然而,随着筛选结构数量的增加,计算成本也逐渐变得高昂而令人无法承受。机器学习(ML)等人工智能技术可以从已知数据集中学习,对未知的材料数据进行预测。这些技术可以在已知材料及其特征数据集上进行训练,用以预测新材料的特性,从而大幅降低新材料发现和设计所需的成本和时间。此外,最理想的情况是成功进行 "逆向设计",即利用人工智能设计能够满足一组预先定义的功能材料所需的“标准”分子。逆向设计利用人工智能颠覆了传统的材料发现过程,不是先合成材料再测试其特性,而是从所需特性出发,利用人工智能算法预测能满足这些特性的目标分子。
鉴于合成和测试材料的范围非常广泛,将自动化和机器人技术集成能够大大增加可用于评估的材料数量——也许会提升几个数量级。自动化技术,如自动合成机器人和高通量筛选系统,可以快速而精确地处理大量的重复性任务,进而使研究人员能够专注于数据分析和创新发现。机器人可以执行复杂的合成方案、样品制备并对材料特性进行初步评估,同时可确保过程和结果的一致性和可重复性。这一改进不仅加快了探索新材料的步伐,还扩大了实际可探索和开发的材料范围。
未来,自动化和人工智能将大大加快实验和计算研究项目的进展。自动化实验过程和人工智能驱动的计算分析之间的协同作用将形成了一个反馈回路,通过快速迭代和预设评估,加快新材料和新技术的探索和开发。随着人工智能和自动化技术的日益成熟,两者的结合有望带来更加高效、极富创新和满有成效的科学研究。
打开材料设计黑匣子:从跨尺度和闭环自动化工作流程中获得启示
马晶南京大学
在材料设计领域,人工智能已然取得了显著的进展。例如,机器学习可以辅助分子性质预测、原子或分子尺度力场生成、候选材料的高通量筛选、功能导向逆向设计策略以及自动机器人合成。研究人员希望开发出具备高精度、高速度、可覆盖高维材料空间、高通量、高可转移性、高可达性和高一致性等特征的高效人工智能工具,以推动新型功能材料的开发。然而,这将面临一个问题:机器学习模型的精度越高,涉及的参数就越多,进而导致模型的不透明度增加。一些研究人员还质疑,与人类利用知识和想象力探索材料相比,机器学习能否真正实现超越。
为了提升材料“结构/功能单元设计—材料合成—材料表征/光谱分析—性能优化/增强” 设计流程的可解释性,人们尝试嵌入材料领域知识或学习到的特征。但是,目前这些可解释的机器学习模型和人工智能技术是在不同的空间和时间尺度上分阶段建立的。我们可以设想,在两个或更多不同阶段进行联合或连续学习,可能需要通过增大时间和空间尺度,来实现从原子、分子、聚集体到相域再到器件的跨尺度学习。但由于不同尺度间的特征和模型差异巨大,跨尺度的机器学习十分罕见。而微观尺度的计算结果与实际实验结果缺乏一致性,也阻碍了“设计与预测—合成与组装—结构表征—性能优化”的自动闭环。
我认为,图和图形人工智能是连接不同尺度的良好切入点,有望在不久的将来实现闭环的自动材料探索。图数据中的节点和边能够有效传达不同节点间的相对信息,已经在日常生活和科学研究中成功应用。图在分子系统中的应用由来已久,它可以利用邻接矩阵和键连接度简化了π共轭烃或金属配合物的量子力学哈密顿描述。在分子尺度上,无论是否存在周期性边界条件,通常会将每个原子设为节点,每个键设为边。通过将粗粒化单元作为节点,粗粒间相互作用作为边,图数据结构也可应用于粗粒化模型的介观性质预测。此外,将各种实验光谱(如XRD、IR和XAS)和图像(如STM/STEM/SPM)转换为图结构数据,在特定的材料筛选中表现出了优异的性能。
尽管大型语言模型(LLM)促进了多模态输入向具有化学或物理意义符号的转化,但在解决实际问题时,仍存在局限性。因此,需要一些新颖且易上手的算法来自动构建知识图谱,并从化学家的反馈中强化学习。LLM与知识图谱的动态集成将为实现多模型和多尺度协同、计算与实验闭环互动和自动优化多任务提供大量的机会。这种功能强大的材料设计有望打开预测模型中的黑匣子,为材料创新提供新的视角。
利用人工智能驱动的自主化学为化学和材料未来发现提供动力
江俊中国科学技术大学
在人工智能和机器人技术的推动下,化学和材料科学正在经历一场深刻的变革。这种变革以将复杂的人工智能算法和自动化系统整合到日常实验室研究中为特征,从根本上改变科学研究的方式。人工智能的最新进展,特别是在大型语言模型领域,已经显著提升了自主化学研究的发展。人工智能模型和代理已成为化学实验自动化不可或缺的一部分,在闭合“预测-制造-测量发现”循环和解释科学数据方面发挥着重要作用。人工智能驱动的自主系统通过其智能功能来规划实验、与机器人交互并管理数据,大大提高了实验的效率和精度。除了人工智能,机器人技术在实验室自动化方面也富有成效,为满足自主化学的复杂需求量身定制了各种系统。这些系统包括自动化高通量平台、精密机械臂、移动机器人和协作机器人等。
自主化学的发展经历了三个主要阶段,每个阶段都标志着该领域在方法和能力上的重大进步。第一阶段涉及建立旨在解决特定问题的独立自主实验室。这些实验室通常独立运行,专注于局部问题,而缺乏实验室间的沟通和数据共享。目前,全球大多数自主实验室都处于这一阶段。我们正迅速过渡到第二阶段,即采用基于云系统进行非本地化和异步研究的协调策略。这一阶段通过人工智能在实验工作流程中分配任务并协调,促进实验室间的数据和资源无缝集成,克服地理和时间的限制,进而扩大研究发现的潜力。
展望未来,第三阶段的设想是我们提出的全国性或全球智能科学家系统网络。这些集成的智能系统将进行端到端的自主研究,通过将人工智能模型与机器人系统相结合,展示出高度的认知和操作集成。值得注意的是,这一阶段旨在开发人机协作系统,其中认知智能通过知识融合支持科学问题的提出与分析。这个过程驱动机器人实验系统和计算机模拟,进而产生高质量的数据,而这些数据将会反馈到人工智能模型中,从而得到优化、改进和提升,以解决复杂的科学难题。这种整合将自主实验室转变为高度互联的高效实体,超越传统的研究界限,推动全国乃至全球范围内的科学突破。我们设想,智能科学家系统的实施将涉及创建集中式平台,用以收集和分析数据、开发智能模型并改进科学方法和技术。这些平台将作为科学“大脑”,指导分布式创新设施,帮助用户实现特定的科学突破。这种综合型策略将促成一种新的科研组织形式:集中式、资源密集型的科学智能开发和部署将推动分布式、本地化的实验操作,以催化创新。这种结构最终降低了跨学科和跨领域研究的门槛,使各级学术界和工业界的科学家和研究人员都能够从事高度专业化的实验和个性化的科学探究。
随着化学和材料科学研究领域的不断发展,人工智能驱动的自主化学的潜力日益显现。从单个自主实验室到广泛的智能系统网络的转变,将推动我们在科学探索和挑战方式上的革命性转变。这一转变将最大限度地提高自主化学研究的效率和效力,并使跨学科和跨行业的创新能力民主化。随着我们的不断前进,最先进的人工智能和机器人技术与化学和材料科学的不断融合与发展,有望加速发现具有特定功能的优质化学品和材料,为整个社会带来巨大的福祉。
人工智能赋能有机发光二极管的新时代
帅志刚香港中文大学
有机发光二极管(OLED)材料的分子设计需要采用一种数据驱动技术,以确定三个关键参数:发射波长、峰值宽度(色彩纯度)和量子效率(亮度)。
自室温低压薄膜有机电致发光被发现以来, OLED已成为学术界和工业界的研究重点。如今,OLED已广泛应用于手机和电视显示器。由于无需背光,OLED显示器具备节能优势,同时还具有视角广、色彩对比度高、响应速度快、灵活性强甚至透明等特点。据IDTechEx 预测,到2030年,全球OLED市场价值将超过600亿美元。
根据 Kasha 规则,光发射源自最低分子激发态。发射波长由光隙决定,辐射衰减速率与跃迁偶极矩(振子强度)的平方成正比。对于荧光,光发射来自最低单重态激发态(S1);对于磷光,光发射来自最低三重态(T1);而对于 TADF,光发射则取决于S1的性质以及S1-T1间隙(与反向系间窜跃相关)。通过量子化学方法确定S1和T1的位置及包括自旋轨道耦合在内的跃迁偶极矩是一项艰巨的任务。对于具有几十个原子的典型OLEDs分子,计算激发态的最佳选择似乎是含时密度泛函理论。尽管经过20多年对调整交换关联函数的评估,发展一种普遍、精确且可靠的计算方法仍然长路漫漫,特别是对于需要同时确定S1和T1的TADF。
为了获得更高的色纯度,需要更窄的发射光谱半峰全宽 (FWHM)。通常,对于高效的OLED分子来说,薄膜和溶液相中的发射峰位置和FWHM都应该相近,这表明非晶态薄膜中的分子间相互作用较弱。因此,预测分子发射的FWHM可以作为色纯度的良好指标。在这方面,最近提出的多共振TADF分子表现出窄发射特性。从本质上讲,电子激发态振动耦合决定了 FWHM。研究表明,在计算包软件MOMAP中实现的热振动关联形式 (TVCF) 可以对包括 FWHM 在内的发射线形进行系统预测,即使不是绝对值,误差也在 10%–20%的 范围内。
然而,量子效率的预测更为复杂。总量子效率由三个因素的乘积决定:(1)载流子复合率(并非所有电泵浦载流子都能形成电子-空穴对,因为器件中始终存在电流);(2)受自旋统计限制的发射态比例;(3)分子的发光量子效率。其中根据爱因斯坦自发辐射理论,自发辐射衰减速率为(f为振幅,ν为发射波数),而非辐射衰减knr的确定是关键。虽然kr相对容易预测,但knr却难以计算。一直以来,TVCF都是揭示多种OLED系统量子效率与分子结构之间关系的重要基础,它不仅适用于OLED量子效率的研究,还适用于聚集诱导发射和纯有机磷光的合理化,以及光学传感/检测和光催化的分子设计。为了满足日益增长的OLED市场需求,精确预测量子效率以及波长和FWHM已成为当务之急,而数据驱动的AI策略似乎是最合适的选择。






评论排行