复杂化学体系的深度学习 | NSR

 新闻中心     |      2024年04月23日

      各类分子与材料的理论计算与模拟极大地推动了化学与材料等相关领域的发展。然而,经典的量子化学计算的计算量随体系大小呈指数增长,难以用于大分子和凝聚相体系的模拟。分子材料理性设计与工艺条件优化面临着错综复杂的化学反应网络的计算困难。近年来,机器学习技术快速渗透到化学研究的各个领域,成功用于揭示隐藏在大量计算数据与实验数据背后的内在规律、挖掘分子结构与物理化学性质之间的深层次联系、加速复杂体系能量和力的计算。深度学习因其具有自动提取并学习高维度特征的能力,已成为化学科研人员常用的研究方法之一。

       最近,南京大学李伟教授、王国强副教授和马晶教授在《国家科学评论》(National Science Review,NSR)发表论文,展望了深度学习在复杂化学体系中的应用前景。面对复杂体系与化学反应过程难以准确模拟的挑战,基于低标度电子结构计算以及局域分子轨道或分子片段描述符,利用深度学习等技术,可望建立起从微观、介观到宏观尺度下体系的结构与性能关系,实现真实环境下复杂体系的跨尺度模拟,用于新材料和药物等功能物质的设计和发现(如图1)。

     1基于分子片段或局域分子轨道的低标度量子化学方法可以计算上千个原子组成的大分子,但难以进行相应的从头算模拟。通过使用空间不变描述符和基于核或深度学习的模型训练能量和力,建立机器学习力场,可以在经典力场的时间尺度内实现量子化学精度的动力学模拟。然而,基于小分子训练的通用机器学习力场精度不高,针对特定体系的机器学习力场又难以处理大分子和凝聚相体系。各类基于原子位点和局域键的图输入的深度神经网络方法与运用分子片段或局域分子轨道实现低标度电子结构计算有共同之处,可以通过构建片段深度学习力场实现跨尺度的动力学模拟。该力场通过子体系训练来预测大体系的基态能量和力,并有望扩展到激发态过程。进一步,通过学习片段电子结构属性来捕捉长程相互作用,发展自适应粗粒化机器学习力场,用于介观尺度的复杂体系模拟。

     在复杂化学反应的研究中,经典力场方法难以探究势能面上的高能区域。同时,在处理包含多个原子或多种反应组分的体系时,会遭遇组合指数增长的难题。因此,结合机器学习技术和自动化路径搜索等策略有望应用于长时间、大尺度的化学反应模拟,并有效解决过渡态区域采样不足的问题。通过运用深度学习生成化学反应规则并指导化学反应网络探索,能够克服组合爆炸问题,在多相催化和溶液反应网络研究领域具有巨大的应用潜力。进一步融合自动化技术与化学合成、表征手段,可以形成一个智能化反应设计平台,将微观层面的电子态变化、介观层面的分子聚集行为以及宏观性质预测进行无缝衔接,借助自动参数优化与自动生成实验方案的功能,有力推动功能物质设计与合成的进程。未来引入多模态和预训练的深度学习模型自主探索,有望实现反应和功能材料的自主发现。当前,深度学习辅助的虚拟筛选技术已成功缩短了药物和材料研发的传统实验周期,降低了研发人力与物料成本,但面对庞大的筛选空间仍然存在挑战。而生成模型、生成对抗网络等先进方法则为这一挑战提供了可能的解决方案。

     综上,深度学习方法可望用于解决复杂的化学问题。为了更有效地推广深度学习方法,代码的分享和高质量数据集的创建至关重要。如何减少量子化学处理复杂体系与庞大化学组合空间的计算量、构建高效和低能耗的深度学习模型是一个重要挑战。未来有望通过深入探明复杂化学体系中局域属性和全局性质之间的相互关联来解决上述难题,从而挖掘深度学习在材料和药物设计、可持续化学发展中的应用潜力。

image.png