林晓清(教授)

博士生导师 硕士生导师

所在单位:轻工化工学院

学历:博士

性别:男

联系方式:linxiaoqing@gdut.edu.cn

学位:工学博士学位

在职信息:在职

学科:化学工程

当前位置: 中文主页 >> 学生培养情况

祝贺课题组硕士研究生吴婷在化工领域三大经典期刊《Industrial & Engineering Chemistry Research》上发表最新研究成果

点击次数:

IECR-2025-1.jpg

近日,课题组在化工领域三大经典期刊《Industrial & Engineering Chemistry Research》上发表了题为《Methodological Roadmap for Machine Learning in Deep Eutectic Solvent Research: A Framework-Driven Review and Perspective》的前瞻性综述。这篇工作源于我们对低共熔溶剂(Deep Eustomectic Solvents, DESs)机器学习研究现状的长期关注。传统综述多侧重于应用案例的梳理,而我们尝试换一个视角——从方法学层面切入,将复杂的机器学习应用流程拆解为数据构建、分子表征、可解释性建模等六个核心维度,希望能为领域内的研究者提供一份从理论思路到实践步骤的参考框架。我们深知DESs研究的复杂性,当前机器学习在该领域的应用仍面临不少方法学挑战。因此,这篇综述更像是一次“抛砖引玉”的尝试:我们希望通过梳理和整合现有研究中的方法学经验,为推动DESs研究从传统的“经验试错”模式向“数据驱动”的智能探索模式转型,提供一些初步的思路和可能的方向。


摘要.jpg

论文解读:

研究背景DES作为一类极具潜力的新型绿色溶剂,其广阔的组合空间与复杂的构效关系对传统实验方法构成了巨大挑战。机器学习为此提供了强大的数据驱动解决方案,但其应用常因缺乏系统性指导而面临数据质量、分子表征、模型泛化性和可解释性等瓶颈。针对此现状,该综述文章不同于以往侧重于“盘点已有工作”的传统模式,尝试提出一个“指导如何正确实践”的端到端方法学框架。文章将复杂的机器学习流程系统性地解构为数据构建、分子表征、建模机制、模型评估、可解释性和用户界面六大核心维度(如图1所示),为构建可靠、可解释且可部署的ML模型,加速DES的智能设计与发现提供了清晰、可操作的路线图。

图1.jpg


1 DES属性预测系统性研究框架,涵盖数据构建、分子表征、建模机制、模型评估、可解释性和用户界面六大核心维度。

主要内容:

一、数据基础:正视DES机器学习预测的根本挑战

数据是所有DES机器学习研究的基石,并系统性地揭示了当前数据基础存在的三个根本性问题。首先是数据覆盖的非均衡性与稀疏性。我们通过对现有文献的定量分析发现,数据在性质维度上存在显著的定量差异,高度集中于密度和黏度,而在热导率等其他关键性质上数据匮乏。更重要的是,数据在DES的化学组成多样性(即不同氢键给体与受体的组合)以及物理性质的测量条件(如温度和压力范围)上呈现出高度非均匀的分布。如图2所示,黏度数据在极端温度区间尤为稀疏(图2A),而熔点、密度和黏度数据集均被少数几种DES类型(如Type III)过度代表(图2B, 2C)。这种系统性偏差导致模型训练样本无法充分代表整个DES空间,从而先天性地限制了模型的泛化能力。

图2.jpg

2 DES数据的系统性偏差。(A) 黏度数据在温度和类型上分布稀疏且不均1(B,C) 熔点和密度数据集被特定DES类型严重主导2, 3

其次是数据质量与一致性问题。由于缺乏统一的实验测量与报告标准,尤其是对痕量水分的控制,不同来源的数据之间存在异质性和潜在的系统误差,这为模型训练引入了噪声。针对这些基础性问题,我们倡导一个系统的数据治理策略:研究重心应从随机的数据收集转向目标明确、流程标准化的多属性同步测量;同时,应战略性地整合高保真度的计算化学数据(如DFT)以填充实验空白;并采用Open Refine等专业工具进行严格的数据清洗与去重,以构建一个覆盖度、均衡性和可靠性俱佳的数据基础。

二、分子表征:构建从经典到前沿的DES数字描述符

DES这种多组分混合物体系转化为有效的数值化输入,是框架的第二个核心。我们系统性地分析了分子表征策略的演进,并提出了最优的发展路径。以基团贡献(GC)法和RDKit工具包(图4)为代表的传统描述符,虽易于实现,但其在捕捉DES体系中由氢键网络主导的非加和性协同效应方面能力有限。基于量子化学的σ-profile虽然提供了更丰富的物理化学信息,但其计算成本高昂,不适用于高通量筛选。

图3.jpg

3 RDKit工具包中可用的分子描述符和推荐的替代描述符工具包。

因此团队建议DES分子表征的未来可聚焦多模态深度学习嵌入(Multimodal Deep Learning Embeddings)。比如PremuNet等新兴架构(见图4),通过集成图神经网络(GNNs)与Transformer,实现了对分子信息的多维度、深层次捕捉。GNNs直接在分子图结构上操作,精准编码原子类型、成键关系和拓扑结构;而Transformer则从SMILES序列中学习复杂的化学“语法”和语义。这种端到端的学习方式,使得模型能够自主发现超越人类先验知识的关键结构基元与相互作用模式,从而生成信息密度和表征能力远超传统描述符的特征表示。

图4.jpg


4 PremuNet模型架构4

三、建模机制:超越标准监督学习,拥抱先进建模范式

在建模机制这一维度,框架强调应超越对单一算法的简单应用,去探索更先进的建模范式以应对DES研究的特有挑战。考虑到DES的多种物理化学性质(如密度、黏度、热导率)之间存在内在的物理关联,多任务学习(Multi-Task Learning, MTL)成为一种高效的策略。MTL通过在不同预测任务间共享模型参数,使模型能够利用这些性质间的相关性,不仅显著提升了数据稀疏性质的预测精度,也通过隐性正则化增强了模型的整体泛化能力。同时,针对新化学体系数据量极少的普遍难题,元学习(Meta-Learning)或“学会学习”的范式提供了理想的解决方案。通过在大量已有DES体系上进行训练,元学习模型能够掌握一种通用的、可快速适应新任务的学习策略,从而仅需少量新数据点即可为全新的DES体系构建高精度预测模型。

四、可解释性建模:从“黑箱”预测到机理洞察的跨越

一个无法解释其决策依据的预测模型,其科学价值和工程应用的可信度都将受到限制。因此,在框架中,可解释性与预测精度被置于同等重要的位置。我们提出了一种双轨并行的方法来增强模型的可解释性。

第一条轨道是构建具有内在可解释性的模型,特别是物理知识驱动的神经网络。我们以TSTiNet模型(图5A)为例,该模型并非一个纯粹的数据驱动“黑箱”,而是将经典的过渡态理论(TST)的数学形式直接嵌入其网络架构中。这意味着网络学习的参数直接对应于TST方程中具有明确物理意义的项。这种设计确保了模型的预测行为始终遵循既定的物理规律,使其决策过程在物理化学框架下具有天然的透明度。

第二条轨道是应用事后可解释性技术,如SHAP。对于结构更为复杂的深度学习模型,SHAP等归因方法能够定量地剖析其内部决策机制。如图5B所示,SHAP分析能够识别出对熔点预测贡献最大的分子描述符,并揭示其影响的方向与强度。这为验证模型的学习行为是否符合化学直觉与已知的构效关系提供了有力工具,从而显著提升了对复杂模型的信任度。

图5.jpg


5 (A) 内嵌过渡态理论的TSTiNet模型1(B) SHAP分析结果5

五、模型评估、部署与展望:迈向智能设计新范式

在框架的最后部分,我们定义了从模型验证到实际应用的路径,并对领域的未来发展方向进行了展望。首先,强调了建立鲁棒的模型评估体系的必要性。单一的等指标容易产生误导,必须辅以k-折交叉验证和严格的多场景外推测试。通过TSTiNet与标准NN的性能对比,清晰地展示了模型的泛化能力远比其在训练集上的拟合精度更为关键。TSTiNet凭借其物理约束,在测试集上展现出卓越的稳定性,这凸显了模型在未知化学空间中的预测可靠性才是其真正价值的体现。

展望未来,该领域的未来目标为实现逆向设计(Inverse Design)。这代表了从“给定结构,预测性质”的被动模式,向“给定目标性质,生成候选结构”的主动设计模式的根本性转变。我们进一步预见到,大型语言模型(LLMs)将在此过程中扮演核心的“智能调度引擎”角色。研究者可以用自然语言下达高层次的设计指令,而LLM负责将其智能地翻译为生成模型(如扩散模型)所需的定量约束。最终,通过结合Coscientist等自动化实验平台,有望形成一个从“人类提出概念—> LLM理解并设计—> 生成模型输出结构—> 实验验证—> 数据反馈并优化模型”的高效人机协同科学发现闭环。这不仅是对现有研究方法的改进,更是对整个溶剂研发范式的重塑,标志着一个真正由数据和知识双重驱动的智能发现新范式的到来。

 

1 L. Yu, G. Ren, X. Hou, K. Wu and Y. He, Transition state theory-inspired neural network for estimating the viscosity of deep eutectic solvents, ACS Central Sci. 2022; 8(7): 983-995.

2 V. Odegova, A. Lavrinenko, T. Rakhmanov, G. Sysuev, A. Dmitrenko and V. Vinogradov, DESignSolvents: an open platform for the search and prediction of the physicochemical properties of deep eutectic solvents, Green Chem. 2024; 26(7): 3958-3967.

3 T. Wu, P. Zhan, W. Chen, M. Lin, Q. Qiu, Y. Hu, J. Song and X. Lin, ChemBERTa embeddings and ensemble learning for prediction of density and melting point of deep eutectic solvents with hybrid features, Comput. Chem. Eng. 2025; 196: 109065.

4 H. Zhang, J. Wu, S. Liu and S. Han, A pre-trained multi-representation fusion network for molecular property prediction, Inf. Fusion 2024; 103: 102092.

5 D. Jin, H. He, L. Sun, Z. Zeng and Z. Liu, An integrated ML model for the prediction of the melting points, phase diagrams, and eutectic points of the Type III and V deep eutectic solvents, Chem. Eng. Sci. 2025; 306: 121245.

原文链接:Methodological Roadmap for Machine Learning in Deep Eutectic Solvent Research: A Framework-Driven Review and Perspective | Industrial & Engineering Chemistry Research


上一条: 祝贺课题组博士研究生傅新媛在生物大分子方面国际知名期刊《International Journal of Biological Macromolecules》上发表最新研究成果 下一条: 祝贺课题组博士研究生石晨曦在分离科学领域国际知名期刊《Separation and Purification Technology》上发表最新研究成果