科学研究
首页 / 科学研究 / 正文
我校学者开发图神经网络可解释工具助力性状遗传解析

南湖新闻网讯(通讯员 张泽宇)图神经网络(Graph Neural Networks, GNN)是一类专门处理关联结构数据的深度学习模型,广泛应用于生物学数据分析(如基因调控网络、蛋白质相互作用网络、分子结构网络)、社交网络分析、交通网络优化等领域。它通过捕捉节点、边及其关联的特征,学习图中复杂的拓扑关系和节点间的高阶依赖性,为网络数据提供精准的表示和预测能力。

可解释图神经网络的研究具有重要意义,随着GNN在关键领域的应用日益增多,其“黑箱”特性可能带来结果不可控和决策不透明的问题。研究可解释的GNN模型,不仅可以帮助理解模型如何利用图结构和节点特征做出预测,还能为科学发现提供理论支撑,揭示数据中的潜在规律。例如,在生物性状的遗传解析中,可解释的GNN能帮助识别与性状强相关的关键基因,辅助科研人员探索基因的作用机制;利用蛋白质互作网络数据,可解释图神经网络能用于预测蛋白质间的相互作用关系,并通过解释模型识别关键的相互作用模式或影响因素,有助于药物靶点的发现;根据患者的多组学数据(如基因组、转录组和蛋白质组),可解释图神经网络能预测疾病的发生风险,并通过解释预测结果识别可能的分子机制。

近日,华中农业大学棉花遗传改良团队王茂军课题组题为Self-Explainable Graph Transformer for Link Sign Prediction研究论文被人工智能领域顶级会议AAAI录用,该论文主要研究了符号图神经网络(SGNN)中链路符号预测的可解释性问题。

图1. 符号图的广泛应用

本研究首次关注符号图神经网络的可解释性问题,提出了一种新的符号图表示学习框架——SE-SGformer。符号图可以用于建模生物基因与表型的上下调关系等。例如,在棉花的基因组研究中,基因和性状之间的关联可以被建模成图结构,其中基因和性状作为节点,性状又受基因表达上下调控的影响,这种上下调关系可以建模为正负边。因此,符号图神经网络可以用来预测基因与性状之间的关联,在生物学研究方面具有广泛的应用前景。然而,现有的符号图神经网络(SGNN)往往缺乏足够的可解释性,限制了其在一些需要理解预测依据的关键场景中的应用。

该框架不仅能够确保较高预测精度,还能提供明确的决策解释。为了解决目前深度神经网络的黑盒问题,该论文提出了一种新的可解释决策方法:首先识别目标节点的k个最近正邻居和最远负邻居,然后比较另一个节点与目标节点的k最近正邻居和k最远负邻居的相似度,以此来预测两个节点之间的关系。相较于传统的图神经网络解码器,这种方法为符号边的预测提供了更直观、可解释的信息。

图2. SE-SGformer的总体架构

在目前,实现这种可解释方法面临两大挑战:一是通过识别节点的k最近正邻居(最远负邻居)来做决策,学到合适的节点表示十分重要;二是经过统计,目前真实的数据集中大多数节点的负邻居很少甚至没有负邻居。针对前者,该研究设计了一种新的graph transformer架构,引入三种编码从不同角度编码图的信息,如图2所示:中心性编码统计节点的正负邻居数反映每个节点的重要性,邻接矩阵编码可以捕获节点的局部结构信息,符号随机游走编码结合多次随机游走的路径信息捕获节点与其多跳邻居之间的关系。同时,验证了该方法在表达能力上超过了现有的符号图神经网络SGCN和基于最短路径编码的graph transformer方法。针对后者,学者采用现有的Signed Random Walk with Restart (SRWR)算法挖掘节点潜在的负邻居,缓解节点负邻居稀疏的问题。该研究在多个标准数据集上进行了大量实验,验证了该方法的有效性。

据了解,华中农业大学硕士研究生李璐为论文第一作者,本科生刘佳乐、吉星宇参与了该项研究,王茂军教授和张泽宇副教授为论文共同通讯作者。该研究得到国家自然科学基金项目资助。

论文链接:http://arxiv.org/abs/2408.08754

审核人:王茂军

 

 

收起 展开

最近新闻

单周单篇点击量排名