科学研究
首页 / 科学研究 / 正文
我校学者开发大语言模型工具eG4finder以预测内源性G-四链体并解析其演化和功能

南湖新闻网讯(通讯员 张泽昊)9月1日,我校生命科学技术学院、生物医学与健康学院陈振夏课题组与信息学院章文教授课题组合作在国际学术期刊Genome Biology在线发表了题为“Mammalian conservation of endogenous G-quadruplex reveals their associations with complex traits”的研究论文。该研究首次系统解析了人类内源性G-四链体(eG4)在哺乳动物谱系的演化图谱,并基于DNA大语言模型开发出性能领先的跨物种eG4预测工具,揭示了高度保守eG4 在基因调控与人类复杂性状中的重要作用,为理解基因组调控元件的演化规律及疾病机制研究提供了全新视角。

DNA 并非仅以双螺旋形式存在,由鸟嘌呤富集序列形成的G-四链体(G4)是一类重要的非B型DNA结构。生物体细胞内存在的内源性G-四链体(eG4)被证实是调控基因表达的“分子枢纽”,能影响转录因子结合、染色质状态,进而调控关键生命过程。然而,长期以来,人类eG4的演化保守模式及其与功能的关联,一直是基因组学领域的未解之谜。

演化保守性是判断调控元件“功能性”的金标准之一。为此,研究团队整合 EndoQuad数据库与7种人类细胞系的G4 CUT&Tag数据,构建了包含404,538个eG4的全面参考集,并结合Zoonomia联盟的241种哺乳动物基因组比对数据,首次绘制出人类eG4在哺乳动物谱系的演化图谱(图1)。

通过计算每个eG4 在240个非人类哺乳动物基因组中的碱基保守率,研究团队发现人类eG4主要由三种不同演化保守模式的eG4组成(图1):高度保守型(C1)、活跃演化型(C2)和灵长类特异型(C3)。其中,92,910个高度保守eG4(占比23%)表现出最强的跨物种序列保守性。研究团队还发现转座元件对灵长类特异型eG4的演化扩张具有重大贡献。SINE-VNTR-Alu(SVA)反转录转座子主要驱动人类特异型eG4的演化扩张。而对于仅在人猿总科、狭鼻下目和简鼻亚目中保守的eG4来说,其演化扩张主要由内源性逆转录病毒1(ERV1)反转录转座子驱动。

人类内源性G-四链体在哺乳动物谱系的演化图谱

为了验证人类eG4的演化保守模式与其结构保守水平之间的一致性,研究团队还开发了基于大语言模型的eG4预测工具eG4finder(图2)。eG4finder以DNABERT-2为基础,该基础模型使用了包含人类在内的共135个物种的基因组进行预训练,捕获了全面的基因组语法规则并具有极强的泛化能力。通过人类eG4的全面参考集进行微调,eG4finder能仅根据DNA序列精准预测潜在G4序列在体内形成eG4的潜力。

在eG4预测任务中,eG4finder 在人类测试集上的预测准确率达0.89,AUROC达0.94,较其他G4预测工具性能提升23%至106%。eG4finder在小鼠、猪、鸡等跨物种预测中同样表现优异。这为解析不同物种中eG4的演化与功能提供了高效工具,将极大推动比较基因组学研究。

eG4finder的模型架构和预测性能

利用eG4finder预测非人类哺乳动物eG4,研究团队验证了高度保守型eG4的高度跨物种结构保守性。进一步研究发现,不同演化保守模式的eG4具有不同的功能分工:高度保守型eG4主要富集于发育和衰老相关的关键生物过程,活跃演化型eG4集中于糖代谢相关功能,而灵长类特异型eG4则更多参与嗅觉相关通路。

更重要的是,高度保守eG4展现出极强调控潜力:它们更倾向于分布在染色质调控区域(启动子和增强子),具有更高的染色质可及性、更丰富的转录激活型组蛋白修饰(如H3K4me3和H3K27ac),且DNA甲基化水平更低,与大多数转录因子的亲和力更高,是名副其实的转录调控枢纽。

在与人类复杂性状的关联分析中,高度保守eG4的优势进一步凸显(图3):全基因组关联研究(GWAS)中与疾病、表型相关的遗传变异在高度保守eG4中富集度最高,而常见变异的富集度最低,且其携带的变异更可能影响致死基因、高度保守基因的表达。例如,位于高度保守eG4中的变异rs402072,可调控致死基因PRKD2的表达,与糖尿病患病风险密切相关。这表明高度保守eG4受到严格的种群内纯化选择,其内的遗传变异可能直接影响关键基因活性,进而影响复杂性状和疾病风险。

高度保守eG4与人类复杂性状的密切关联

我校生命科学技术学院博士生张泽昊、信息学院博士生王紫嫣和武汉大学泰康医学院博士后李聪慧为该论文的共同第一作者,陈振夏教授与章文教授为该论文的共同通讯作者。该项工作得到了国家重点研发计划、国家自然科学基金、湖北洪山实验室基金、中央高校基本科研业务费专项资金的资助。

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03750-z

英文摘要:

DNA G-quadruplexes (G4s) are four-stranded DNA structures. Endogenous G-quadruplexes (eG4s) have been identified as pivotal regulatory elements for gene expression in the human genome. The measurement of evolutionary conservation can be employed to ascertain the functional relevance of putative regulatory elements. However, the evolutionary profiles of human eG4s remain largely unknown.

Here, we construct mammalian evolutionary profiles of human eG4s based on a comprehensive reference annotation of human eG4s from the integration of the eG4 database EndoQuad covering 41 human cell lines and our home-made G4 CUT&Tag data covering seven cell lines. We find that transposable elements contribute substantially to the evolutionary spread of primate-specific eG4s. A total of 92,910 highly conserved human eG4s were identified under mammalian constraint. By developing and utilizing the eG4 prediction tool eG4finder, which is based on a large language model, we verify the high structural conservation of highly conserved eG4s. The enrichment of highly conserved eG4s in developmental and aging pathways highlights their potential significance in key biological processes. Notably, highly conserved eG4s exhibit higher regulatory potential, regulatory activity and affinity for transcription factors. We demonstrate that highly conserved eG4s are the most powerful transcriptional activation elements in the total eG4 collection. Meanwhile, trait-associated variants and variants affecting the expression of high phenotypic severity genes are most enriched in highly conserved eG4s.

Our study highlights the important regulatory functions and close association with complex human traits of human eG4s that are highly conserved in the mammalian lineage.

审核人:陈振夏

 

 

收起 展开

最近新闻

单周单篇点击量排名