南湖新闻网

首页 > 新闻 > 科学研究 > 正文

我校学者开发全基因组内源性G-四链体数据库EndoQuad

核心提示: 10月31日,我校生命科学技术学院、生物医学与健康学院精准营养与代谢团队陈振夏课题组在国际学术期刊Nucleic Acids Research在线发表最新研究成果。

南湖新闻网讯(通讯员 钱胜)10月31日,我校生命科学技术学院、生物医学与健康学院精准营养与代谢团队陈振夏课题组在国际学术期刊Nucleic Acids Research在线发表题为EndoQuad: a comprehensive genome-wide experimentally validated endogenous G-quadruplex database的论文。该论文系统地鉴定了脊椎动物基因组中的内源性G-四链体(endogenous G4, eG4),并着重探究了人类eG4的序列特征、置信水平、演化保守性、功能以及在疾病和癌症中的应用潜力,搭建综合性数据库EndoQuad,为后续eG4机制探究奠定基础。

作为遗传信息的载体,DNA除了典型的B型双螺旋结构外,还可以形成其他非B型结构,如eG4。eG4是由四个鸟嘌呤通过Hoogsteen氢键堆叠而成的高级结构,其广泛参与到DNA复制和基因转录调控等多种基本的生物学过程,并在癌症发生发展中发挥关键作用,有潜力作为癌症治疗的靶标。然而,目前大多数eG4的研究都是基于生物信息学预测的潜在G4序列,其并不一定在细胞中形成真实的eG4结构。有研究基于G4 ChIP-seq的方法开发eG4特异性抗体识别细胞中的eG4,但是由于eG4具有较强的动态性,少量的样本无法全面地获得基因组中所有的eG4。鉴于此,本研究整合所有公共的G4 ChIP-seq数据,对三种脊椎动物(人、小鼠和鸡)细胞中的eG4进行系统地鉴定和功能分析。

图1-eG4的置信度和调控模式

图1-eG4的置信度和调控模式

首先,研究人员收集了所有公开发表的G4 ChIP-seq/CUT&Tag数据,用统一的流程处理获得eG4 peak,再与生物信息学预测的潜在G4序列取交集获得精确的eG4注释信息。利用获得的综合eG4注释集,研究者发现eG4具有较强的细胞特异性,即大量的eG4只出现在一个或少数几个细胞类型中。为了避免高通量测序带来的误差,研究者将eG4按照出现次数进行分组,在多个细胞中出现的eG4的置信水平越高。结果显示置信度越高的eG4,其结构稳定性越高,序列和结构保守性也越高,更加富集在染色质开放的区域,并能被更多的转录因子结合调控。以上结果表明置信度高的eG4受到较强的自然选择约束,并参与了更加复杂的转录调控过程,因而更有可能具有功能,这些eG4也是后续功能研究的优先候选物(图1)。

图2-eG4的置信度和调控模式

图2-eG4的置信度和调控模式

研究人员还发现eG4与SNP和eQTL具有较高的共定位现象,置信度高的eG4与生存周期相关的eQTL具有更高的重叠程度,暗示鸟嘌呤G突变为其他碱基的eQTL可能通过破坏eG4结构,进而影响转录调控程序,最终影响病人生存周期。最后,研究者搭建了脊椎动物eG4的综合数据库EndoQuad,方便其他研究人员获取和使用eG4参考注释集和eG4介导的调控数据(图2)。

我校生命科学技术学院、生物医学与健康学院、湖北洪山实验室毕业博士生钱胜、博士生石梦威和毕业硕士生熊聿力为论文第一作者,陈振夏教授为论文通讯作者。该项工作得到了湖北省科技重大专项、湖北洪山实验室基金、中央高校基本科研专项资金和华中农业大学-中国农业科学院深圳农业基因组研究所合作基金资助。

论文链接

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkad966/7334091

审核人:陈振夏

责任编辑:孟丹琼