南湖新闻网

首页 > 新闻 > 科学研究 > 正文

机器学习和生物大数据交叉融合助力智能育种

核心提示: 3月15日,我校玉米团队开发了一套基于理想目标材料识别的机器学习算法:目标导向的优选技术,该算法可整合组学数据实现多个性状的协同选择,在保证育种目标整体一致的基础上,特定性状实现更优,为作物智能设计育种提供了技术支撑。

南湖新闻网讯(通讯员 杨文宇)3月15日,我校玉米团队在Genome Biology发表了题为“Target-Oriented Prioritization: targeted selection strategy by integrating organismal and molecular traits through predictive analytics in breeding”的研究论文。

该研究基于一个结合遗传研究和育种应用设计的包含5820份杂交种的玉米非完全双列杂交群体,开发了一套基于理想目标材料识别的机器学习算法:目标导向的优选技术(TOP, target-oriented prioritization)。该算法可整合组学数据实现多个性状的协同选择,在保证育种目标整体一致的基础上,特定性状实现更优,为作物智能设计育种提供了技术支撑。

作物育种技术正面临新的转型升级。利用基因编辑与合成生物学技术,借助生物和环境大数据与人工智能技术,快速聚合有利等位基因,实现作物新品种的定向智能培育被认为是未来育种技术发展方向。

多性状协同改良是目前制约育种效率的关键。作物育种中,育种家通常期待同时改良多个性状,但不同性状往往存在连锁累赘,如高产品种往往不抗病,适宜机械化收获的品种籽粒脱水快,但产量会受影响。同时选择两个或多个性状通常比选择单个性状育种更加困难。实际育种中,多性状选择主要有三种方法:一是逐项选择法,在一个育种周期中只对一个性状进行选择;二是独立淘汰水平法,在一个育种周期同时对多个性状进行选择,对满足条件的材料取交集;三是指数选择法,根据性状的经济重要性或期待改进的幅度对其进行加权的选择方法。尽管指数选择法比逐项选择法和独立淘汰水平法更有效,但性状重要性的赋值依赖育种家经验,且必须为每个特定的种群和育种目标建立理想的选择指数,这种思路操作起来非常困难,难以推广。

文章第一作者杨文宇博士开发了一套适用农作物的DNA画像技术,以特定品种(商业品种或区试对照材料)为目标,在育种资源中,通过基因组信息对材料进行“表型画像”,并搜索和“目标画像”整体性最相似的材料。该方法被命名为目标导向的优选技术(TOP, target-oriented prioritization)。该研究利用4套独立的不同数据集,对TOP选择效果进行测试,包括5820个F1的玉米杂交种,368个玉米自交系,282个玉米自交系和210个水稻自交系。研究结果发现,TOP方法在多个物种、多个数据中具有广泛的适用性,能有效平衡多个性状间的复杂相关性,实现与特定目标品种整体相似的前提下,筛选出特定性状更优的候选材料。如果进一步加入其它组学大数据,TOP的选择精度能进一步得到大幅提升。以我国生产上大面积推广的玉米品种“郑单958”为目标材料,从34188份理论可以组配的杂交组合中选出86个(中选率0.25%),进一步对这些中选的杂交组合进行田间试验验证,结果显示,10个杂交组合在整体性状和“郑单958”相似的基础上,实现了0.75%至8.66%的增产,为后续进行品种精准改良提供了优良材料资源,与常规杂交育种相比,大大降低了工作量。

玉米基因组育种选择TOP算法流程

玉米基因组育种选择TOP算法流程

杨文宇博士与严建兵教授团队开展合作研究,利用团队前期构建的CUBIC群体和各种数据,结合自身对生物数据的理解和数学专业优势,努力学习遗传学和生物育种学的知识,通过学科交叉和融合,做出一系列研究成果:开发了一种基于隐马可夫模型的血缘一致性(identity-by-descent, IBD)推断方法,可精准估计CUBIC群体24个亲本的遗传重组事件,精确度达到95%,为后续关联分析和基因挖掘奠定了基础,相应结果以共同一作发表在Genome Biology;参与CUBIC衍生的NCII杂交群体的杂种优势预测算法开发;独立开发了一套基于理想目标材料识别的机器学习算法TOP,为农作物基因组智能育种提供有力技术支撑。

利用玉米CUBIC群体已在Genome Biology连续发表三篇系列论文,从农艺性状遗传解析到杂种优势机理解析,再到智能设计育种。

我校理学院青年教师杨文宇博士为论文第一作者。作物遗传改良国家重点实验室和湖北洪山实验室严建兵教授、肖英杰教授为共同通讯作者。我校郭婷婷教授、博士后罗靓赟,美国农业部Marilyn Warburton博士,北京农林科学院赵久然研究员和张如养副研究员也参与了该研究。该研究得到了国家自然科学基金委优青项目、湖北省科技厅重大项目和作物遗传改良国家重点实验室开放课题等项目的资助。

审核人: 肖英杰

【英文摘要】

Genomic prediction in crop breeding is hindered by modeling on limited phenotypic traits. We propose an integrative multi-trait breeding strategy via machine learning algorithm, target-oriented prioritization (TOP). Using a large hybrid maize population, we demonstrate that the accuracy for identifying a candidate that is phenotypically closest to an ideotype, or target variety, achieves up to 91%. The strength of TOP is enhanced when omics level traits are included. We show that TOP enables selection of inbreds or hybrids that outperform existing commercial varieties. It improves multiple traits and accurately identifies improved candidates for new varieties, which will greatly influence breeding.

论文链接https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02650-w

责任编辑:蒋朝常 吕梦涵