由于存在许多由全基因组复制产生的冗余或通过转座子跳跃产生的基因片段而形成的假基因,植物基因组的准确注释仍然很复杂。生物学家以往通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种形式化的过程来揭示这种信息,称为“可表达基因集”,即EGS(expressible gene set),它包含所有可能表达的蛋白质编码基因。因此许多科学家们希望能借此找到一种清晰,快速的方法进行基因组序列扫描,找出各种可以表达的基因,和不能表达的基因。 加州大学圣迭戈分校Ryan C. Sartor 2019年9月份发布在PNAS上的文章“Identification of the expressome by machine learning on omics data” 提出了一种基于机器学习的方法,该方法基于DNA甲基化或组蛋白修饰的模式,提供了可表达或沉默的注释蛋白编码基因的全基因组分类。此外分类器还能区分能够表达蛋白质的基因和只能表达RNA的基因。本文通过对广泛使用的玉米自交系B73的EGS特征描述,为发现世界上最有价值的作物的表达组迈出了第一步。
Identification of the expressome by machine learning on omics data.PNAS IF=9.580