文献解读 | 基于机器学习确定基因表达系统—遗传学“Rosetta Stone”

2020.1.08

作者中科新生命

TA的动态

背景介绍

由于存在许多由全基因组复制产生的冗余或通过转座子跳跃产生的基因片段而形成的假基因，植物基因组的准确注释仍然很复杂。生物学家以往通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种形式化的过程来揭示这种信息，称为“可表达基因集”，即EGS（expressible gene set），它包含所有可能表达的蛋白质编码基因。因此许多科学家们希望能借此找到一种清晰，快速的方法进行基因组序列扫描，找出各种可以表达的基因，和不能表达的基因。

加州大学圣迭戈分校Ryan C. Sartor 2019年9月份发布在PNAS上的文章“Identification of the expressome by machine learning on omics data” 提出了一种基于机器学习的方法，该方法基于DNA甲基化或组蛋白修饰的模式，提供了可表达或沉默的注释蛋白编码基因的全基因组分类。此外分类器还能区分能够表达蛋白质的基因和只能表达RNA的基因。本文通过对广泛使用的玉米自交系B73的EGS特征描述，为发现世界上最有价值的作物的表达组迈出了第一步。

Identification of the expressome by machine learning on omics data.

PNAS IF=9.580

实验材料

Mo17、CML322、Oh43、Tx303和B73玉米叶片

技术路线

研究结果

1. DNA甲基化可以对表达潜能进行分类

相对于非共线基因，共线基因高度甲基化，这表明外遗传性特征可能使强大的基因分类。作者使用了随机森林算法来构建分类器对所有基因的玉米自交系B73，两个分类器仅基于基因DNA甲基化特征，两种方法都结合了蛋白质组和转录组数据，从23个不同的组织或发育时期进行训练。对于可表达蛋白分类器(EPC)，沉默基因由未观察到mRNA或蛋白的注释基因组成(NR_NP)。可表达类基因由高水平的mRNA(每千碱基每百万读片段数(FPKM) > 1)和观察到的蛋白(HR_OP)组成。第二分类器(expressible mRNA classifier, ERC)的训练集是使用所有未检测到mRNA (NR)的基因与所有高mRNA水平(HR)的基因进行定义，它不使用蛋白质数据。

图1：模型特性和训练集定义的概述

2. CHG和CG甲基化与表达呈负相关，而基因分类与表达模式或表达水平无关

DNA甲基化水平被量化并用作分类特征的各种基因组区域。测试了几个DNA甲基化特征，从模型中删除多个低重要性的特征。保留的特征包括外显子和内含子中的CHG和CG甲基化，利用随机森林袋外交叉验证对训练集基因进行分类精度测定。两种分类器均具有较高的准确率，其接收方工作特征曲线(ROC)和查全率曲线(PR)的曲线下面积(AUC)均在0.94或更高，EPC实现了接近完美的AUC 0.99。

CHG和CG在基因5 '端甲基化(bin 1)与沉默基因的相关性最强；基因3 '端CHG甲基化(bin 5)也很显著。该基因5 '区CG位点的体外甲基化是一种有效的转基因表达抑制剂。在检查所有的预测基因时，我们观察到良好的R²值，但当只考虑可检测到表达的基因时，R²值较低。因此，在整个预测集上观察到的良好R²值可能主要是由于模型能够区分观察到的和未观察到的表达产物

图2：随机森林模型的结果

3. 全基因组分类

ERC和EPC被用来重新分类所有基于DNA甲基化模式的蛋白质编码基因，包括98,296个甲基化覆盖的工作基因。ERC将41,056个基因归类为可以表达mRNA的基因，但只能表达mRNA的EPC将32,979个基因归类为能够表达蛋白的基因；55%的EPC表达基因在训练集中缺失。这突出了分类模型从高可信子集学习的能力，然后提供精确的全基因组分类。

图3：EPC和ERC分类结果

4. 随机森林模型的准确性与专家策展方法相匹配或超过后者

作者比较了筛选的RefGen v2和v4过滤基因集的能力以及EPC和ERC分类器对B73中可表达基因集的识别能力。在精度方面，我们看到EPC和ERC的性能优于RefGen v2 FGS。RefGen v4 FGS表现良好，对于可表达的mRNA具有比ERC更高的精度，但EPC仍然是表现最好的，这表明添加蛋白质数据大大改善了分类。这表明DNA甲基化模式足以解释基因表达分布中观察到的双峰成分。

图5：FGSs分类结果

5. 亲本特异性表达基因集

为了确定亲本特异性DNA甲基化是否与亲本特异性EGS相关，利用多个玉米亲本的数据重新构建了ERC。利用DNA甲基化和ERC-2模型对其余4个自交系基因进行分类， ERC-2对所有自交系和被测组织检测均表现良好，ROC曲线下面积大于等于0.9。

图5：一个ERC新版本(ERC-2)，使用同样训练集，但是使用了来自B73第三叶组织的WGBS数据，这些数据汇总了沿着基因组的100bp窗口。然后使用ERC-2对两个类似WGBS数据的测试数据集进行分类。

6. 与可表达基因相比，沉默基因具有明显的属性

ERC-2的结果可以比较可表达基因和沉默基因的属性，以描述沉默基因的大集合。ERC-2分类预测可以在5个自交系中转录的32,333个基因。其中22,101个与高粱属同位同源，10232个与高粱属非同位。我们称这些组为“全同型”和“非同型”。此外，18,289个基因在5个自交系的子集中被转录，我们称之为“任何近亲繁殖”群体。最后，50103个基因被预测在所有的近亲中被沉默，即“无近亲”群体。在无近亲基因中，25,670个可能是TEs。在剩余的非TE基因中，有15638个基因可以根据蛋白序列相似性与其他基因进行聚类。在这个序列相似性网络中，54%的连接位于非TE沉默基因和表达基因之间。这些沉默基因可能是最近被TEs捕获的基因片段的复制。剩下的46%的边缘与其他的沉默基因，形成了一组似乎是未知功能的蛋白质结构域。这使得8795个沉默基因与其他玉米基因没有显著的序列相似性。

图6：定义的四组基因相关的各种特征进行ERC预测研究

7. 组蛋白修饰与表达呈正相关

我们将EPC和ERC模型分类的基因与已发表的组蛋白修饰模式进行了比较。可表达基因H3K36me3、H3K9Ac和H3K9Ac水平较高H3K4me3，而沉默基因的水平较低，这些修饰与转录激活相关。作者训练了新的EPC和ERC模型，使用组蛋白修饰作为特征，基于组织学的模型表现良好，仅略低于使用DNA甲基化。在EPC和ERC中添加组蛋白并没有提高模型的准确性。组蛋白模型的重要特征是H3K36me3和H3K4me3水平高，特别是在可表达基因的5 '端，基因中体中H3K9Ac表达水平高。

图7：利用玉米B73中3种不同组蛋白修饰数据建立分类模型

小结

作者建立的模型仅使用表观基因组模式来分类带注释基因的表达潜力，并识别仅基于序列难以分类的假基因。基因分为蛋白表达基因、mRNA表达基因和沉默基因。大部分带注释的基因在一个谱系中是沉默的，但在其他谱系中可以转录。作者将整个物种范围内的转录基因集称为表达体，并表明它比任何个体的可表达基因集都要大得多。此外，我们发现基因体内的DNA甲基化模式可以区分表达蛋白质的基因和只表达RNA的基因。

小编心得

该文章提出了开发出第一个基于机器学习确定基因表达的系统。这一新方法利用机器学习，通过算法和其他过程来分析数据，并基于包含特定的，详细的分子特征的近30,000个基因的数据集，对数据进行了高级算法训练，让它“学会”将基因表达分类，完成精确度高达99.4。区分是否可以表达基因的第一种方法，这是所有生物学的基础。无论是药物发现还是植物育种或进化，都需要生物学的基础研究。

中科新生命集成机器学习统计分析↓↓↓