分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

RNA-seq综述(四)

2021.6.23
头像

王辉

致力于为分析测试行业奉献终身

设计更好的RNA-seq实验

仔细设计DGE RNA-seq实验对于获取高质量和生物意义数据有着非常重要的意义。尤其是要考虑到复制的层次,测序深度以及单端还是双端测序。

重复与实验功效(replication and experimental power)

在一个实验中,足够的生物学重复(biological replicates)能够捕获不同样本之间的生物学变异;在定量分析中的置信度依赖于测序深度与读长长度。虽然RNA-seq比芯片表现了更低的技术偏倚,但是生物系统中固有的随机变化都要求任何RNA-seq实验要做生物学重复。使用额外的重复能够确定异常样本,在必要情况下,在进行生物学分析之前,移除这些异常样本或降低这些异常样本的权重。确定生物学重复需要考虑几个因素,包括效应大小(effect size),组内变异,可接受的假阳性和假阴性阈值,以及最大样本数目,有的时候还需要RNA-seq实验设计工具或功效(power)计算工具的辅助。

在一个实验中要想确定一个合适的生物学重复并非是一件简单的事情。一项48个重复的酵母研究表明,当使用3个生物学重复时,计算样本用于DGE分析的工具只能检测出20-40%的差异表达基因。研究表明,至少应该使用6个生物学重复,这个数量要超过文献中常用的3到4个生物重复的数量。最近的一项研究表明,4个生物学重复可能足够的,但是研究指出,在确定合适的重复数目之前,需要做一个预实验来确定生物样本的方差。对于高度多样化的样本,例如来自癌症患者肿瘤的临床组织,可能需要更多的重复,以便能以更高的置信度来确定基因的变化。

确定合适的读取深度(Determining the optimal read depth)

一旦文制备好,就需要决定对它们进行多深的测序。读取深度指的是,每个样本获得的测序读长的目标数目。对于真核基因组中的常规RNA-seq DGE分析来说,一般认为每个样本需要100万-300万条读长(也就是我们常说的10M到30M数量)。但是,在多个物种中的实验结果显示当每个样本的测序读长数量为1M时,那么这个数量级的测序读长提供的转录本丰度信息与转录组中表达最高表达量的一半的转录本30M测序提供的丰度信息类似。如果实验的重点是关注那些最高表达相对较大变化的基因,并且如果有足够的生物学重复,那么就可以使用较低深度的测序就能解决驱动实验的假设。测序完成后,通过检查读长在样本之间的分布以及检查饱和曲线就能评估进一步的测序能够增加实验的灵敏度。随着测序通量的增加,为了控制技术偏倚,可以将一个实验的所有样本都添加一个“混合”文库中进行测序,这已经成了标准做法。一次测序所需要读长总数则是样本数乘以读取深度;然后根据生成所需的读长总数来对这个混合文库进行多次测序。这种合并需要严格检测每个样本RNA-seq文库的浓度,并假设每个文库中的cDNA量相对均值(低方差),因此总的读长数目就会平均地分布在每个样本上。在进行一次昂贵的,多泳道(lane)测序之前,运行单个泳道以验证样本之间的低方差通常是值得的。

选择参数:测序长度,单端测序或双端测序

最终的测序参数包括测序长度,单端测序还是双端测序。在许多测序应用中,测序读长的长度对于数据的利用有着重要的影响,因此更长的读长可以使测序的DNA覆盖率更高。当使用RNA-seq来进行DGE分析时这种方法并不适用,其中重要的原因则是,确定每个读长来源于转录组的哪个位置的能力有限。一旦一个读长能够明确其回贴位置,那么较长的读长在基于量化的分析中就不会再提供太多的价值。对于那些更定性的RNA-seq分析来说,例如特定异构体的鉴定,更长的读长可能更有用。

单端测序与双端测面临的问题是类似的。在单端测序中,每个cDNA片段只有一个末端(3ʹ端或5ʹ端)用于产生测序读长,但双端测序则是一个片段产生2条读长(一个是3ʹ端,一个是5ʹ端)。在那些需要尽可能高的核苷酸覆盖率的分析实验中,长读长双端测序可能更好。然后,DGE分析不需要对转录本片段的每个碱基都进行测序,在DGE分析中,研究者只需要比对后,统计出那些回贴到转录本上的读长数目即可。例如,通过比较测序读长发现,“短”的50bp单端测序与“长”的100bp双端测序所产生的DGE结果没有区别。这是因为单端测序足以鉴定出大多数测序片段来源的基因。同样的研究表明,使用短的单端测序降低了检测出异构体的能力,因为跨越剪接连接的读长较少。双端测序还有助于消除读长回贴的歧义,并对可变外显子量化(alternative-exon quantification),融合转录本检测和从头开始(de novo)的转录本发现,尤其是处理那些没有很好注释的转录本来说,双端测序更是首选。

在实际应用中,单端测序或双端测序之间的选择通常基于成本或研究者们可用的测序技术。在Illumina NovaSeq发布之前,在多数情况下,每M读长的单端测序的成本要低于双端测序,因此,在相同实验成本的前提下,单端测序能够实现更高的复制或读长深度。

在Illumina NovaSeq发布之前,在大多数情况下,单端测序的每百万次读取的成本低于成对末端测序,因此允许以相同的实验成本进行更高的复制或读取深度。当选择了更多的短单端测序读长和产生更长的双端测序读长后,那么增加读取深度将对提高DGE实验的灵敏度产生更大的影响。

RNA-seq数据分析

用于分析测序读长以确定差异表达的计算方法的数量在过去10年里大量增加,并且即使对于最简单的DGE分析来说,在分析实践中,每个步骤也存在着大量的差异。然而,每个步骤都可以使用不同方法,这些方法的不同组合会对从数据中得到的生物学结论产生重要的影响。这些工具的最佳组织取决于正在研究的特定生物学问题,以及可用的计算机资源。虽然有着尽可能多的排列组合,但是我们的重点在于研究,每个世界大在样本之间的差异表达的可能性的工具和技术。针对这个目标,我们可以将分析过程划分为4个阶段(FIG 2;TABLE 2)。

第1阶段是将一个测序平台产生的原始测序读长导入工具,并将这些读长回贴到转录组上。

第2阶段,是对每个基因或转录本相关的读长数目进行定量(表达矩阵)。这一过程涉及一个或多个不同的比对(alignment),组装(assembly)与定量(quantification)亚过程,或者是可以在单个步骤中从读长计数中,整体地生成表达矩阵。

第3阶段是通过过滤低表达特征来改变表达矩阵,这一步的关键步骤是对原始读长计数进行归一化,用于解释样本之间的技术差异。

第4阶段是样本组之间的统计建模与协变量(covariates),以及计算与差异表达相关的置信统计量。

Figure2-差异基因表达的RNA-seq数据分析流程

105346xu9w081987t0va5w.jpg

Figure 2-差异基因表达的RNA-seq数据分析流程。差异基因表达(DGE)分析的第一步是原始RNA测序读长的FASTQ格式的数据,DGE的分析有多种方式。主流的分析流程有三种(用实线划的三个方框,分别用A,B和C表示),并且图上还列出了许多替代工具(用虚线表示)。

在A分析流程中,比对工具例如TopHat,STAR或HISAT2使用一个参考基因组来将读长回贴到基因组的位置上,然后使用一些定量工具,例如HTSeq和featureCounts,来将读长比对于基因的特征上。在归一化后(通常归一化的方式都内嵌到了一些分析工具,例如TMM),基因表达就通过一些计建模工具,例如edgeR,DESeq2和limma+voom进行计算,计算结果是一些差异表达基因或转录本的列表,这数据用于下一步的可视化和生物学解释。

在B分析流程中,使用一些较新的免比对工具,例如Kallisto与Salmon,这些工具会在一步操作中组装转录组并对相应的转录本进行定量。这些工具的输出结果通常是转录本定量的一些估计值(例如tximport,TXI),然后通过与A分析流程中相同的归一化和统计建模,产生出差异基因或转录本列表。

在C分析流程中,第一步是比对读长(这一步的工具通常是TopHat,虽然有些分析方法也会用STAR与HISAT),接头使用CuffLinks来处理原始读长,再然后是使用CuffDiff2包来输出转录本丰度的估计值,以及一个差异表达基因或转录本的列表。

其它常用的工具还包括StringTie,这个工具使用TopHat(或类似工具)的输出结果来组装一个转录本模型,然后将结果输出到RSEM或MMSEQ中,用于估计转录本的丰度值,最后将转录本的丰度值输出给Ballgown来计算差异表达基因或转录本。而SOAPdenovo-trans这个工具则能同时对读长进行比和组装,其结果用于输入给RSEM或MMSEQ。

TABLE2-RNA-seq数据分析工具

105346kq8ym88j0peq0th5.jpg



互联网
仪器推荐
文章推荐