如何解决RNA-seq量化误差？

2015.9.07

Sabrina_刘

致力于为分析测试行业奉献终身

　　NA-Seq已经成为测量基因表达的标准，以及用于人类疾病研究的一种重要技术。基因表达量化分析涉及，测序序列与一个已知基因组或转录组参考序列的比对。这种量化的准确度取决于，序列中要有足够多的独特信息，才能使生物信息学工具能够准确地将测序序列分配到正确的基因位置上。

　　九月四日，英国爱丁堡大学的Christelle Robert和Mick Watson在国际知名生物学期刊《Genome Biology》发表题为“Errors in RNA-Seq quantification affect genes of relevance to human disease”的研究成果。在这项研究中，研究人员采用12种常见的方法，评估来自RNA-Seq的基因表达，发现有几百个基因的表达被一种或更多方法所低估。研究人员继而提出了一种两阶段的RNA-seq数据分析法，并将这种方法应用于最近发表的小鼠癌症研究，证实这种方法能够从被丢弃的数据中，提取到相关的生物学信号。

　　转录组学是帮助研究人员了解各种疾病分子基础的一种重要途径。多年来，芯片一直是基因组表达分析的中坚力量，现在，RNA-seq已经成为转录组分析的标准方法，出现在成千上万的生物医学文献出版物中。

　　高通量的新一代测序仪，通常可以非常低的成本输出上亿个序列读长，RNA-Seq将这些测序仪应用于RNA（已被转化为cDNA）。其结果是，研究人员可以根据样本，非常低廉地产生上亿个序列读长，从而使它们能够测量基因表达和重建剪接异构体。现在，RNA-Seq对于许多大型功能注释项目非常的重要，如ENCODE——一个大型的跨国项目，旨在确定人类基因组中的功能元件。

　　目前，有许多生物信息学方法用于RNA-Seq定量——未加工的测序序列到基因表达估量的转换。最流行的方法包括，使用拼接校准软件，如TopHat或STAR，将测序序列与参考基因组（或转录组）比对。校准步骤是非常计算密集型的，每一个样品要花费几小时的时间，取决于选择的工具和参数。其结果是，每个读长（或片段）被指定为参考序列中的零个、一个或多个假定的位置。

　　定位在多个位置的测序序列，被描述为多定位；此外，任何给定的定位位置都可能与注释中的多个基因重叠，这些被描述为模糊定位的序列读长。如何处理和报告多定位/模糊的序列读长，取决于选择软件的，是RNA-Seq量化误差的一个主要来源。给定一组比对，需要额外的工具来将序列读长分配到基因中，以量化基因表达。

　　短序列读长的校正是一个复杂的问题，在RNA-Seq中，基因家族进一步加剧了这一情况。有许多基因成员具有相同或接近相同的序列，基因家族往往是富集了多定位的序列读长；因此，RNA-Seq的量化结果取决于校准软件的选择、参考的选择、大量的参数和算法细节。量化工具的选择也有很大的影响。

　　最近，Patro等人描述了一种新的方法，构建了转录本内的一种独特的kmers指数，并用其来评估直接来自原始读长的基因表达。这种算法比其他方法的速度快25倍，具有相当的精度。然而，它无法发现新的转录异构体或剪接点（RNA-Seq的一个关键好处），并依托kmers，这必然小于读长长度，很可能会出现多定位序列读长引起的相同问题。

　　RNA-Seq的关键在于，假设这种方法会产生基因表达的可靠测量，最近的一篇论文表明，可能并非如此。在这项研究中，研究人员测试了RNA-Seq量化的生物信息学方面所引入的偏差，也就是说，原始测序序列读长到基因表达估量的转换。研究人员应用12种常见的方法，来评估RNA-Seq数据的基因表达，并表明有数百个基因的表达被一种或多种方法所低估。这些基因当中有许多基因与人类疾病有关，而且，研究人员描述了它们的功能。

　　研究人员继续提出了一种两阶段的RNA-Seq分析法，并将这种方法应用于一项最近发表的小鼠癌症研究，证明能够从已被丢弃的数据中提取到相关的生物学信号。

基因/研究/序列/方法

分析测试百科网

如何解决RNA-seq量化误差？

Sabrina_刘

OmicsOffice——Spotfire基因组分析组件

Amnis ImageStream MarkII 量化成像分析流式细胞仪

光束偏转解决方案汇总

FlowSight 量化成像分析流式细胞仪

如何设计基因cds序列的pcr引物

设计引物用cds序列和cdna序列的区别

重叠基因的调控序列

关于PCR特异扩增ITS序列的简介

结构基因的侧翼序列的介绍

概述酿酒酵母的基因组序列

什么是氨基酸序列？

氨基酸序列的测定方法

如何在NCBI上查找引物序列

怎么样通过引物序列找目的基因

氨基酸序列的测定方法

7招搞定微生物同源性分析

一文读懂如何破解新冠病毒基因组全长序列

几种基因克隆的常用方法介绍（一）

表达基因的克隆策略与分离表达基因序列的技术方法

功能基因cDNA序列的分析

orf1ab基因为何成为新型冠状病毒核酸检测的靶序列？

一文读懂如何破解新冠病毒基因组全长序列

新冠病毒全基因组大小和序列的研究进展

中国新型冠状病毒的基因组序列

喜欢作者

如何解决RNA-seq量化误差？

Sabrina_刘