分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

如何解决RNA-seq量化误差?

2015.9.07
头像

Sabrina_刘

致力于为分析测试行业奉献终身

  NA-Seq已经成为测量基因表达的标准,以及用于人类疾病研究的一种重要技术。基因表达量化分析涉及,测序序列与一个已知基因组或转录组参考序列的比对。这种量化的准确度取决于,序列中要有足够多的独特信息,才能使生物信息学工具能够准确地将测序序列分配到正确的基因位置上。

  九月四日,英国爱丁堡大学的Christelle Robert和Mick Watson在国际知名生物学期刊《Genome Biology》发表题为“Errors in RNA-Seq quantification affect genes of relevance to human disease”的研究成果。在这项研究中,研究人员采用12种常见的方法,评估来自RNA-Seq的基因表达,发现有几百个基因的表达被一种或更多方法所低估。研究人员继而提出了一种两阶段的RNA-seq数据分析法,并将这种方法应用于最近发表的小鼠癌症研究,证实这种方法能够从被丢弃的数据中,提取到相关的生物学信号。

  转录组学是帮助研究人员了解各种疾病分子基础的一种重要途径。多年来,芯片一直是基因组表达分析的中坚力量,现在,RNA-seq已经成为转录组分析的标准方法,出现在成千上万的生物医学文献出版物中。

  高通量的新一代测序仪,通常可以非常低的成本输出上亿个序列读长,RNA-Seq将这些测序仪应用于RNA(已被转化为cDNA)。其结果是,研究人员可以根据样本,非常低廉地产生上亿个序列读长,从而使它们能够测量基因表达和重建剪接异构体。现在,RNA-Seq对于许多大型功能注释项目非常的重要,如ENCODE——一个大型的跨国项目,旨在确定人类基因组中的功能元件。

  目前,有许多生物信息学方法用于RNA-Seq定量——未加工的测序序列到基因表达估量的转换。最流行的方法包括,使用拼接校准软件,如TopHat或STAR,将测序序列与参考基因组(或转录组)比对。校准步骤是非常计算密集型的,每一个样品要花费几小时的时间,取决于选择的工具和参数。其结果是,每个读长(或片段)被指定为参考序列中的零个、一个或多个假定的位置。

  定位在多个位置的测序序列,被描述为多定位;此外,任何给定的定位位置都可能与注释中的多个基因重叠,这些被描述为模糊定位的序列读长。如何处理和报告多定位/模糊的序列读长,取决于选择软件的,是RNA-Seq量化误差的一个主要来源。给定一组比对,需要额外的工具来将序列读长分配到基因中,以量化基因表达。

  短序列读长的校正是一个复杂的问题,在RNA-Seq中,基因家族进一步加剧了这一情况。有许多基因成员具有相同或接近相同的序列,基因家族往往是富集了多定位的序列读长;因此,RNA-Seq的量化结果取决于校准软件的选择、参考的选择、大量的参数和算法细节。量化工具的选择也有很大的影响。

  最近,Patro等人描述了一种新的方法,构建了转录本内的一种独特的kmers指数,并用其来评估直接来自原始读长的基因表达。这种算法比其他方法的速度快25倍,具有相当的精度。然而,它无法发现新的转录异构体或剪接点(RNA-Seq的一个关键好处),并依托kmers,这必然小于读长长度,很可能会出现多定位序列读长引起的相同问题。

  RNA-Seq的关键在于,假设这种方法会产生基因表达的可靠测量,最近的一篇论文表明,可能并非如此。在这项研究中,研究人员测试了RNA-Seq量化的生物信息学方面所引入的偏差,也就是说,原始测序序列读长到基因表达估量的转换。研究人员应用12种常见的方法,来评估RNA-Seq数据的基因表达,并表明有数百个基因的表达被一种或多种方法所低估。这些基因当中有许多基因与人类疾病有关,而且,研究人员描述了它们的功能。

  研究人员继续提出了一种两阶段的RNA-Seq分析法,并将这种方法应用于一项最近发表的小鼠癌症研究,证明能够从已被丢弃的数据中提取到相关的生物学信号。

仪器推荐
文章推荐