分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

RNA-seq综述(一)

2021.6.23
头像

王辉

致力于为分析测试行业奉献终身

摘要

在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构组,structurome)。RNA-seq的其它应用也在开发中,例如空间转录学(spatialomics)。加上新的长读长 (long-read,注:在本文中,RNA-seq测序生成的read统一译为“读长“)和直接RNA-seq(direct RNA-seq)技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

前言

RNA-seq技术出现于十年之前,自其诞生之日起,RNA-seq就成了研究分子生物学的普遍工具,这项技术几乎构成了我们对基因组功能的认知基础 。RNA-seq中最常用的分析方法就是找出差异基因表达(Differential gene expression, DGE)。从最早的出版期刊开始,DGE分析的基本阶段就未发生实质性的改变

在实验室中,其标准流程就分为三步:

第一步是构建测序文库,这一步骤包括提取RNA,富集mRNA或清除核糖体RNA,合成 cDNA,加上接头。

第二步,在高通量平台(通常是Illumina平台)上对文库进行测序,每个样本的测序深度为10-30M读长数(读长这里就是前面说的reads)。

第三步是数据分析,具体的工作是:对测序得到的读长进行比对(aligning)和/或组装到转录组上,对这些覆盖了转录组的读长进行过滤,归一化(Normalization),根据统计模型找出那些在不同样本之间有差异的转录本。早期的RNA-seq从大量的实验样本中产生了DGE数据,这充分说明了RNA-seq在广泛的生物体以及系统中的使用,这些生物体包括玉米(Zea mays), 拟南芥(Arabiodopsis thaliana), 酿酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人类。虽然RNA-seq这个术语经常被用于那些完全不同的方法学方法和/或生物学,但是DGE分析仍然是RNA-seq(补充材料中的表1)的主要应用,并被视为常规研究工具。

RNA-seq的更广泛应用已经促进了我们对生物学多方面的理解 ,例如通过提示mRNA剪接和非编码RNAs和增强子RNAs对基因表达的调控。RNA-seq的应用和进步是由技术发展(湿实验室和计算生物学)驱动的,相对于以前的基因芯片,RNA-seq这种方法对RNA生物学和转录组产生更丰富并且偏见更小的信息。到目前为止,从标准的RNA-seq方法衍生而来的各种RNA-seq方法几乎有100种。Illumina的短读长(short-read)测序平台能对这些由大部分不同方法的RNA-seq构建的文库进行测序,但是最近长读长(long-read)RNA-seq的与直接RNA-seq测序(direct RNA sequencing, dRNA-seq)的进步已经能够解决以前研究人员使用短序列手段无法解决的一些问题。

在这篇综述中,我们首先会介绍一些最基本的短读长RNA-seq中的DGE方法,再将这种基础方法与最近新兴的长读长RNA-seq和dRNA-seq进行比较。我们会介绍短读长测序方法在文库制备方面的进展,以及实验设计和DGE的数据分析方法。随后我们会拓展这些常规的RNA-seq方法,介绍一些单细胞测序和空间转录组学的分析。我们会提供一些案例,介绍RNA-seq在RNA生物学方面的关键应用,包括转录组分析,翻译动力学,RNA结构,RNA-RNA之间相互作用和RNA-蛋白质的相互作用。最后,我们会简单描述一下RNA-seq的未来,以及单细胞和空间RNA-seq方法是否会像DGE分析一样成为常规工具,长读长测序方法是否会取代短读长测序方法。由于篇幅限制,我们无法介绍所有的RNA-seq方法,在这些方法中,值得注意的是非编码转录组学,原核转录组学(prokaryotic transcriptomes)和表观转录组学(epitranscriptome)。

RNA-seq技术的发展历史

Illumina的短序列读长测序技术生成了SRA(Short Read Archive)中95%已表达的数据(附件表2)。由于cDNA的短序列读长测序方法几乎是一种常规的方法,因此 我们认为这是一种最基础的 RNA-seq技术,我们先来讨论这种测序主要流程与局限。不过,长读长cDNA测序与dRNA-seq已经兴起,随着研究人员对能提供更丰富转录本水平方面(isoform-level)数据需求增大,这两种新的测序方法有望对常规的短读长测序方法提出挑战(FIG1, TABLE1)。

Table1-短读长与长读长RNA-seq平台

105346lzgd4b84gbzzw66z.jpg

Figure 1-短读长,长读长和直接RNA-seq技术与工作流程

105346vkfw6qyeqe8svafk.jpg

Figure 1-短读长,长读长和直接RNA-seq技术与工作流程。
(a)不同RNA-se方法的文库制备,这些方法可以分为3种,分别是短读长测序(黑色),长读长测序(绿色),或长读长直接RNA-seq(蓝色)。根据使用的文库制备方法不同,文库制备会表现出相应的复杂性和偏倚。短读长与长读长cDNA文库在制备时有一些步骤是相同的,不过所有的方法都需要一个接头连接步骤,并且它们都受到样本质量和文库上下游计算问题的影响。
(b)三种主流的RNA-seq测序方法。
Illumina的工作流程(左边):文库制备好后,每个cDNA就会在一个泳道(flowcell)上通过合成来聚集成簇,其中合成的过程使用3'阻断的荧光标记的核苷酸。在每一轮测序的过程中,新合成的DNA链就会被成像,从而检测出参与合成的是哪种核苷酸,这种测序方法产生的读长是50-500bp。
Pacific Biosciences工作流程(中间):文库制备好后,每个分子被加载到一个测序芯片上,在芯片上这些分子与固定到纳米孔(nanowell)底部的聚合酶进行结合。随着每一个荧光标记的核苷酸被整合到新合成的链上,这些核苷酸发出的荧光就会被检测到,这种方法产生的读长为50kb。
Oxford纳米孔工作流程(右边):文库制备好后,每个分子被加载到流动室(flowccell)中,流式室中含有马达蛋白,马达蛋白固定在流动室中,它可以与文库的接头结合。马达蛋白控制RNA链通过纳米孔,从而造成纳米孔中电流的改变,这种技术产生的读长为1-10kb。
(c) 短读长、长读长与直接RNA-seq分析的比较。超过90%的人类基因(gene n)存在可变剪接,它们会形成两个或更多的可表达异构体(转录本x与y)。短读长cDNA测序中就增加了捕获信息的复杂性,短读长对异构体的检测会受到其读长的限制,在这种技术里,短读长无法精确地回贴(注:测序分析方法中的术语“map“在本文中都译为”回贴“)到转录组上,而长读长测序方法则能直接鉴定异构体。在短读长cDNA测序中,有很大比例的读长会不明确地回贴到不同异构相同的外显子上;而那些跨越了外显子-外显子连接处的读长可以提高对异构体的分析效果,但是当不同的异构体都含有这个连接处时,这种操作意义不大。这些问题都加剧了数据分析的复杂性,以及无法对结果进行明确地解释。长读长cDNA方法能够产生全长的异构体读长,从而去除或大幅度降低这些不精确的结果,并改进差异异构表达的分析结果。然而这些方法依赖于cDNA的转换,它去除了RNA碱基的修饰信息,并且只能粗略地估计多聚腺苷酸(poly(A))尾巴长度。直接RNA-seq可以进行全长导构体分析,碱基修饰检测(例如N6-甲基腺苷(M6A))和poly(A)尾巴长度估计。


互联网
仪器推荐
文章推荐