分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

DNA测序技术的现状和发展(十)

2020.7.13
头像

王辉

致力于为分析测试行业奉献终身

五、更多阅读

1. 核糖体印记与深度测序技术

将核糖体图谱(ribosome profiling)和深度测序(deep sequencing)相结合,研究人员可以从基因组水平监测蛋白质的翻译状况。

深度测序的强大功能对生物学研究的各个领域都产生了极大的影响。在诸如全基因组测序等方面,新技术的高效性和经济性使人们得以以一种以前无法想象的方式进行试验研究。而在另一些情况下,例如RNA测序时,借助深度测序可以进行更多的定量分析,获得更大的动态范围。在另一些研究中,例如最近由美国加州大学(University of California)的Jonathan Weissman小组发表的有关翻译图谱(translational profiling)的研究中报道的那样,深度测序不仅是一个有效的定量手段,同时还能提供很多有用的新信息。

使用核酸酶消化mRNA时,在翻译过程中发挥作用的核糖体结合并保护了大约30bp 的mRNA片段。Weissman等人将细胞中这些被保护的mRNA片段构建成DNA文库,再使用Illumina公司的测序仪对文库中所有的片段进行测序,最终得到了一幅有关细胞中蛋白质翻译情况的完整“画卷”。

这种方法可以应用于很多方面。首先,它能广泛地用于蛋白质组研究当中。正如 Weissman说道的那样,“对于像人类一样复杂的基因组,你真的无法解释清楚细胞表达出来的多肽是什么。而这种新方法刚好给了你一个客观的、全面的机 会去弄清楚这些多肽。”现在,Weissman等人正在使用这种新方法研究酵母,因为酵母比较简单,同时也被研究得比较透彻,因此相对来说比较容易研究。 但是从理论上来说,该方法是可以应用到其它任何一种物种中的。另外,将该技术与标记有抗原表位的核糖体(epitope-tagged ribosomes)结合使用,还有可能用于研究组织特异性的蛋白质翻译(tissue-specific translation)。Weissman说道:“我认为该技术会将分子神经解剖学(molecular neuroanatomy)一类的学科引向新的纪元。”

其次,在检测蛋白质表达情况时,使用核糖体图谱技术相比检测mRNA丰度来说更准 确。研究人员借助核糖体图谱技术为胞内数千种mRNA构建了核糖体印记密度图谱,并通过这些数据获得了蛋白质翻译表达速度方面的数据。据这些研究人员报道,使用蛋白质翻译表达速度方面的数据来判断蛋白质丰度要比用mRNA丰度来预测准确得多。Weissman说道:“对我们来说,定量蛋白质组学 (quantitative proteomics)最大的好处就是能客观评价人们的工作究竟做得好不好。”实际上,如果对结合在mRNA链5’ 端的核糖体数目进行进一步的修正,就能更准确地预测出蛋白质的丰度。

核糖体图谱还可以用于翻译控制(translational control)分析。Weissman等人正在使用该技术对饥饿酵母胞内的翻译反应(translational response)进行研究。毫无疑问,该方法也可以用于高等生物应激或疾病状态下的蛋白质合成反应控制情况。

核糖体图谱技术还具有很高的空间准确性(spatial precision),能准确地反映出究竟是哪一个阅读框被翻译了。因此,可以使用该技术研究程序性框移(programmed frameshift)和终止密码子通读(stop-codon readthrough)等现象。Weissman等人最近在酵母中的工作还发现,该技术可以发现mRNA 5’ 端非编码区的异常翻译情况。

正如Weissman对核糖体图谱技术的总结一样,“我们现在能直接得到全面的、高质量的蛋白质翻译速度方面的数据。通过这些数据我们可以知道哪种蛋白质表达了以及表达了多少。同时,我们还能很方便地对翻译过程本身进行研究。”

原文检索:Natalie de Souza. (2009) Deep sequencing of ribosome footprints. Nature Methods 6(4): 244-245.

2. 如何将数十亿的短片段测序结果定位到庞大的基因组序列当中

随着新一代测序仪的出现,人们获得了大量的短片段序列,如何对这些短片段作图就成了一个大问题。现在有什么办法可以解决这个问题呢?上述办法又是基于何种原理工作的呢?

新一代测序仪可以以极快的速度以及极其低廉的价格获得大量的序列,这已经改变了基因组学的面貌。这些新测序仪一经出现,马上就成为了全基因组测序的主力军,广泛应用于各种测序相关的实验检测,包括基因表达谱检测、DNA与蛋白质相互作用 检测和RNA剪切研究等。例如,它们可用于对RNA进行测序,即先通过逆转录将其变成cDNA,然后再对cDNA进行测序,这样就能发现一些未知的基因, 并据此发现新的RNA剪切方式。也可以将测序技术应用于ChIP,弄清楚与蛋白质共沉淀的DNA片段的序列。这种方法能用于研究转录因子与DNA调控元件之间的相互作用。此外,对肿瘤细胞全基因组测序也能发现一些新的致癌突变。

但在新一代测序仪带来方便的同时也带来了问题,即被称为“阅读片段作图(‘read mapping’)”的问题。美国Illumina公司、Applied Biosystems(ABI)公司和Helicos公司等开发的测序仪在测序时产生的都是长约25bp~100bp左右的小片段序列,即“read”。 这些小片段都是待测样品大片段的某一部分。与对未知的全基因组进行测序,即与将所有小片段组装成一个完整基因组的工作相比,人们现在大部分的工作实际都可以参照“参考基因组”(也称“模式基因组”,小词典1)进行。因此,要了解小片段“read”的作用,首先要知道它们在参考基因组中的确切位置,而对这些 小片段进行定位的过程就称作“作图”(mapping),或 “定位”(aligning)到参考基因组中。在作图中,有一个问题需要注意,那就是进行定位(本文将在后面的“短片段作图软件”一节中对此做详细介绍) 时不能出现大的“间隙”。而在对RNA进行测序时,因为存在内含子的缘故,这一点就显得尤为突出。因此,对RNA进行测序时就允许有较大的间隙出现(这将 在下文“剪切后的短片段作图软件包”一节进行详细讨论)。

当然,上述问题都不是伴随新一代测序仪的出现而出现的新问题,即使在经典的 Sanger毛细电泳测序法中也有与之相应的专门用来处理定位问题的程序。不过,这些程序既不能处理短片段测序仪获得的大量序列数据,也不能定位长度较短的短片段序列。使用传统的BLAST或BLAT软件分析ChIP或RNA测序结果,可能会花上几百甚至几千个小时。幸运的是,人们现在有了新的分析软件。在选择一款分析软件之前,要先弄清楚,为什么用计算机处理作图问题会出现问题?人们现在已经解决了其中的哪些问题?还存在哪些问题?还有没有其它机遇?

2.1 短片段作图

2.1.1 对短小片段作图存在哪些问题?

问题1:实际操作。如果参考基因组很大,而我们手上又有数十亿计的短片段序列,那么 该如何处理这么庞大的数据呢?如何将每一条短片段定位到参考基因组中相应的位置上?序列比对是生物信息学中的一个传统问题,有大量的文献著作介绍了各种不 同的比对方法,既有精确严格的方法也有不那么严格的方法。不过,从实际应用的角度出发,要将数十亿的短小片段定位到哺乳动物基因组大小级别的参考基因组中 需要借助效率非常高的算法进行处理才有可能办到。

问题2:处理策略。如果某个短小片段属于参考基因组里的一个重复元件,那么就应该弄 清楚它来自重复元件中的哪一个拷贝。但这是不太可能实现的,所以分析程序一般都只能给出该短片段可能属于参考基因组中哪几个位点。同时,由于测序错误或者 检测样品间以及检测样品和参考基因组间出现变异等情况,使上述问题变得更加严重。同样,在RNA剪切体作图中也存在上述问题,而且由于内含子的问题使得情况更为复杂。

Illumina、ABI、Roche、Helicos以及其它众多测序仪生产厂家 开发的测序仪每一轮测序都能获得百万计的短片段序列,不过要对一个基因组进行完全测序则需要进行好几轮检测,这也就意味着要想获得一份完整的全基因组图谱 必须对数百万甚至是数十亿的短小片段进行作图、定位和拼接。比如,最近由Ley小组做出的癌症基因组序列就是通过132轮测序,对80亿条短小片段进行作图后得到的结果。使用BLAST或BLAT比对法,借助大型的超级计算机只需要几天就能获得这个癌症的基因组序列结果,但这并非人人都能享有。为了能让更多的人用更廉价的计算机也能进行类似的作图分析,人们开发了一套新的比对定位程序,使用这种新程序即使在普通的台式机上也能对数亿计的短小片段进行作图分 析。测序仪器生产厂商也会提供一些专门的作图软件,例如Illumina公司开发的ELAND程序等。本文将着重探讨第三方开发的软件,这些软件中很大一 部分都是开放源代码的免费程序。这些软件主要都是建立在这样一种算法之上,即充分利用短小DNA序列的特点来作图,而不需要依靠计算机强大的处理能力、内存容量等条件。


互联网
文章推荐