分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

HiFi测序助力第一个完整的人类基因组序列

2021.6.07
头像

百科网专家

致力于为分析测试行业奉献终身

  

  读这篇文章,你无疑会感到有些似曾相识的感觉。毕竟,人类基因组参考在2000年、2001年和2003年都被宣布“完成”。

  但是从那时起,任何使用过参考资料的科学家都知道,从来没有一个完整的人类基因组测序。直到现在。

  HiFi测序助力第一个完整的人类基因组序列

  端粒到端粒(T2T)联盟是一个由国家人类基因组研究所和其他几十个机构的科学家组成的大型团队,发布了一份名为“The complete sequence of a human genome”的预印本文章。主要作者Sergey Nurk、Sergey Koren、Arang Rhie和Mikko Rautiainen,以及通讯作者Evan Eichler、Karen Miga和Adam Phillippy以及许多合作者现在已经克服了空白和错误,交付了他们所称的“第一个真正完整的人类参考基因组”。

  这项巨大的努力结合了一些尖端技术,包括PacBio的HiFi测序,以一个完整的葡萄胎(CHM13)为基础,产生了一个无空白的、完整的单倍体人类基因组组装。其目标是创建一种具有全面、可靠的基因组数据的新资源,以避免最新GRCh38参考装配仍然存在的缺陷和错误。“T2T-CHM13参考装配消除了一个20年的障碍,该障碍在基于序列的分析中隐藏了8%的基因组,包括所有的着丝粒区域和5条人类染色体的整个短臂,”Nurk等人报道。

  这项新的参考文献“包括所有22个常染色体和X染色体的无间隙装配,纠正了许多错误,并引入了近2亿bp的新序列,包含2226个同源基因拷贝,其中115种被预测为蛋白质编码,作者补充说,这代表着“人类参考基因组自首次发布以来最大的进步。”

  HiFi测序是这一成就的关键。科学家们注意到,HiFi测序具有“20kbp的读长长度和99.9%的中值精度,这导致了前所未有的组装精度,与标准组装方法相对较小的调整。……高保真测序擅长于区分细微分化的重复拷贝或单倍型。

  高保真测序技术消除了技术障碍

  该团队最初的策略是使用噪声超长纳米孔读取来构建组装主干,然后用其他平台打磨。但他们随后转而使用精确而长时间的高保真读取。他们报告说:“我们转向了一种新的策略,利用结合的准确性和HiFi读取长度,使高度重复的着丝粒卫星阵列和密切相关的片段复制能够组装。该组装基于一个由HiFi读取构建的字符串图,其平均共识准确性在Q67和Q73之间,远远超过Q40最初定义的‘完成’序列”。

  科学家们建议,在“所有需要线性参考序列的研究”中,新组装的Y染色体序列将在不久的将来被加入,应该用来取代GRCh38参考序列。他们指出,GRCh38“更完整,更具有代表性,而且比它的前身准确,大大增加了人类基因组中已知基因的数量和重复次数”。

  该团队还指出,使用新的参考文献对短读公共数据集(如1000个基因组项目)进行再分析,已经显示出与GRCh38参考文献相比的改进,而且考虑到更完整的参考基因组,新的表型关联应该被期待。

  高保真测序为基因组发现的下一阶段提供动力

  作者写道:“人类基因组端粒到端粒的完整组装标志着基因组学的新时代,没有一个基因组区域是无法触及的。高度精确的长读测序,结合量身定制的算法,保证了个体单倍型的从头组装和复杂结构变异的序列级分辨率。这将需要按照人类泛基因组参照协会的计划,对人类二倍体基因组进行常规和完整的从头组装。”

  最终,他们预计高度精确的长读测序将导致“高质量、完整的参考单倍型的集合,将使该领域从单一的线性参考转向捕捉人类遗传变异的全部多样性的参考泛基因组,”该团队报告说。“理想情况下,每个基因组都可以以这里达到的质量组装,因为通过短读重测序方法恢复的小变异只代表整个基因组变异的一小部分。”

v


生物通
文章推荐