分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

北大汤富酬团队首次在单细胞水平上从头组装人类基因组

2022.7.21
头像

chloe

随遇而安

  基因组组装受益于具有更高准确性和更高连续性的长读长测序技术。然而,大多数人类基因组组装需要来自同质细胞系的大量 DNA,而不会保持细胞异质性,因为细胞异质性会严重影响单倍型组装结果。

  2022年7月12日,北京大学汤富酬团队在Nucleic Acids Research (IF=19)在线发表题为“De novo assembly of human genome at single-cell levels ”的研究论文,该研究使用单细胞基因组长读长测序技术(SMOOTH-seq),在 PacBio HiFi 和 Oxford Nanopore Technologies(ONT)平台上对 K562 和 HG002 细胞进行了测序,并进行了从头基因组组装

  该研究首次在单细胞水平上完成了具有高连续性的人类基因组组装(使用 95 个单独的 K562 细胞,NG50 约为 2 Mb),并探索了不同组装器和测序策略对基因组组装的影响。借助 ONT 平台上 30 个基因组覆盖率相对较高(平均覆盖率 ∼41.7%)的二倍体 HG002 细胞的测序数据,NG50 可以达到 1.3 Mb 以上。此外,利用来自 K562 单细胞数据集的组装基因组,可以识别更完整和准确的插入事件集和复杂的结构变异。总之,该研究开启了单细胞基因组从头组装实践的新篇章。

  随着单碱基准确度和读取长度的提高,使用大量样本的单分子长读取测序技术已广泛用于基因组组装。由于读取长度比下一代测序 (NGS) 平台具有优势(增加 100 到 1000 倍),长读取测序(第三代测序,TGS)可以更好地组装包含重复序列和染色体重排的复杂基因组区域,它允许识别遗传变异并将它们与潜在的表型联系起来。

  最近,许多物种的基因组主要使用 TGS 平台数据进行组装,例如脊椎动物基因组计划(VGP),旨在完成所有约 70 000 个现存脊椎动物物种的参考基因组。2021 年,该项目汇集了代表 6 个主要脊椎动物谱系的 16 个物种。对于人类基因组,端粒到端粒 (T2T) 联盟已经完成并发布了第一个使用纯合细胞系 (CHM13) 的无间隙人类参考基因组。最近,人类泛基因组参考联盟 (HPRC) 生成了第一个高质量的二倍体参考组装 (HG002)。此外,许多不同植物的基因组已经高质量组装。

  通常,这些长读长测序组装需要大量 DNA(通常来自数百万个细胞的几微克),因此大多数人类基因组组装仅限于批量基因组测序数据集,而不会保留单个细胞之间潜在的遗传异质性。然而,这在许多情况下是不切实际的。在真正的装配应用中,至少需要克服两个基本挑战。首先是关于细胞异质性。批量数据组装的前提是批量样本中的所有细胞都携带相同的基因组;否则很难区分不同基因克隆之间的变异和细胞内不同单倍型之间的变异。

  事实上,可以在许多正常组织样本中检测到体细胞拷贝数改变 (CNA) ,并且 CNA 表现出强烈的器官偏好。同时,在一个人的一生中,正常人类细胞会积累突变,因此正常细胞群可以由无数包含不同突变的小克隆组成。在癌组织中,遗传异质性更加明显。在组装的实际应用中,细胞间基因组的差异会极大地影响最终组装的准确性。只有首先解决样本中不同细胞之间的遗传异质性,单倍型组装结果才有意义。

工作流程图(图源自Nucleic Acids Research )

  第二个挑战是通常只能获得少量基因组 DNA 用于测序分析。在许多情况下,获得大量(几微克)基因组 DNA 是不切实际的。例如,在早期胚胎发育研究 和法医检测中,特别是在癌症基因组研究中,例如循环肿瘤细胞、肿瘤活检样本,脑脊液(CSF)中的肿瘤细胞和腹水中的肿瘤细胞(每毫升约数千个卵巢癌细胞)。这些细胞很难在体外培养和扩增,即使可以培养,也不能保证它们在体外培养时的基因组结构与体内保持一致。

  单细胞全基因组测序 (scWGS) 是揭示细胞间遗传异质性的有力工具,尤其适用于癌症研究。已确定的基因组变化,例如 CNA 、体细胞基因突变 、线粒体突变和其他遗传改变,有助于识别细胞亚克隆及其对表型变化的潜在贡献。通过使用遗传上更相似的克隆群体,基因组组装或单倍型组装可以更准确。

  单细胞 NGS 基因组测序技术常用于微生物基因组组装。事实上,各种环境中的许多细菌无法在实验室中培养,单细胞基因组测序可以揭示基因组和生理学见解,了解无法在培养中轻松生长的新生物,而单细胞基因组测序可以解决序列的遗传联系在一个离散的有机体中,因此可以与宏基因组学方法结合使用以完成基因组组装。然而,基于NGS平台的单细胞基因组测序技术很少用于大型复杂的基因组组装,即使使用大量的NGS基因组测序数据,contig N50的组装连续性也无法达到兆碱基水平,例如人类基因组的从头组装。使用少量基因组 DNA 甚至单细胞基因组测序数据组装人类基因组更具挑战性。

  最近,研究人员开发了SMOOTH-seq技术,可以在第三代测序平台上对单个细胞的基因组进行测序。SMOOTH-seq 可以可靠有效地检测单个人类细胞中的 SV 和 ecDNA,这使得对具有长读长(约 6kb)的单个细胞基因组进行测序成为可能,为仅从几个单个细胞组装人类基因组提供了先决条件。在这里,该研究使用单细胞基因组长读长测序技术(SMOOTH-seq),在 PacBio HiFi 和 Oxford Nanopore Technologies(ONT)平台上对 K562 和 HG002 细胞进行了测序,并进行了从头基因组组装。

  该研究首次在单细胞水平上完成了具有高连续性的人类基因组组装(使用 95 个单独的 K562 细胞,NG50 约为 2 Mb),并探索了不同组装器和测序策略对基因组组装的影响。借助 ONT 平台上 30 个基因组覆盖率相对较高(平均覆盖率 ∼41.7%)的二倍体 HG002 细胞的测序数据,NG50 可以达到 1.3 Mb 以上。此外,利用来自 K562 单细胞数据集的组装基因组,可以识别更完整和准确的插入事件集和复杂的结构变异。总之,该研究开启了单细胞基因组从头组装实践的新篇章。

iNature
文章推荐