分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

CopyKAT | 单细胞转录组再添肿瘤细胞鉴定新方法

创新多组学技术服务
2021.5.21

如今单细胞转录组分析已经广泛应用于人类肿瘤疾病研究,然而,在单细胞分析中仍有一项具有挑战性的工作,就是区分肿瘤微环境中的正常细胞和恶性细胞,以及探究肿瘤内部的亚克隆结构。此前 Broad 研究所出品的 inferCNV 软件,相信大家已经比较熟悉,然而该方法主要是为分析第一代单细胞转录组技术数据而设计的,第一代单细胞转录组技术的通量较低、测序深度较高,将其应用于新一代高通量单细胞转录组平台的数据中有一定局限性。此外,以前的方法不能准确解决特定染色体断点的基因组位置,或者根据非整倍体拷贝数对肿瘤细胞和正常细胞进行分类。

为了应对该挑战,研究人员开发了一种集成贝叶斯分割方法,称为 CopyKAT (Copynumber Karyotyping of Tumors),该软件于今年发表在 Nature Biotechnology 上。

 

软件原理

CopyKAT 通过结合贝叶斯方法与层次聚类来计算单个细胞的基因组拷贝数分布,并定义出亚克隆结构 (图 1)。

软件以基因表达矩阵为输入,首先根据基因组坐标对基因进行排序,利用 Freeman Tukey 变换来稳定方差,采用多项式动态线性建模 (DLM) 来对单细胞 UMI 计数中的异常值做平滑矫正 (图 1a)。

接下来找出正常二倍体细胞子集:我们将细胞分为几个细胞群,使用高斯混合模型 (GMM) 估计每个细胞群的方差 (图 1b)。通过严格的分类标准,具有最小估计方差的细胞群被定义为“高置信的二倍体细胞”。当数据中只有少数正常细胞时,或者当肿瘤细胞有接近二倍体的基因组,即只有有限的拷贝数变异 (CNA) 时,可能会发生潜在的误分类。在这种情况下,CopyKAT 提供了一种 GMM 定义模式来逐一识别二倍体正常细胞,假设一个细胞的基因表达中混合有 3 种高斯模型:增加、缺失和中性状态。当处于中性状态的基因至少占表达基因的 99% 时,该细胞就被定义为高置信的二倍体细胞。

通过对单细胞拷贝数数据进行分层聚类,以识别非整倍体肿瘤细胞和二倍体基质细胞之间的最大距离。如果基因组距离不显著,我们切换到 GMM 定义模型来逐个预测单个肿瘤细胞 (图 1d)。最后,可以对单细胞拷贝数数据进行聚类来识别亚克隆群,并计算代表亚克隆群的基因表达谱,进一步分析其基因表达差异 (图 1e)。

图1 CopyKAT 分析工作流

 

案例验证

为了验证 CopyKAT 的准确性和与 inferCNV 结果进行比较,研究人员对乳腺癌患者的 1,480 个细胞进行高通量 3’单细胞转录组测序(10x Genomics),结果表明,在 220 kb 的基因组分辨率下,CopyKAT 与全基因组 bulk DNA 测序具有很高的一致性 (Pearson相关系数= 0.82)。在相同数据集上运行 inferCNV,inferCNV 的预测结果也与 bulk DNA 测序数据具有较高的一致性(Pearson相关系数=0.79),但是 inferCNV 的信号稍低于 CopyKAT(图2)。 

图2 CopyKAT 和 inferCNV 与全基因组 bulk DNA 测序比较

 

将 CopyKAT 应用于三组之前发表的 5 例胰腺癌患者、5 例三阴性乳腺癌患者和 5 例间变性甲状腺癌患者的 3’单细胞转录组数据,并把 CopyKAT 鉴定到的肿瘤细胞与利用肿瘤上皮标志物打分的注释结果进行对比,结果表明,CopyKAT 可以准确 (98% ± 3% s.d.) 区分多种实体肿瘤中的肿瘤细胞和正常细胞,而不需要特定的基因表达标记(图3)。

除了 3’单细胞转录组数据,作者也评估了对于第一代单细胞转录组测序技术 SMART-seq2 以及 5’单细胞转录组测序(10x Genomics)数据的适用性,结果成功分离鉴定出了非整倍体肿瘤细胞群与二倍体正常细胞群,表明 CopyKAT 能够广泛兼容不同单细胞转录组测序数据。

需要注意的是,并不是所有的癌症类型都有非整倍体拷贝数事件可以用来区分正常细胞和肿瘤细胞,特别是已知拷贝数变化很少的儿童癌症和造血系统癌症,可能不适合进行拷贝数分析,CopyKAT 建议可以指定已知正常细胞来运行。

图3 人体肿瘤中区分癌细胞和正常细胞

 

结果展示

在 CopyKAT 的预测结果中,aneuploidy 表示非整倍体变异的肿瘤细胞,diploid 表示正常细胞。CNA heatmap 图中每一行表示细胞,每一列为染色体位置,颜色表示拷贝数变化程度(图4),可以将鉴定结果映射到 tSNE/umap 图中(图5)(欧易生物针对源码进行优化,优化后速度提升近10倍)。

图4 CNA heatmap 图

图5 copyKAT 鉴定结果映射到 tSNE 图中

 总结

仅凭marker基因表达谱,正常的上皮细胞往往是最难与恶性肿瘤细胞区分的,因为它们可以表达许多与癌细胞相同的上皮标记物。研究人员发现了实体肿瘤中癌细胞的一种独特特性,即它们在基因组中通常存在非整倍体拷贝数事件,而大多数基质细胞和免疫细胞具有二倍体拷贝数。利用 CopyKAT 可以识别单细胞转录组数据中的非整倍体肿瘤细胞,并描绘肿瘤内部的亚克隆结构。

 

参考文献

Gao R , Bai S , Ying C H , et al. Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes[J]. Nature Biotechnology, 2021:1-10.

发布需求
作者
头像
仪器推荐
文章推荐