分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

流形学习在单细胞组学数据分析中的运用

2020.4.08
头像

王辉

致力于为分析测试行业奉献终身

以10x Genomics为代表的单细胞组学检测技术的发展,为我们从细胞层面去理解生命体的发育过程,疾病发生和发展过程提供了重要的手段。以单细胞转录组(scRNA-Seq)为例,我们可以发现,单细胞组学数据具有横向细胞数量巨大,纵向数据分布稀疏的特点。因此,针对单细胞数据,从分析的角度提出了巨大的挑战。在这个过程中,流形学习的发展,为单细胞数据的降维和可视化提供一种解决方案。

以下,我们通过Q&A形式来分享流形学习在单细胞数据分析中的运用。

1.什么是流形学习?

流形学习是机器学习的一种,2000年以后被认为属于非线性降维的一个分支。流形学习的本质是用低维度数据分布去解释高维度数据,也可以把它理解成寻找一个高维数据空间到低维数据空间的映射。非线性降维技术(广义上“非线性降维技术”≈“流形学习”,狭义上后者是前者子集)。流形学习在单细胞数据中的作用就是为了解决使高维的数据进行合理降维的过程。

2.流形学习的分类有哪些?

流形学习从算法分类的角度分为线性流形学习算法和非线性流形学习算法,线性方法是对非线性方法的线性扩展,比如我们熟悉的主成分分析(Principal component analysis,PCA),多维尺度变换(Multidimensional scaling,MDS)等就属于线性算法,t-SNE[1]方法就属于非线性算法。


不同方法衍生出的算法见上图

3.流形学习有哪些经典算法?

流形学习中,最基本的降维原理是找到一个映射从流形到欧式距离,经典的算法主要有ISOMAP, LLE和LE三种:

a)  Isomap等距映射:Isomap试图通过保持任意两点之间的测地线距离来保持流形的全局几何结构。


b) 局部线性嵌入(Locally Linear Embedding ,LLE):也是非常重要的降维方法 ,LLE从局部来进行分析。

上图中LLE首先假设数据在较小的局部是线性的,也就是说,某一个数据可以由它邻域中的几个样本来线性表示,LLE 分析方法的出发点便是“流形在局部可以近似等价于欧氏空间”。

c) 拉普拉斯特征映射(Laplacian eigenmaps,LE):基于图谱理论,希望保持流形的近邻关系,将原始空间中相近的点映射成目标空间中相近的点,通过构建近邻图、计算每条边的权重(不相连的边权重为0)、求解特征向量方程来达到降维、聚类的结果。


4.为什么在单细胞分群展示时不用PCA?

Principal Component Analysis(PCA) 采用线性投影的方法进行降维,它的目的是使得数据在给定的方向上投影得到最大的方差,PCA 是到目前为止应用最为广泛的一个降维算法,在机器学习本身的众多场景中也通常被用作数据预处理的首要方法,当流形是一个线性流形时,PCA 得到的结果是最优的。然而单细胞数据基本上是高维、非线性的并且稀疏的matrix数据结构,所以PCA只能作为数据预处理的一种方式,而基于流形学习的非线性降维方法,结果都会明显优于PCA,每一个算法都是从不同角度去看问题,所以必须有针对性地选择算法来分析单细胞的数据。



5.流形学习用在单细胞数据分析的理论基础是什么?

由于scRNA-seq数据的噪声和复杂性,许多降维方法都不能有效地在二维或三维空间中捕获足够的信息,从而无法实现可视化。在这种情况下,流形学习框架对于降维和数据可视化都很有用。

流形假设中将单细胞RNA-seq实验中的观测结果建模为从细胞状态的光滑流形中采样。通过将流形学习方法应用于多个细胞间的基因表达矩阵,学习数据的潜在邻域结构,恢复数据的潜在低维表示;然后通过应用一个核函数(核函数的作用就是隐含着一个从低维空间到高维空间的映射,而这个映射可以把低维空间中线性不可分的两类点变成线性可分的),核函数可以测量保留密切相关的细胞之间的相关距离、沿流形的主要变化轴计算拟时间,例如可以构建、呈现发育过程中分化的进程,进而利用数据的流形表示进行降维和可视化[2]。




6.流形图和流形学习之间是什么关系?

流形学习实现了对单细胞数据的降维和可视化过程,沿着流形变化轴,我们可以构建细胞变化过程。因此,拟时间序列分析所采用的降维算法其原理也是基于流形学习。我们常用来进行拟时间序列分析的Monocle 2就是基于图模型来推测细胞的变化过程。流形图是一种二维密度估计的等值线。举个例子:在地理课上我们经常会看到等高线:即地面上海拔高度相同的各点的连线。二维密度估计的等值线是一个和等高线差不多的利器,在原始图中添加类似等高线(二维密度估计的等值线)的表示,用以标记密集程度,也是间接计算距离的一种算法思想。

目前的流形学习基本上都是基于图模型,下图为拟时序分析的轨迹图,虽然都是树枝样的分支,流形背景显示出每个类别中的分支路线的独有性,类似于不同的群山山脉特点。通过流形学习得到的拟时序轨迹图,再加上流形背景,这样不仅能够可视化单细胞的轨迹路线,也能从另外一个维度来展现同个流形空间上细胞的关系,整个过程就是高维映射到低维,然后又mapping回高维来展示,使结果的呈现更加多元化、立体化和更加能准确地回溯细胞的整个轨迹。


以上是有关于流行学习在单细胞组学数据用的运用原理和运用方向,对于具体的运用环境,需要根据自身的数据特点选择最合适的方法。当然,现有的一些单细胞数据分析包里面已经很好地嵌入了相应的算法公式,我们只要进行合理的利用,就可以对数据进行最优筛选和展示。
 

参考文献:

1. Donaldson, J. (2016). T-Distributed Stochastic Neighbor Embedding for R (t-SNE). R package version 0, 1–3

2. Moon, K.R., et al., Manifold learning-based methods for analyzing single-cell RNA-sequencing data. Current Opinion in Systems Biology, 2018. 7: p. 36-46.


互联网
仪器推荐
文章推荐