主成分分析在生命科学研究中的应用（一）

2020.7.21

王辉

致力于为分析测试行业奉献终身

主成分分析常常用于基因组全序列表达研究，但是，到底什么是主成分分析？如何将这种方法用于对高维度数据的分析中呢？

生命科学研究中采用的一些测定方法，对每个样品所采集的数据的变量要多于所测定的样品数。例如，DNA芯片及质谱仪可以对上百个样品中数以千计的mRNAs或蛋白质水平进行测定。诸如此类的高维度测定使得样品的分析结果很难清晰便捷地进行判断，也限制了对数据进行简单分析的应用。

主成分分析（Principal component analysis, PCA）是一种数学算法，它可以在减少数据维度的同时，保留数据集中绝大多数的变量[1]。PCA通过对主成分进行辨别，找出一个方向，并沿此方向分布的数据为最大值，从而减少数据维度。通过采用这样的主成分，便可以只选用若干变量而不是上千的变量来对一种样品进行分析了。这样，就可以将样品有关变量绘制成图，使得样品间的相似性和相异之处一目了然，对不同样品是否可以归为一组，也一清二楚。

Saal等人 [2] 曾使用基因芯片对105个乳腺肿瘤样品中的27,648个基因表达情况进行了检测。本文将采用这组基因表达数据集表明PCA如何只用很少的变量就能完成对样品的分析，包括基因的表达水平、基因表达模式等。所需实验数据来自Gene Expression Omnibus database（accession no.GSE5325）。

a 每一点代表一个乳腺癌样品中两个基因的表达水平（在a-c, e中雌激素受体阳性ER+的样品显示为红色，黑色代表阴性ER—）。

b PCA分析了两个主成分PC1和PC2，沿着这两个主成分数据有最大的分散。

c 样品数据只用一维显示，将ER+、ER—和所有样品的数据都分别记入第一个主成分PC1中。

d 当PCA用于分析样品所有8534个基因的表达水平时，主成分的变量情况。

e PCA二维图，用前两个主成分数据形成的散点图，两个基因采用其权重系数作为主成分 (绿点所示)。所示标度适用于样品；该标度需除以950，才得到基因所对应的标度。

f 图e中的样品数据依ERBB2的情况绘制的图（蓝色、ERBB2＋、棕色、ERBB2—、绿色、情况未知）。

主成分

尽管要深入理解PCA的算法需要具备线性代数的知识，但是，其基本原理却可以通过简单的几何图形进行解释。为了更加简单明了的弄清个中原理，不妨假设在这一实验中，采用的基因芯片只对两个基因GATA3和XBP1的表达水平进行检测。这样可以简化根据乳腺癌样品表达谱进行作图的过程，因为它只包含了两组数据（图.1a）。我们将乳腺癌样品按照雌激素受体阳性或阴性进行分类，本文已选择了两个基因，其表达水平与雌激素受体水平相关[3]。

在PCA中，鉴别出新的变量即主成分——原始变量的线性组合。这项二维基因表达谱研究中所采用的两个主成分见图.1b。可以很清楚的看出，沿第一个主成分方向，分布的是样品最大变量；沿第二个主成分的方向分布的是与第一个主成分无相关的最大变量。

如果数据已经过标准化，那么每个基因的数据都应该集中在0平均表达水平，主成分是代表标准化后的基因表达数据协方差的特征向量，并根据它们包含变量信息的多少而被排序。每个主成分都可被理解为一个向量，且它们之间互不相关，每个主成分都尽可能的包含了样品变量的最大差异。这里，用于研究的基因数据在进行PCA前都被进行了标准化，图.1b中的第一个主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的体现了每个样品数据本身的特征，有时就是指特征向量。和PCA相关的方法包括独立成分分析，该方法是用来确认成分之间统计学上互相独立，而不仅仅是非相关的方法。

互联网

喜欢作者

主成分分析在生命科学研究中的应用（一）

王辉