分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

视频实操SCI作图课(1):3min做出让审稿人满意的高级PCA图

迈维代谢
2022.3.24

本次给大家介绍的是迈维云2.0的第一个高频小工具——高级PCA分析。

提到PCA分析,大家都不陌生,但凡是做过任何一种组学检测的老师,都一定会用到这种分析方法,但是,你真的了解它么?如何通过迈维云平台做出漂亮的PCA得分图呢?

看完这个视频,你就会豁然开朗~

■ ■■■■

 视频解说教程

PCA分析,全称为主成分分析(Principal Component Analysis),它是一种无监督模式识别的多维数据统计分析方法。

1

如何通俗的理解PCA分析?

代谢组学能够对于样本中数以千计的代谢物同时进行检测,因此产生的数据是高维且复杂的。采用多变量统计分析,可以在最大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。

PCA就是这样一种无监督模式识别的多元数据统计分析方法,它通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这个变量叫主成分。简单理解PCA的数据处理原理就是:将原始数据压缩成n个主成分来描述原始数据集的特征,PC1表示能描述多维数据矩阵中最明显的特征,PC2表示除PC1之外的所能描述数据矩阵中最显著的特征,PC3……PCn以此类推。

这个分析方法常用来研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关,通常数学上的处理就是将原来多个指标作线性组合,作为新的综合指标(Erikssonet al., 2006)。

2

PCA分析的结果怎么看?

PCA得分图有二维和三维两种展示形式,在二维得分图中横坐标PC1表示第一主成分,纵坐标PC2表示第二主成分,百分比表示该主成分对数据集的解释率,圆圈表示95%的置信区间;图中的每个点表示一个样品,同一个组的样品使用同一种颜色表示,Group为不同的分组;在三维得分图中,增加了第三个主成分,此时X轴表示PC1,Y轴表示PC3,Z轴表示PC2。

PCA得分图可以让我们非常直观地看出各个样本之间的相似性。例如在一张PCA得分图中,数个样本的点聚在一起,那么就说明这几个样本之间的相似性非常高,反之,如果几个样本的点非常分散,则说明这几个样本之间的相似性比较低。

除去得分图,我们还可能会在结果文件中看到下面这种折线图,它描述了前5个主成分的解释率。横坐标表示各个主成分,纵坐标表示主成分对数据集的解释率,左图为累计解释率,右图为各个主成分的解释率。

3

PCA分析有什么用?

通过对样本进行主成分分析,可以初步了解各组样本之间的总体代谢物差异和组内样本之间的变异度大小,其具体的作用主要有以下三种:

a. 进行质量控制

质控样本(QC)由样本提取物混合制备而成,用于分析样本在相同的处理方法下的重复性。在仪器分析的过程中,一般每10个检测分析样本中插入一个质控样本,以监测分析过程的重复性。QC样本是完全的技术重复进样,因此QC样本间应该距离较近,在PCA图上表现为聚集在一起。

b. 筛选离群样本

相较于组间样本,组内生物学重复之间的代谢物分布情况应该是高度相似的,因此,在PCA得分图中,组内的几个样本通常会呈现明显的聚集趋势,若个别样本落在椭圆(95%的置信区间)以外,则表示该样本为离群样本,在样本数量充足的情况下,应该对其进行剔除处理。

c. 直观反映组间差异

PCA是一种无监督模式的数据统计分析方法,所以它能够最还原样本内最真实的代谢状态。如果在PCA得分图中,两组样本间存在明显的分离趋势,则提示这两组样品中的代谢物组成存在着较为显著的差异。

此外PCA在对三组或多组样本进行分析时,还可以体现样本间代谢组成的变化趋势,例如:在药物治疗研究中,治疗组与对照组和模型组进行PCA聚类的时候,治疗组会在PC1上介于其余两组之间,由此表明治疗起到了一定的效果,使得样本中代谢物组成向正常对照组恢复。

4

PCA分析中两组无明显分离趋势,怎么办?

在PCA分析中,我们常会遇到一种棘手的情况,那就是两组样本相互穿插在一起,没有发生明显的分离趋势,此时我们应该进行如下探究:

①首先需要了解这两组样本的分组依据,并判断该依据是否并非是样本中代谢物组成的主要影响因子。例如,某项目依据牛的饲喂天数进行分组,PCA发现两组无明显分离趋势,经探究,这些牛他们的父本和母本也是不同的,而父本原本对后代血液的代谢组就有着显著的影响,因此,该结果表明饲喂天数不能够成牛代谢组的主要影响因素,并不表示PCA分析是错误的。

②若第一步探究不成立,此时我们需要查看是否各组内存在一些离群的样本,即在落在圆圈外的点(或者是明显与同组内其他样本距离较远),在样本数量足够的前提下,我们可以选择剔除个别离群的样本,再重新进行PCA的分析,通常情况下分析结果都会得到一定程度的改善。

免费注册

咨询电话:027-62433042

咨询微信:metware888

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”

发布需求
作者
头像
仪器推荐
文章推荐