【老生常谈】P值是如何来的!

2020-4-02 20:23

中科新生命,成立于2004年,专注于质谱技术方法在科技服务、生物医药、精准医疗领域的应用开发。12年质谱服务经验,每年处理样本数超万例,通过与中科院的技术合作及企业研发团队的自主创新,致力成为您优秀的生物技术合作伙伴。

先进平台:基于优化的质谱平台,项目运行畅通无阻

专业服务:全博士售前团队,专业项目售后,数据发表负责到底

一入组学深似海,结果不离“差异”门

统计学方法计算P值

不管P<0.05还是P<0.005哪个使用更合理,首先得会计算P值。

组学中计算P值的方法很多,包括常用统计学方法有t-test、one-way ANOVA、two-way ANOVA 、significanceA/B、Z-test等,如何选择,请往下看。

统计学方法之—two sample t test

T检验,又叫student t检验(Student's t test)。即用t分布(见图1)理论来推论差异发生的概率,从而比较两组样本均值差异是否显著,感兴趣的童鞋可以仔细看一下下图。该统计学方法适用于3个及以上独立重复样本,用Spss或者excel等软件完成。

举个例子,比如您有一组野生型菌株和一组突变型菌株,各有四个重复,目标是比较两种型菌株的蛋白质表达差异,那选择用T检验再合适不过了。

1585830056861176.png

图1 双侧检验T分布

统计学方法—one sample t test

上面提到的是比较经典的 T 检验,适用于两样本之间的显著性检验。而这里再介绍一种one sample T test,用于比较一个样本总体均值与特定数值之间是否存在统计学上的差异。比如我们有两组数据,分别是野生型菌株和突变型菌株,野生型与突变型的表达量比较之后,得出一个两者表达量的比值。一切都看起来很正常。重点在这里,采用one sample T 检验的方法进行显著性分析,那就是用表达量的ratio和1进行比较。如果两组之间没有显著差异,则比值在1附近,p value值可能就大于0.05。如果两组之间有比较大的差异,与1偏离较大,p value可能就非常小。p小于0.05以 后,小概率事件都已经发生了,你说显著不显著?

1585830077728508.gif

统计学方法—ANOVA分析

是R.A.Fisher发明的,又叫F检验。即用F分布(见图2)理论来推论不同处理因素对各组样本均值间的差异。只考虑一种因素用one-way ANOVA, 考虑两种因素以及交互作用用two-way ANOVA,该差异比较的实现方法就要到一些特殊的手段和程序啦。适用范围是生物学重复大于或等于3的两组或者多组样本的显著性检验。为了方便大家理解,举一个栗子,比如不同时长的光照处理对植物花期的影响,那影响因素是什么呢,就是不同时长的光照,植物还是那个植物,处理了不同时间的光照,一定会有些蛋白质会发生变化。那我们通过one-way ANOVA分析之后,就可以得出哪些蛋白质是受光照处理影响的蛋白质。情况再复杂一点,如果该植物又是来源不同的两种形态,比如耐寒性和不耐寒型,那是不是就变成了两个因素,一个是光照,一个是耐寒性。那这个时候我想比较在两种植物中的受光照影响的蛋白质,那就应该选择two-way ANOVA,双因素方差分析啦。

1585830103577232.png

图2 F分布

统计学方法—Significance A/B

Significance A也是经常出没的一种统计学方法,该算法主要是根据两组样本表达量的RATIO进行正态分布排列,利用Significance ratio score计算的到显著性的p value,将明显离群的点作为差异候选。Significance B 计算公式与Significance A 相同,但是会根据强度值划分区间分别进行显著性计算,从而得到显著性的p value。是不是有点拗口呢?简单理解就是Significance B会比Significance A计算算法原理相同,但是计算更精细,考虑到不同丰度对显著性的影响。如下图。至于计算公式比较复杂,感兴趣的童鞋可以去找一下文章,仔细研究一下。

1585830130197753.jpg

图3 significance B示意图

统计学方法—Z检验

Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法,请看以下公式。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 Z检验和T检验都是用均值差异检验的方法。但是t检验的运用要比z检验更广泛,因为大小样本时都可以用T检验,而小样本时Z检验就不太适用了。目前Z检验没有大规模使用,大家知道就可以了。所以咱们就不举栗子了,行不?

其Z值计算公式为:

1585830177830664.png

其中:

  • 是检验样本的平均数;

  • μ0是已知总体的平均数;

  • S是样本的标准差;

  • n是样本容量。

以上主要是统计学方法的内容,大家看明白了吗?

不管以上哪一种方法,在分析思路上都有以下三大步:

首先,对样本进行分组,定义好组内和组间。

然后,利用统计分析软件计算P-value,也就是计算出当原假设成立条件下,样本观察结果或者更极端结果出现的概率。

最后,判断否接受原假设,即当p小于0.05或者0.01时为差异有统计学意义,说明样本之间差异显著。

下期我们将给大家讲解差异蛋白质筛选标准!

1585830183587740.jpg

喜欢这篇文章记得转发和点赞哦~


领域:蛋白/抗体/蛋白质组,多组学/蛋白质组/代谢组/脂质组