干货连载 | 三分钟学会SIMCA判别分类模型——PCA-Class

2021-1-25 11:41

上期为大家介绍了SIMCA16  OPLS操作教程,本期将为大家介绍SIMCA判别分类模型(PCA-Class)操作教程~

1.原始数据

通过判别分析来找组别之间的较佳判别变量,并结合分析来自不同数据组(训练集与测试集)的数据。

小提示:在数据整理时就要将训练集与测试集分开,这点很重要哟,关系着是否能成功建立PCA-Class模型。

1611545447417497.png

2.数据导入

1611545504180892.png

1611545513764054.png

1611545525602456.png

1611545534558498.png

1611545542563155.png

3.自动拟合

1611545585618012.png

1611545592694104.png

4.添加主成分

1611545615938797.png

5.创建分组模型的DModX图表

1611545651968897.png

1611545660580613.png

6.更改横坐标名称

1611545845217513.png

1611545694503020.png

7.更改颜色

1611545818922135.png

1611545870817898.png1611545891507469.png

此时DModX图表是内部验证,数据是训练集40的个样本。红线为95%置信区间,图中F组超过置信区间说明两组样本区分较大,不是同组样本。

1611545924246833.png

1611545937143862.png

同理,在模型二中,F组都处于置信区间95%以内,属于同组样本。C组全部样本都超过置信区间95%的红线以上,与F组不是同组样本。

8.预测集数据验证模型

1611545965370894.png

1611545976504699.png

1611545989754795.png

1611546004233418.jpg

此时DModX图表是外部验证,数据是测试集的10个样本。红线为95%置信区间,图中C组中有一个样本超过置信区间,说明该样本不属于C组样本。

1611546026539001.png

1611546034760047.jpg

同理,在模型二中,10个样本正确分类。总的来说,外部验证的DModXPS+图得出,模型一将10个样本中的9个正确分类,而模型二将10个样本中的10个正确分类。

在这种情况下,另一个有用的工具是“Coomans’  plot”。该图是通过在同一散点图中共同绘制两个模型的DModXPS+值而创建的。

1611546046902663.png

我们讨论的最后一个图——ROC图。它绘制了真实预测率与错误预测率的关系。

1611546061465956.png

我们可以从上面的两个ROC图中看到,模型二有完美的外部验证性能,而模型一的性能稍差。

今天小编关于PCA-Class绘制教程就到这了,大家有木有都会使用了呢。SIMCA软件操作简单灵活,是目前全球较受科研工作者欢迎的多元变量统计分析软件,并已经成为多元变量统计分析的标杆。感兴趣和有需求的老师立马行动起来吧!

暖心的小编会持续为大家推出SIMCA16分析操作干货哦,大家尽请期待!

本文为阿趣代谢微信公众号原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须联系阿趣代谢微信公众号获得授权,并在正文前注明来源阿趣代谢微信公众号。


领域:基因/基因组/测序

标签:SIMCA