分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

探“云”指南 | 微生物ROC曲线

创新多组学技术服务
2023.6.09

接收者操作特征曲线(Receiveroperating characteristic curve,ROC 曲线)是机器学习中一种有效的有监督学习方法,该分析属于二元分类算法,用于处理只有两种分类的问题。给定一个二元分类模型和它的阈值,ROC 曲线就能从所有样本的(阳性/阴性)真实值和预测值计算出一个坐标点。其中,完美的预测为曲线左上角的点。那么接下来我们就看看微生物ROC曲线小工具是怎么使用的吧。

功能介绍

根据特征丰度数据,如差异物种或生物标记物等,利用10折交叉验证,对每一折划分训练集及验证集,先对训练集构建随机森林模型,再用此模型预测验证集,构建ROC曲线,最后对10折进行平均处理得最终ROC曲线。

文件要求

01

物种丰度表文件

第一列为特征物种名称,其余列表头为样本名称,对应数据为丰度值。在该文件中要求每组样品数量需在50以上,小于50结果准确度会降低。(支持xls,xlsx,txt,csv格式输入)

图1 | 物种丰度表文件格式示例

02

样本对应分组表文件

样本对应分组信息表,组数必须为2。第一列为样本名称,第二列为样品对应的分组信息。请注意列名的首字母大写问题,如与图中所示有异可能会报错。(支持xls,xlsx,txt,csv格式输入)

图2 | 表型文件

参数调整

01

主要参数

图3 | 主要参数

作图步骤

01

准备工作

请于上传文件前首先查看“重要提示”的提示信息以及“使用说明”中的示例文件格式,根据提示进行文件准备。

02

主要参数设置

①请于主要参数中的特征丰度表、样品对应分组处上传您所要进行分析的文件,为必填参数。在“选择文件”后显示上传的文件名说明上传成功。

此处为上传成功示例:

图4 | 文件上传成功示例

②任务命名:对结果进行命名用于区分不同的任务,默认为当前工具名称_结果创建日期时间,在历史记录的注释处可见,可接受默认或自行输入。

03

最终提交

文件上传成功后

如图所示区域:

图5 | 工具预估耗时提示处

结果分析

(图片为使用示例文件及其他参数保持默认时的结果)

01

结果下载

分析结果保存6个月,请注意及时下载保存,

图6 | 结果展示界面

02

结果说明

利用特征丰度数据,在随机森林模型的基础上,利用10折交叉验证构建了ROC曲线。

如图:

横坐标为假阳性率,纵坐标为真阳性率,该指标越高代表准确率越高。ROC曲线是反映假阳性率与真阳性率之间的动态关系的曲线,一般情况下,曲线都应该处于(0, 0)和(1, 1)连线的上方。蓝色曲线为10折后取的平均曲线,真阳性率增长得越快、斜率越大,代表模型的分类性能就越好。ROC曲线上最靠近左上角的点其灵敏度和特异度之和最大,这个点或其邻近点常被称为诊断参考值。AUC为曲线下面积,阴影部分为上下1个标准差。

图7 | ROC曲线示例

历史记录

图8 | 历史记录示例

常见Q&A

请问对上传的文件格式有什么要求?

您好,首先感谢您的咨询。对于物种丰度表文件,我们要求每组最少需50个样本;对于样品对应分组信息表,我们要求组数必须为2,否则会报错。

猜你想看

1、探“云”指南 | 免费物种功能贡献度分析小工具不容错过!

2、探“云”指南 | 拜托!谁不喜欢清晰直观的条形图啊!!!

3、探“云”指南 | 全体复诵:欧易云GSEA分析!

4、探“云”指南 | 微生物和代谢物相关性分析怎么做?

发布需求
作者
头像
仪器推荐
文章推荐