生物标志物筛选准确率难保证?集成机器学习一站式搞定

2020-4-04 16:02

1585986614603593.jpg

临床生物标志物的筛选、及诊断panel优化构建是临床应用转化前期基础,如何高效从海量的组学数据中获得高灵敏、高稳定、高准确率的潜在生物标志物?也是利用高通量组学技术进行标志物筛选所面临的主要挑战之一。

常规的单维统计学检验方法(如T检验、非参数检验等)和多维统计学分析方法(PLS-DA、OPLS_DA等)在标志物筛选中受方法本身的限制,如:筛选能力弱,返回大量的差异数据,指标间的互作关系以及对新样本有预测分类能力弱等,致标志物的实际诊断结果不理想等,能对数据的挖掘解析能力有限。而每种单一特征选择方法:过滤法(Filter)、包装法(Wrapper)、嵌入法(Embedded)等都有其自身的优缺点,生成的生物标志物稳定性差,应用能力低,最终的模型结果往往表现的不够理想。

我司利用集成框架,整合统计学检验和目前主流使用的多种特征选择算法,研发出一种基于多种特征选择技术的集成机器学习方法。该方法可有效识别和鉴定稳健且精确的生物标志物,构建出效能更优的诊断标志物Panel模型,适用范围广,可用于各种组学数据集构建生物标志物模型。

1585986622828970.jpg

上面介绍了该项黑科技的重要性和优势,接下来带大家见证集成机器学习的技术内核吧!

01 分析流程

整套方式分析流程分为5个阶段:数据预处理、预筛选、二次筛选、候选标志物评估与验证、诊断panel模型构建与验证,见下图:

1585986667637335.jpg

接下来我们深入探究一下每个流程能获哪些关键数据? 如何通过图片形式去展示?

02 数据预处理与单维统计检验法预筛选

对获得高通量组学数据进行格式转化、标准化处理等,将进一步通过常规单维或多维统计学方法筛选差异分子,如:P值、Fold change、VIP值等。排除一些明显无区分意义的特征变量。

03 集成学习法二次筛选

二次筛选主要利用我们开发的集成学习法(多种机器学习特征特征选择方法)对预筛选到的差异分子进行分析。计算出每个物质的综合权重值,权重值越大表明该物质在区分实验组样本和对照样本中的贡献越大。

进一步通过ROC分析来评价各物质对模型的AUC值的影响强度。AUC值越高,通常表明模型分类的效果越好,AUC累积曲线显示,权重排名前4的物质,能显著提高样本分类能力;而排名4位以后的物质,对分类能力不再有明显贡献,因此选择前4个物质作为候选的生物标志物组合。

1585986692342543.png

图1 候选蛋白/代谢物权重值排名

1585986698427607.png

图2候选Biomarkers分类模型的AUC累积趋势图

04 候选Biomarkers的验证与评价

4.1 候选Biomarkers的验证:

候选Biomarkers组合作为特征变量进行建模,使用逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine, SVM)三种模型对样本进行分类训练,用ROC曲线、准确率、敏感度和特异性等评价指标比较上述候选Biomarkers组合三种模型的分类表现。以下箱线图、ROC曲线分别展示了三个模型的AUC、特异性和灵敏度的结果。其中,ROC曲线下的面积值越接近1,其临床诊断效能越大,特异性和敏感度的指标都是越高效能越好,各评价指标均效果较理想,说明筛选出的后续Biomarkers有较优秀的分类能力和效果。

1585987103245904.png

图3 三种单一模型评价的ROC分析、特异性、敏感度的箱线图

4.2 候选Biomarkers的特征评价:通过重要性、表达水平、相关性三个指标评价对候选Biomarkers的进行评价。

  • 重要性评价:用经典机器学习算法验证指标的重要性。

1585987132134370.png

图5 随机森林计算Biomarkers的重要性

  • 表达分析评价:以表和箱线图的形式展示候选Biomarkers表达水平的相关信息

1585987151801976.png

图6 物质在各样本中的表达量箱线图

  • 相关性:一般来说,诊断panel中的各Biomarkers之间的相关性越低,说明所选择的Biomarkers之间的重叠性越低,panel的组合更为优化

1585987158441130.png

图7 相关性分析图

05 诊断模型的建立与评价

  • 诊断模型的构建:逻辑回归是一种常用的分类模型,可以预测事件发生的概率,分析某一个事件发生的影响因素。利用逻辑回归算法来构建Biomarkers诊断panel模型,通过计算获得逻辑回归系数、回归方程及概率值。

    1585987226305304.png

    1585987245875394.png

概率值超出cutoff值则判别为诊断阳性。为了获得最佳界值,我们进一步采用约登指数(Youden's index)界定出诊断判定的最佳cutoff值。当敏感性和特异性同等权重时,最大约登指数所对应的cutoff 值是生物标志物鉴别能力的最佳临界点,因为此时敏感度和特异性之和最大,最佳cutoff值同时具有比较好的敏感度和特异性。实际应用中,最优cutoff值不一定是唯一的,可根据不同疾病发病对敏感度和特异性的需求进行调整,cutoff与三者之间的趋势关系如下图。

1585987253821470.png

表1 最佳cutoff指数表

1585987260196644.png

1585987278754977.png

图8. Cutoff趋势图

  • Panel的诊断能力评价:利用上述构建的诊断模型对原有样本(原数据集分为训练集和测试集)或提供新的验证集数据进行ROC分析,来评价候选Biomarkers的分类效果。如下图所示,训练集与测试集的AUC值在0.9以上。说明候选Biomarkers的逻辑回归模型对测试集的样本分类效果较好。

1585987286892168.png

图9 ROC曲线图

中科新生命提供基于集成机器学习算法进行标志物筛选的一站式服务。您提供样本,我们给您最优的标志物panel及诊断公式,So easy!

更多精彩软文

1.数据分析神器!机器学习预测肥胖指数

2.“机器学习”果然是照妖镜:预测皮肤真实年龄

3.标志物筛选神器 | 轻松解读综合临床数据,助力精准医学

4.文献解读 | 基于机器学习确定基因表达系统—遗传学“Rosetta Stone”


领域:蛋白/抗体/蛋白质组,多组学/蛋白质组/代谢组/脂质组