流程升级 | 氨探OBC组学数据批次校正平台支持SERRF归一化算法

氨探生物

2023.9.04

一直以来，品生医疗qULTRA®多组学平台因其高灵敏度、高稳定性、高通量等优势而备受业界好评。在这背后是多组学平台在生物标志物发现、验证、应用各个环节的不断革新。
在生物标志物发现过程中，非靶向组学的数据质量的优化和提升始终是我们的核心关注点，关系到后续的差异代谢物能否被验证成功。
虽然目前学术界对于组学技术在人群队列研究中的重要性已有共识，但在实际大规模应用中仍然面临着Batch effect（批次效应）的问题。对此，品生医疗多组学平台qULTRA®在多组学数据处理环节进行了批次内/间自动校正工具OBC™（Omics Batch Correct）的不断迭代更新，以支持更大样本量、更准确、更可靠的多组学数据处理。

一、SERRF方法介绍

在大规模的非靶向代谢组和脂质组学实验中，数据集的广泛采集过程常引入各种系统误差，如批次差异、信号纵向漂移等，导致差异代谢物发现的偏差。为解决这个问题，Oliver Fiehn实验室提出了一种名为SERRF（Systematic Error Removal Using Random Forest）的归一化和批次校正方法。

SERRF是一种基于质量控制样本（QC）的归一化方法，它的基本假设是，每个变量的系统变化可以通过其他化合物的系统变化来更好地预测。这种方法选择了随机森林（RF）作为预测模型，因为RF具有以下优点：可以应用于变量多于样本的情况（p > n），适合于高通量非靶代谢与脂质组学数据的数据结构；RF可以拟合组学中经常观察到的非线性趋势；RF不受多重共线性（即变量之间的高相关性）的影响；RF能够容忍缺失值和异常值；随着树的数量的增加，RF被证明不会过拟合。

SERRF方法在处理大规模的血浆代谢与脂质组学队列研究的数据时，表现出了优秀的性能。它可以有效地利用所有相关化合物的信息来归一化每个单独的代谢物，显著减少系统误差，从而提高统计效能。

SERRF方法的实施步骤：

①自动缩放所有QC和样本的变量；②对所有变量，使用对应变量的QC强度作为响应，进样顺序、批次效应和其他代谢物的QC强度作为预测因子来训练RF模型，以拟合系统变化；③通过预测的系统误差来归一化每个化合物。

二、SERRF的实施

SERRF提供了Shiny的在线版本供免费使用，但是使用过程中发现一些问题，如速度慢、无法支持大样品数据的分析、无批次校正前后多种质控参数的评价等。为此，我们的在线批次质控和校正工具，Omics Batch Correct（https://omia.untangledbio.com/obc/ ）（←直接复制并打开此链接）已经升级支持SERRF，结合OBC数据预处理和多种的质控分析评价，提供非靶向代谢组和脂质组更准确、更可靠的数据处理方案。此外，OBC基于云服务器，计算速度快，以及对SERRF算法的优化，支持大样品量的数据处理。

三、SERRF数据校正案例

我们分享的实例是1500+实验样本的血浆代谢组学数据，在分析过程中加入质控样品。QC样品为血浆样品处理后的代谢混合物，每6-10个实验随机样本质谱分析中插入一个QC样本，表征质谱检测的稳定性。PCmix组为在混合的血浆样品，与实验组一起进行样品前处理，质控样品前处理和质谱分析过程中的稳定性。代谢组学数据上传至OBC，进行质控和批次校正分析。

操作步骤

· ’Upload Data’栏——上传符合格式要求的组学数据与样本分组信息文件，可预览确认上传的数据；

· ‘Pre-process’栏——对数据进行归一化与缺失值处理操作，我们首先不归一化处理，查看原始数据质量，然后选择SERRF+Combat矫正后的查看数据改善情况。