临床研究专题 | 验证必备，4步操作验证你的Biomarker找对了吗？

迈维代谢

2022.6.08

作者迈维代谢

TA的动态

前言

Biomarker筛选的最终目的是应用于临床，辅助疾病的诊断或者预后的监测，因此，在筛选到潜在biomarker以后，需要对其敏感性、特异性、准确度等其他性能进行一系列的评估或验证，以最终判定该标志物的实际使用效能。本篇内容将为大家介绍几种常见的代谢标志物性能鉴定方法。（由于篇幅有限，本文仅做简单介绍，详细内容见《代谢biomarker研究一本通》，新书即将发布，敬请期待！）

代谢biomarker研究一本通

ROC分析

ROC曲线（ReceiverOperating CharacteristicCurve，受试者工作特征曲线）是对于可能或将会存在混淆的两种条件或自然状态，需要试验者、专业诊断学工作者以及预测工作者作出精细判别，或者准确决策的一种定量方法。ROC曲线已经在医学领域广泛应用于临床诊疗、人群筛检等研究。在代谢组学研究中，ROC曲线常用于对biomarker的诊断效能进行评价。

在一个诊断试验中，如果检验指标为连续变量，我们一般设定一个界值，高于界值即为阳性，低于界值为阴性。而当一指标没有公认的界值时，我们可以设定不同的值为界值，每个界值都可以得到一对敏感度与特异度。我们以敏感度为纵坐标，以1-特异度为横坐标作图，将两者的对应点标记在第一象限内，并用折线连接，如下图，即为ROC曲线。

ROC曲线的坐标轴范围都是[0,1]，敏感度和特异度都是越大越好，因此曲线越靠左上角越好。为了评价指标的诊断能力，我们计算曲线下的面积（AreaUnderCurve，AUC），即ROC曲线与坐标轴之间的面积，也叫C统计量（在Logistic回归模型中ROC曲线下面积AUC=C-Statistics）。面积越大，指标的诊断能力越好。AUC取值范围是[0.5,1]，在0.5~ 0.7范围内时准确度较低，在0.7~ 0.9范围内时准确度中等，在0.9以上时准确度较高。

C-index

C-index，英文名全称concordanceindex，中文有人翻译成一致性指数。最早是由范德堡大学（VanderbiltUniversity）生物统计教教授FrankE Harrell Jr 1996年提出，主要用于计算生存分析中的COX模型预测值与真实之间的区分度，常用在评价患者预后模型的预测精度中。

C-index的计算方法是把所研究的资料中的所有研究对象随机地两两组成对子，以生存分析为例，两个病人如果生存时间较长的一位其预测生存时间长于另一位，或预测的生存概率高的一位的生存时间长于另一位，则称之为预测结果与实际结果相符，称之为一致。

C-index在0.5-1之间（任意配对随机情况下一致与不一致刚好是0.5的概率）。0.5为完全不一致,说明该模型没有预测作用，1为完全一致，说明该模型预测结果与实际完全一致。一般情况下C-index在0.50-0.70为准确度较低：在0.71-0.90之间为准确度中等；而高于0.90则为高准确度。

生存曲线

生存率乃指某生物种群内的每一个体经过一定时限以后生存的机率。如以横轴为经过的时间(日、月或年)，纵轴为生存率，则可绘出生存曲线。目前临床或者生命科学领域最常用生存率曲线（也称Kaplan-Meier曲线）来描述各组患者的生存状况或者各组实验动物的存活情况。

生存曲线可以直观展示变量因素与生存之间的关系，可用于评估biomarker的实用性。具体做法为，根据确定的biomarker临界值将样本分别分为高、低表达组，然后进行生存分析。

Odd Ratio / Harzad Ratio

OddRatio - 比值比

OR(OddRatio) -比值比，用于反映病例与对照在暴露上的差异，从而建立疾病与暴露因素之间的联系。通常为病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。OR的计算公式是[OR＝（病例组暴露人数/非暴露人数）/（对照组暴露人数/非暴露人数）]。

在对代谢组biomarker进行性能评估时，暴露因素即变为biomarker的含量高低。OR值越大，表明暴露的效应越大，暴露与结局关联的强度也就越大。若OR＝1，说明暴露因素与疾病之间无关联；若＞1，说明暴露因素与疾病呈正相关（危险因素）；若＜1，说明暴露因素与疾病呈负相关（保护因素）。

上述OR计算方法仅考虑了一个暴露因素与结局事件的关系。而在现实中，疾病的发生往往不是单一因素作用的结果。为了排除混杂因素的干扰，需要在统计学上做一些校正，比较常用的方法就是Cox风险比例模型和logistic回归模型。logistic回归模型也会得到一个OR值，只是计算方法与上述OR不同。来自于logistic回归的OR可以校正很多混杂因素，因此是一个多因素校正的OR，在撰写论文的过程中，一般认为多因素校正的OR更可靠。

HazardRatio – 风险比

HR(HazardRatio)指的风险比，主要用于队列研究的生存分析，由Cox风险比例模型衍生出来。Cox模型与logistic回归有很多相似之处，都可以用于校正混杂因素。根据Cox模型可以计算出HR值，其表示暴露组患病的概率为非暴露组的多少倍，同时考虑了结局发生的时间。

下图就是Cox回归结果的分组森林图（例如评估多个分类变量对S-1+Doc和S-1两种治疗方案的作用，结局事件：PFS）。