分析测试百科网

分析测试百科网 > 行业资讯 > 微信文章

临床研究专题｜样本量如何计算？本文一看便知

迈维代谢

2022.1.04

作者迈维代谢

TA的动态

对于代谢组而言，目前较为容易开展的临床研究类型是观察性的横断面研究，即通过代谢组找到与某种疾病相关的代谢标志物，后续进行疾病的诊断或开展一些基础的机制研究工作。因此接下来跟大家分享下横断面研究的方案设计、样本量计算以及样本纳排标准。

方案设计

首先来看两个案例：

Review

● 期刊：Gastroenterology

● 发表时间：2019

● 影响因子：19.819

研究思路

① 发现阶段1对于360名受试者进行高通量代谢组检测，筛选到30个差异代谢物；

② 发现阶段2对于1594名受试者进行高通量检测，筛到7个与发现阶段1中共有的差异代谢物，然后通过二元逻辑回归分析得出2个潜在biomarker；

③ 建模阶段对于900名受试者（来源于发现阶段2 ）进行2个biomarker的靶向检测，并构建了诊断模型；

④ 验证阶段对于1528名受试者进行2个biomarker的靶向检测，验证了模型的诊断效能。

Reviews

● 期刊：Gut

● 发表时间：2021

● 影响因子：19.819

研究思路

① 发现阶段对于92例受试者血清进行高通量代谢组检测，并选择与血清匹配的44例粪便样本进行宏基因组检测，经联合分析共识别到与肠道微生物组相关的代谢产物322种，使用 LASSO算法筛选并鉴定得到8个代谢物；

② 建模阶段对于72例正常个体和120例结直肠异常患者，使用靶向方法测量8种代谢物的丰度，并用逻辑回归方法生成预测模型；

③ 验证阶段对于验证队列中103例结直肠异常患者和53例健康个体进行8种代谢物的靶向检测，已评估此模型的预测性能。

通过以上两篇经典案例我们不难发现，代谢组biomarker筛选流程通常包含三个阶段：①发现阶段，在发现队列中通过高通量代谢组筛选出候选biomarker；②建模阶段，在建模队列中通过靶向方法检测筛选到的biomarker，并构建判别模型；③验证阶段，在验证队列中靶向检测biomarker，以验证模型判别效能。

那我们在代谢组文章中经常看到的发现集、训练集、验证集和测试集分别是指的哪个阶段呢？

这几个词汇其实是来源于机器学习的过程。在机器学习中，一般将样本分成独立的三部分：训练集(train set)，验证集(validation set)和测试集(test set)。

✦训练集 —— 用于模型拟合的数据样本。

✦验证集 —— 是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

✦测试集 —— 用来评估最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

将这几个概念映射到代谢标志物筛选流程中，则发现阶段1中的人群对应为训练集，部分文章也称其为发现集；发现阶段2中的人群对应为验证集；验证阶段中的人群对应测试集；建模阶段中的人群可来源于验证集，也可来源于测试集（独立于验证阶段中的人群）。

样本量估算

在明确了研究思路以后，接下来我们就看一下具体的样本数应该如何估算。

影响样本量计算的重要参数如下：

①研究设计类型（如横断面研究或随机对照研究）

②结局指标类型（二分类变量或连续变量）

③结局指标的预计值（敏感度或特异性或平均值或AUC）

④容许误差

⑤ 检验水准α（通常取α=0.05）

⑥检验效能1-β（通常为80%或更高）

⑦ Case组与control组的比例：control组的样本量一般不宜少于Case组的样本量，通常是等量的。

对于横断面研究，单样本临床诊断试验的样本量计算方法如下：

01

根据灵敏度及特异性计算样本量

δ指容许的灵敏度或特异度95%区间的宽度，是研究者人为指定，一般定在0.03~0.1。

例如将参数设置为⇩⇩⇩

特异度：90%±10%；

敏感度：80%±10%；

显著水平（α）：0.05；

置信度（1-α）：0.95；

检验类型：two-sided test

根据公式计算得出：

根据敏感度和特异度分别计算出两个样本量数值，选择较大者即为所需要的样本量。本例公式计算得出样本量为62例。

也可使用PASS软件直接进行计算：

■ ■ ■ ■ ■

敏感度计算所得样本量

■ ■ ■ ■ ■

特异度计算所得样本量

本例结果显示：通过敏感度计算所得 N=70，通过特异度计算所得N=44，选择数值大者，即需要70例研究对象。

PASS软件计算结果与公式计算结果稍有偏差，可以选择样本数大的结果，即所需要样本数为对照70例，病例70例。

02

根据AUC值计算样本量

软件：MedCalc

例如将参数设置为⇩⇩⇩

预计AUC=0.9

检验水准α：0.05

检验效能1-β：0.9

无效假设：AUC=0.8

根据软件计算得出样本量为82+82=164例

在机器学习中，一般训练集、验证集和测试集三者切分的比例是6：2：2。若不设置验证集，则训练集与测试集的切分比例为7：3，映射到代谢标志物筛选流程中，则对应建模队列与验证队列的比例为7：3。

样本纳排标准

代谢组结果易受环境等外在因素影响，因此若要筛选到真阳性的代谢biomarker，样本的入组条件需进行严格的限制。

01

样本纳入条件

✦根据实验设计，随机选择符合分组要求的样本。

✦ 尽量保证年龄，性别等与研究无关的临床指标在各分组间无差异。

✦样本选择应尽量具有时间、地域的随机性。

✦纳入的样本符合采样标准流程，并且相应的临床信息完整。

常见待收集临床信息如下表：

02

样本排除条件

✦样本具有严重的急性感染；

✦样本具有严重贫血；

✦样本肝肾功能不全；

✦样本患有肿瘤或多处肿瘤；

✦样本处于妊娠期；

✦样本患有自身免疫缺陷疾病；

✦样本患有高血脂和高黄疸。

以上排除条件仅应用于非本项疾病的研究中（即若开展妊娠期糖尿病相关研究，则第5点排除条件不适用）。

发布需求

作者

迈维代谢

联系厂商

仪器推荐

仪器推荐

询底价
代谢相关--靶向检测

迈维代谢
仪器推荐

询底价
代谢组相关--植保素检测

迈维代谢
仪器推荐

询底价
代谢组学相关--糖类检测

迈维代谢
仪器推荐

询底价
代谢组学相关--植物脂质组

迈维代谢

文章推荐

微信文章

麦克教学丨如何正确理解 BET 比表面计算 Part 1

Micromeritics

2021.11.17
微信文章

临床研究专题 | 99%的临床研究类型都在这里

迈维代谢

2021.12.29
微信文章

天美讲堂丨如何计算半导体材料禁带宽度

天美Techcomp

2022.1.11
微信文章

如何校正烧失量对分析结果的影响

布鲁克X射线部门

2022.4.08
微信文章

微生物专题 | 常见十一种类型样本采集具体步骤

迈维代谢

2022.4.25
微信文章

实用！动物实验专题——AAV如何实现精准靶向感染（心血管研究必收藏）

吉凯基因

2022.5.18
微信文章

临床研究专题 | 一文读懂4种机器学习算法教你如何筛选Biomarker

迈维代谢

2022.5.30
微信文章

如何使用 BioTek 酶标仪，实现高通量微量样本吸收光检测？

安捷伦细胞分析

2022.6.07
微信文章

临床研究专题 | 验证必备，4步操作验证你的Biomarker找对了吗？

迈维代谢

2022.6.08
微信文章

项目文章 | 迈维靶向检测助力江西农大黄路生院士团队发表宿主基因影响肠道菌群的重要成果见刊nature

迈维代谢

2022.6.09
微信文章

如何正确理解BET比表面计算 part2

Micromeritics

2022.6.10
微信文章

非靶实测数据公开｜检出5000+，粪便君才不是“废物”

迈维代谢

2022.6.13
微信文章

取样干货 | 如何准备合格的转录组+代谢组样本（动物医学篇）

迈维代谢

2022.7.28
微信文章

空间代谢组专题(一)：最全的样本准备操作指南

迈维代谢

2022.8.10
微信文章

蛋白质组学专题 | 一文读懂蛋白质组学研究策略及研究内容

迈维代谢

2022.10.09
微信文章

蛋白质组学专题 | 蛋白质组学样本前处理：提取方法选择

迈维代谢

2022.10.26
微信文章

蛋白质组学专题 | 创新血液蛋白质组学深化临床研究

迈维代谢

2022.11.07
微信文章

肿瘤样本如何研究，inferCNV？北京大学第一医院普外科研究人员也在用的工具

吉凯基因

2022.11.16
微信文章

Nat Commun｜磷酸化蛋白组不会分析？本文一看便知

迈维代谢

2023.5.08
微信文章

加标回收如何操作和计算？

月旭科技

2024.1.31