分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

临床代谢组学研究常见问题

2020.5.11
头像

王辉

致力于为分析测试行业奉献终身

分享一些我们举办完第一期微信公开课——临床代谢组学研究策略后,所收集到的常见问题,供大家学习和参考。

Q:如何设置验证集和测试集?

A:按我理解你想问的问题是:training set训练集和test set测试集的设置问题。我们做分析化学、生物化学或者分子生物学的初学者通常会混淆这几个数据集概念,通常是我们中文翻译产生的歧义。

机器学习中,数据通常分为三类:Training Set训练集,Validation Set验证集,和Test Set测试集。B.D. Ripley在他的‘Pattern Recognition and Neural Networks’ Cambridge University Press, 1996, ISBN 0-521-46086-7 书中做了如下定义和分类。

训练集Training Set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. 训练模型或模型参数调试

验证集Validation Set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. 模型或参数的优化及确定

测试集Test Set: A set of examples used only to assess the performance [generalization] of a fully specified classifier. 纯粹测试已建立模型的预测能力

那么比较理想的分类的百分比是,我建议大人群的队列研究(样本量比较大,如 >100以上)


推荐1

推荐2

训练集Training Set

≥50

60

验证集Validation Set

25

20

测试集Test Set

25

20

现实情况一般受样本量大小限制,从而演变成这样

数据集

推荐1

推荐2

推荐3

训练集+验证集Training Set+ Validation Set

60

70

80

测试集Test Set

40

30

20

而代谢组学研究中,样本量极少的实验,如细胞实验、动物实验的代谢组学数据,也会看到不严谨的做法(往往也被接受)是:

数据集



训练集+验证集Training Set+ Validation Set

All

LOOCV: Leave One Out CV

K-fold CV (SIMCA:1/7-fold CV)

Bootstrap

测试集Test Set

N/A


Q:细胞样品如何收集?使用不含EDTA的胰酶还是用刮刀收集?二者哪个更好?

A:细胞样本我们发现贴壁的细胞用刮刀的方式检测的代谢物种类比较多,但是重复性取决于细胞的种类和实验人员本身的技术水平。所以我们实验室在大规模收集细胞样本的时候通常采用消化的方法。

Q:检测的样本是血浆吗?血浆中小分子大分子物质都很多,小分子的检测会受到大分子的干扰吗?

A:您好,代谢组学可以用血浆、血清、DBS等等。在检测之前,我们必须采用高比例的有机溶剂进行蛋白沉淀和代谢物的提取。大分子的小肽和蛋白会发生化学变性,离心沉淀或采用过滤的方式去除蛋白,从而避免大分子物质对内源性小分子代谢物产生干扰。蛋白沉淀及代谢物提取方法需经过方法学优化及考察,否则也会大大影响小分子物质的提取效率。

Q:请问麦特绘谱对呼出气代谢组学研究有涉及吗?

A:有的。这项研究在慢性阻塞性肺疾病COPD的研究中比较成熟,我们在肺癌、胃癌等疾病研究中已经做过了一些探索。

Q:组合的判断能介绍一下吗?

A:差异代谢物组合的判断是需要技巧的,并不是说数学上统计出来p<0.05的top的组合就可以了,不懂生物学和医学的专门研究模型的一直在这么做。组合的优化一定是统计模型+代谢通道两者兼顾再优化的结果,是“代谢组学驱动下的分子生物学机制研究”。

Q:标准血清在基于液质的代谢组学研究中也一样适用吗?

A:NIST SRM1950是美国标准品物质研究所提供的,我们用这份标本实现了在不同国家、不同实验室、不同仪器设备、不同时间采集的数据矫正,保证我们两国(中美)四地(上海、杭州、北卡、夏威夷)产生的数据的整合。我们定量代谢组学的平台用这份样本作为独立外部质控。所以,不管是气质还是液质平台,这份标本都适用,并且是未来实现全球代谢组学数据统一的唯一机会。

 


互联网
仪器推荐
文章推荐