分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

全二维色谱数据的处理方法和信息提取(上)

雪景科技全二维
2021.3.29

点击关注雪景科技全二维,了解多维色谱的最新技术进展和应用


之前我们谈到过全二维色谱数据的可视化,以及化合物的排列规律,这些都是全二维数据处理的基础知识。


全二维色谱图中的玄机


接下来,我们要继续深入一步,介绍全二维色谱数据的常用处理方法,更重要的是,如何从中提取出真正有意义的信息。


a44abed0fd7fd699f34071a6619958bf.png

注意今天谈的是全二维色谱数据,不光是全二维气相色谱,很多内容对于全二维液相色谱同样适用。







首先上一幅干货。

 9bb83629bb4f345b67e6252f3fb6e988.png

这是我们的老朋友比利时列日大学Focant团队最近发表于Trends in Analytical Chemistry的综述文章 [1],如果要深入了解这部分内容,建议下载原文以及相关的引用文章研读。


我们主要围绕这张图展开讨论。


前面的实验设计和优化不是今天的内容,略过不讲。我们从检测器(质谱)采集完数据开始。


第一部分的内容是针对检测器得到的信号进行一系列处理,以便后续的积分和定性。我们可以把这部分统称为信号预处理(signal pre-processing),包括基线校正(消除低频噪音),平滑处理(消除高频噪音),低响应峰去除等过程。这些处理方法都是在原始一维数据基础上完成,跟常规的1D-GCMS基本一样。对于有重叠的峰(共馏出),可以进一步使用基于质谱碎片信息的解卷积(deconvolution)进行分离,得到单个峰的信息(当然如果重叠峰太多也无法得到有用的结果),现在主要通过PARAFAC或MCR-ALS等通用方法实现。以上这些过程用户的参与度很低,很多商业化软件都可以全自动完成这些工作。


1a95e533ed2b7027063293b1b3345c1d.png

图片来自[2]


接下来的峰检测和峰重建(组合)过程会包含一定的用户参与和互动。比如确定积分S/N和质谱数据库匹配度的阈值来确定最终得到的化合物数量,以及对某些无效峰的去除(柱流失或干扰物等)。剩下的工作基本都交给软件来自动完成了,包括峰积分、切片合并,峰面积(体积)计算,定性匹配,结果汇总等,最终得到了一张样品中包含所有(符合要求)化合物的列表,里面的信息从化合物名称、保留时间、峰面积(体积),匹配度,分子式,精确质量数,保留指数等等不一而足。


一般而言,NIST数据库会对同一个有效峰给出多个可能化合物,如何从中进行筛选除了看匹配度(主要是反向匹配度,注意,一般不看可能性),往往还依赖于用户的经验或偏好,有时也会参考其保留指数的匹配程度(如果有RI数据库的话),如果是高分辨质谱,其精确质量信息可以对化合物进行进一步的筛查和确认,提高准确性。对于全二维气相色谱的未知物筛查,这部分工作量往往是占比最大的。


a44abed0fd7fd699f34071a6619958bf.png
直接选择NIST库中匹配排名第一的化合物是一个简单快捷的办法,但在很多情况下并不能得到正确的结果。人工干预不可避免。







对于单个样品的信号处理,数据处理工作内容大致就完成了,最后得到具有丰富信息的峰列表。


Canvas软件峰列表

2ff0e72994e535c4dc0d4f4e16395d7b.png


但对于多样品的处理,还需要将不同样品的谱图进行峰对齐(peak alignment),主要是因为谱图的保留时间可能存在细微差异。最直接的就是基于峰列表(peak table),对多个样品中的成百上千个化合物进行对齐,如果峰数量和样品数量都很大,完全靠人工整理是不太现实的。现在有一些软件可以基于不同样品的峰列表进行自动合并和对齐(通过化合物名称或保留时间)。除此之外,还有很多种基于信号的自动峰对齐的算法,比如correlation time warping和parametric time warping,对谱图进行适当的伸缩和平移来校正保留时间的偏差,但这样会造成一定的峰型失真和积分误差。目前在全二维色谱数据分析中,倾向于基于像素点集合(tile-based)或峰区域(peak region-based)进行不同样品间的比较,由于比较对象的区域有一定冗余空间,少量的保留时间偏差对结果没有影响。

 4557a5a1abac822c8aa8d12c3337bafb.png

图片来自[3]


好了,现在我们完成了对样品的常规数据处理,也就是将信号转化成了数据,无论是未知物筛查,还是目标物定量,都可以从中得到结果。不过,如果想要进一步了解这些结果背后的意义和重要作用,就要对这些数据进行适当的加工和处理,最终形成有用的信息。这就涉及到下一部分的内容,数据信息提取,一般使用多种化学计量学或者统计学等工具实现,现在有很多商业化的第三方软件可以完成这些工作,另外有一些全二维色谱数据处理软件也增加了这方面的工具包。这些内容我们下期再讨论。

 feffb98a5f622957b92e212cd03e9030.png







参考文献

[1] Stefanuto P-H., Smolinska A., and Focant J-F., Advanced chemometirc and data handling tools for GCxGC-TOFMS, Trends in Analytical Chemistry 139 (2021) 116251

[2] Bauer C., Cramer R. and Schuchhardt, J. (2011) Evaluation of peak-picking algorithms for protein mass spectrometry. In: Hamacher, M., Eisenacher, M. and Stephan, C. (eds.) Data mining in proteomics: from standards to applications. Methods in molecular biology, 696. Humana Press, USA, pp. 341-352. ISBN 9781607619864

[3]https://www.materials-talks.com/blog/2018/07/12/why-do-i-need-a-standard-if-i-have-a-gpcsec-system-with-a-light-scattering-detector/



如需转载,联系雪景科技。


关注雪景科技全二维,如果您有任何要求或问题,请给我们留言哦!


45a9e35291d955f60903a9b28a2213b7.jpeg


详细信息请点击雪景科技官方网站查询

www.jnxtec.com

400-1800--992


04ae425d55edac9dee8b38b2648bf6b4.jpeg




发布需求
作者
头像
仪器推荐
文章推荐