分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

全二维色谱数据的处理方法和信息提取(下)

雪景科技全二维
2021.4.26

上期讲的是如何从一个原始数据(metadata)出发,通过信号处理、峰检测、峰对齐,最终得到单样品或多样品的定性定量信息。比如像下面这样的峰列表。

但是,这种信息往往是枯燥单调的,如果不具备专业知识,无法做出有效解读。也很难直接对不同样品进行区分和归类。

如果要对初步得到的数据进行信息挖掘,就需要用到化学计量学中的模式识别,也就是将这些定性定量数据,和样品的实际属性进行关联,反映其内在的联系,从而帮助我们对样品进行分类,找出造成变化的重要化学成分(或多种物质的组合关系,即标志物),并且对未知样品的属性做出准确的预测等。

举了例子,上期讲的数据处理类似于我们的常规体检报告,但今天讲的信息提取则是试图找到某种疾病的生物标志物,并通过这种标志物进行有效诊断。

关于模式识别方法,主要分为无监督(unsupervised)和有监督(supervised)两种。

无监督数据分析的就是给你很多数据,但不告诉你里面样品的相互关系,分析的目的就是要找出内在关联,把这些样品分类,然后找到其中哪些重要特征(化学物质)是主要的区分标准。这里面必须要提到大名鼎鼎的主成分分析(PCA)法,它能够将大量相关变量通过线性变换转化为一组最能代表数据特征的变量(组合),用这组不相关变量来描述样本,进而简化分析过程,达到“降维”的目的。这组不相关变量就是“主成分”。分析的结果以score plot 和 loading plot呈现,score plot的对象是样品,差异性小的样品距离比较近,相差大的样品距离较远,自然就分成了不同的类别;而loading plot的对象是样品中的特征(对于色谱来说就是化合物),表明不同的化合物在两个主成分上的投影,投影离原点越远表明重要性越大。很多情况下会把这两张图放一起(biplot),相关的化合物用带箭头的向量表示。

 

另外一种比较常见的无监督方法是聚类分析法(HCA),通过计算不同样品之间的 “距离”(化学计量学上的距离用来表示样本间的差异大小),以系统树图(dendrogram)表示不同样品间的关系和归类情况。也可以将相关化合物包含进去,用不同颜色代表浓度差异,最终形成包含丰富化合物信息及其变化情况的热图(heatmap)。

 

而有监督数据分析是事先根据已知信息将样品分成几组(比如病人和健康人;不同产地的中药品种;不同工艺条件下的产品等),然后通过对这些样品化合物结果的统计分析找到其中区分这些不同组的重要化合物,以便今后可以有效地根据这些化合物信息进行预测分类。在实际工作中有广泛应用,比如寻找疾病的生物标志物,中药材的产地溯源,以及工艺储藏条件的优化等。对于样品非常复杂,不同组之间差异非常小的情况下,有监督的数据分析可以得到更好的效果。

最简单的有监督建模工作可以使用一个变量进行判定,比如很多统计学教科书都会提到的t-检验方法。在全二维色谱分析中,目前比较常用的判定方法是Fisher Ratio法。Fisher Ratio是样品组间方差和组内方差的比值。

对于某个化合物来说,如果组间差异很大,但组内差异很小,它的Fisher Ratio(F-Ratio)值就很大,说明这个物质是一种区分两组样品的重要标志物。

最初的Fisher Ratio法是根据峰列表进行的,也就是需要对所有样品数据进行定性和定量数据处理,然后对所有峰列表进行合并整理,最终计算出每个化合物的F-Ratio值(跟图1类似)。由于需要对每个样品进行单独的定性定量数据处理和整理,工作量非常惊人。后来发展出针对每个数据点(谱图像素点)进行自动F-Ratio计算,省略了对大量类似化合物的定性定量的过程,但这需要很多的计算资源和时间,更重要的是,不同样品的细微保留时间偏差(不可避免)会产生大量“假阳性”的结果,后续需要大量的人工筛查工作。最近的工作基于像素块(tile-based,指覆盖整个峰的多个像素的集合)的Fisher Ratio方法有效改进了上面两种方法的缺点,取得了不错的效果 [1-2]。

对于很难用单变量来区分的情况,一般用的比较多的方法是偏最小二乘判别分析(PLS-DA),以及其变体——正交偏最小二乘判别分析(OPLS-DA)。类似于PCA方法进行数据“降维”,进行回归建模和判别。

以上这几种模式识别方法都是线性的,如果要反映出样品特征之间的非线性关系,就需要使用非线性方法,比如非常知名的随机森林(Random Forrest)。另外,由于全二维色谱呈现的是二维(或三维)的谱图,可以借用目前很多图像处理的先进方法,特别是随着深度学习和人工智能的逐渐成熟和普及,相信全二维色谱的全自动数据处理技术将迎来快速发展,也许在不久的将来,上面这些复杂的数据处理过程都由计算机自动完成,只要分析一结束,比较识别和信息挖掘工作就自动开始,很快给出结果,整个全二维数据分析就变得像现在的手机拍照一样简单。

参考文献

[1] Marney L C , Siegler W C , Parsons B A , et al. Tile-based Fisher-ratio software for improved feature selection analysis of comprehensive two-dimensional gas chromatography–time-of-flight mass spectrometry data[J]. Talanta, 2013, 115(Complete):887-895.

[2] Parsons B A , Marney L C , Siegler W C , et al. Tile-Based Fisher Ratio Analysis of Comprehensive Two-Dimensional Gas Chromatography Time-of-Flight Mass Spectrometry (GC × GC-TOFMS) Data Using a Null Distribution Approach.[J]. Analytical Chemistry, 2015, 87(7):3812-9.

如需转载,联系雪景科技。

关注雪景科技全二维,如果您有任何要求或问题,请给我们留言哦!

详细信息请

www.jnxtec.com

400-1800--992

发布需求
作者
头像
仪器推荐
文章推荐