分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

特征选择在生物信息学中的应用

2020.7.21
头像

王辉

致力于为分析测试行业奉献终身

随着生物信息学的发展,许多模式识别技术无法满足处理大量不相关特征的需求,因此特征选择技术(FS techniques)在生物信息学中的应用就变得越来越重要了。

在过去的几年里,应用特征选择技术已经从仅仅作为一个说明性的例子发展到了建立模型所需要的先决条件了。特征选择技术最重要的目的有3点:(1)避免过度适应和提高模型的性能;(2)提供更快的和更有效的模型;(3)对生成数据的潜在的过程获得更深入的了解。当然,特征选择技术在搜索相关特征的子集时也会为建立模型引入额外的复杂度。下面将简要介绍特征选择技术在生物信息学中的应用。

1、序列分析中的特征选择
 
序列分析是生物信息学中常见的工作,对邻近序列的特征选择可以分为两类:内容分析(content analysis)和信号分析(signal analysis)。内容分析着眼于序列主要的特征,例如序列编码蛋白的倾向性或者实现的某种生物学的功能。而信号分析则着眼于序列中重要基序的识别,例如基因的结构元件或者调控元件。

(1)内容分析。

编码蛋白的子序列的预测(编码潜在性的预测)一直是生物信息学研究的问题。由于许多特征可以从序列中提取出来,并且大部分特征之间的依赖关系仅仅与相邻的位置有关,因此,各种Markov模型被用于该问题的研究。起初,为了处理有限数量样本中大量的可能特征,引入了内插值填补的Markov模型(interpolated Markov model,IMM)。该模型通过在少量样本条件下往Markov模型的不同特征次序中插入某一特征,然后利用过滤方法选择仅仅有联系的特征。接着,IMM的框架被扩展来处理非相邻特征的依赖性,产生了内插值填补的邻近模型(interpolated context model,ICM)。该模型将Bayesian决策树与过滤方法结合起来评估特征的相关性。

近来,FS技术的方法被用于编码潜在性的预测。该方法将几种不同的编码潜在性预测的方法结合起来,然后用Markov覆盖多元过滤的方法(Markov blanket multivariate filter approach,MBF)只保留下有相关性的特征。

内容分析的第二类问题就是从序列预测蛋白的功能。早期的工作是将遗传算法和gamma检测结合起来,为从大量rRNA子集分类出来的特征的集合打分,这种工作启发了研究者使用FS技术来分析与蛋白功能种类有关的氨基酸的子集。其中有一项技术就是对支持向量集(SVM)进行有选择的核心度量来估计特征的权重,然后去掉低权重的特征。

另外,FS技术在序列分析的域分析中也有了进一步的应用,比如识别启动子区域和microRNA靶点预测。

(2)信号分析

许多序列分析的方法都包括识别序列中短的保守的信号,这种信号表现为各种蛋白或者蛋白复合物的绑定位点。通常用来寻找调控基序的方法是用回归的方法将基序与基因表达水平联系起来,然后使用FS技术搜索基序,使之能最大程度上适合这个回归模型。

信号分析中另一个重要的问题就是预测基因的结构元件,例如剪接位点(splice sites)和转录起始位点(translation initiation site,TIS)。对于剪接位点的预测,可以结合连续的回溯方法(sequential backward method)和嵌入式SVM评估标准(embedded SVM evaluation criterion)来估计特征的相关性,或者利用分布式算法评估(estimation of distribution algorithm,EDA)来获得相关的特征。同样的,利用FS技术预测TIS,可以使用特征分类熵(feature-class entropy)作为筛选量度来去除不相关的特征。
在今后的研究中,FS技术被期望用于其他的预测工作,例如鉴别与选择性剪接位点或者选择性转录起始位点有关的相关特征。

2、单核苷酸多态性分析中的特征选择

单核苷酸多态性(single nucleotide polymorphisms,SNPs)是进化过程中单个核苷酸位点的突变并且可以通过遗传传递下去,这可以解释不同个体间大部分的遗传变异。SNPs是许多疾病基因研究的前沿,在人的基因组中数目估计在7百万左右,因此选择一个具有充足信息并且足够小的SNPs子集来描述基因型是疾病基因相关研究中重要的一步。

在过去的几年中已经发展了一些计算方法来选择单体型标签SNP(htSNP)。一种方法假设人类基因组可以被认为是离散的区域集合,仅仅共享很小的共用单体型集合。这种方法的目的是确定一个SNPs的集合来区分所有的共用的单体型,或者至少可以解释其中的一部分。第二种共用htSNPs的选择方法是基于SNPs的配对原理,试图选择一个htSNPs的集合使得一个单体型上的每个SNPs都和一个htSNPs高度相关。第三种方法认为htSNPs是所有SNPs的一个子集,通过这个子集可以重构剩余的SNPs。这种选择htSNPs的方法取决于剩余没有选择的SNPs预测的精确程度。

如果目标区域中单体型的结构未知,常用的方法是在相等的间隔上选择标记物,给出要选择的SNPs的数据和期望的间距。较为有效的方法包括基于遗传算法与SVM结合的方法、包括3个分类算法(k-NN,SVM和naïve Bayes)的Relief-F特征选择算法和多元线性回归SNP预测算法等。

3、文本和文献挖掘中的特征选择

文本和文献挖掘是生物学中数据挖掘方面的一个新兴领域,文本和文件的一个重要表示就是所谓的BOW(bag-of-words)表示,将文本中的每一个词表示为一个变量,而它的值为该词在文本中出现的频率。这样的表示方式就使得从一个文本得到一个很高维度的数据集,因此需要使用特征选择技术来进行文本挖掘。
尽管特征选择技术经常应用于文本分类领域,但是对于生物医学领域还是新兴技术。

到目前为止,在医学注释工作上,应用了Kullback-Leibler散度(Kullback-Leibler divergence)作为一个单变量过滤方法来寻找有差别的单词,在蛋白相互作用发现中,应用了对称原理的不确定性(symmetrical uncertainty,一种基于熵的过滤方法)来鉴别相关的特征。同样可以预计到,用来对生物医学文档的聚类和分类方法引入的大量特征选择技术将会应用于生物医学的文献挖掘中。

除了以上的几个方面的应用以外,特征选择技术还被应用于微阵列(microarray)数据分析和质谱(MS)数据分析这些海量数据分析方面。由此可预见,随着对特征选择技术的进一步发展和完善,特征技术将在海量数据分析中发挥极其重要的作用。


参考文献:

Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.

互联网
仪器推荐
文章推荐