分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

多序列比对的实际应用-2

2019.8.11
头像

zhaochenxu

致力于为分析测试行业奉献终身

模体和样式

前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。

ProfileScan

基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第一个是PROSITE,一个ExPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。

基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向PROSITE系统提交人类的热休克诱导蛋白的序列作一次搜索:

 

normalized taw from to Profile | description

355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein

 

真正返回的PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raw)的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是“normalized”,即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目,基本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几率只有1.94Х10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。
 

BLOCKS

BLOCKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念�模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。

BLOCKS数据库本身来源于PROSITE的条目。当使用一个感兴趣的序列进行BLOCKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。

BLOCKS搜索可以通过访问西雅图的Fred Hutchinson肿瘤研究中心的BLOCKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为ID,AC和DE,给出了这个块代表的家族的缩写,BLOCKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数width和seqs表示block的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWISS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。

 

MoST MoS

模体搜索工具(或者写作MoST),是一个UNIX程序,用来进行数据库搜索以寻找保守的模体。这个方法使用比对序列块(比对块,alignment block),可以容纳任意数目N的序列,每一个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息。

在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量,如果可能出现延伸就放弃增大R值。

MoST命令行形式为:

 

most database block [method] [seg] [cutoff] [i#%] > outfile

 

在这里database指明要搜索哪一个数据库;block指明含有输入比对块的文件名(用FASTA格式存储);可选的method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的Dirichlet分布,选项1引用加权平均(Gribskov方法),选项2引用Bayesian伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检查结果的质量,然后考虑是否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-seg表示开关关;阈值cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5;最后,使用i#%参数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。

图8.4显示了一个MoST输出的例子。输出文件很便利地回应了开始的命令,允许多重MoST,一个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记MAX的序列被认为是一个de facto一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为609,分值显示于序列最末端;同样道理,标记为min的序列是最不一致的序列,得分最低,实际比对块的序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值。

图8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了5个新序列(比对的上方)。在新序列的左边是这个条目的Def行的前几个特征,然后是显示的第一个残基的位置,序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可以反过头来使用更在Def行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹配于块的残基很容易显示出来,比对过程中程序已经替用户把它们用小写字母表示出来了。.

 

PROBE

有一个最新的比对模型程序叫做PROBE,在某些方面,PROBE与MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。

在决定哪些序列相关时,PROBE执行一个及物的搜索,如果一个双重搜索发现序列AB是相关的,另外一个搜索发现序列BC是相关的,那么AC就一定相关,即使AC之间的双重比对没有直接发现它们相关。通过一系列的BLAST搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对,寻找在上一轮中被忽略的相关序列。PROBE程序反复操作这一过程,直到搜索收敛为止。

PROBEMoST之间的一个很重要的区别就在于PROBE在搜索开始时只需要一个序列作为“种子”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoSTPROBE处理输入的方法是不一样的,MoST一次必须处理一个比对块,而PROBE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而PROBE使用一个“jack knife”的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。

PROBE程序的UNIX发行版本的命令行采用这个形式:

probe fastafile database –s<int> [options] > outfile

 

在这里,fastafile是进行搜索的种子序列文件,采用FASTA格式存储;database是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图8.6显示了一个PROBE得到的输出文件,种子序列是amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共包含50多个残基,每个块都是PROBE用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着一个gi标记符以及这个条目的统计值。PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和”jack knife”程序剔除的序列列表。

演示方法

上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好。

 

MacBoxShade

MacBoxShade(或者简写为MacBox),是VMS/UNIX应用程序BoxShade的一个Macintosh版本,它提供一个很简单的机制使得多序列比对结果形成一定的格式。MacBox只能读GCG MSF格式的比对文件,所以必须用其他程序(例如ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括PostScript,支持PostScript打印机或者用PostScript形式浏览;还有PICT,缺省的Macintosh格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。

SimsGroups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反;Groups对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有lysineargininehistidine,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。

为了描述MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化为MSF格式,这个MSF序列文件被MacBox打开,并且要求程序通过普通对话框打印一致序列。还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格(blank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序,可以从“Do it!”下拉菜单中选择“Display PICT”,会产生如图8.7的窗口,一致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。

对于没有Macintosh或者UNIX机器的用户来说,原始的BoxShade程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个一致序列了,但是可以指定一致序列基于字母还是符号。

 

ALSCRIPT

ALSCRIPT是一个基于UNIX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式化为PostScript格式,然后比对就可以在PostScript打印机上打印或者用PostScript浏览。ALSCRIPT的输入必须是如下三种格式之一:一个块文件,CLUSTAL W格式或者GCG格式;使用CLUS2BLCMSF2BLC程序可以把其他格式转化为ALSCRIPT可以阅读的格式,这两个程序都在ALSCRIPT程序包中。ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。

8.8显示了一个ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤1和步骤2。步骤1Step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以及颜色定义等等,步骤1还给出了输入文件(BLOCK_FILE, 块文件)的位置以及比对输出的写入文件(OUT_FILE, 输出文件)。步骤2 (Step2) 与比对的特定部分有关,比如改变同每一个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致序列。所有这些例子都显示在图8.8中。注意那些注释行(行前标记为#),它们简单地介绍了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在BOX_REGION命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个BOX_REGION命令后面是6 3 15 8,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基打上方框。写好的文件可以直接被ALSCRIPT使用,这些文件可以从网上得到,也可以由发布的UNIX版本自带。

ALSCRIPTMacBoxShade使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也是不一样的,图8.78.9的区别是很明显的。怎样评估和权衡十分容易:MacBoxShade比较容易使用,因为所有因素都是对话框形式的,但是选项有限;而ALSCRIPT提供了更多的输出选项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际上,ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式工具依赖于用户的最终应用需要&#0;是要进行迅速地浏览观测还是要得到拥有出版质量的图形。

 

第八章中涉及到的有关课题的互联网地址:

比对方法(alignment method

HTTP网址



Clustal W

http://www2.ebi.ac.uk/culstalw/

MSA

http://www.ibc.wustle.edu/ibc/msa.html

MultAlin

http://www.toulouse.inra.fr/cgi-bin/multalin.pl



模体和样式(motifs and patterns)

HTTP网址



BLOCKS

http://blocks.fhcrc.org

MoST

http://ncbi.nlm.nih.gov/pub/koonin/most/

Pfam

http://www.sanger.ac.uk/Software/Pfam

PROSITE

http://expasy.hcuge.ch/sprot/prosite.html

PROBE

ftp://ncbi.nlm.nih.gov/pub/neuwald/probel.0/



演示方法(presentation methods)

HTTP网址



ALSCRIPT

http://geoff.biop.ox.ac.uk/manuals/alscript/alscript.html

BoxShade

http://ulrec3.unil.ch/software/BOX_form.html

MacBoxShade

ftp://ulrec3.unil.ch/pub/boxshade/MacBoxshade



转换效用(conversion utilities)

HTTP网址



生物在线
仪器推荐
文章推荐