分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

多重序列比对及系统发生树的构建实验(二)

2020.8.10
头像

王辉

致力于为分析测试行业奉献终身

2.  文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置的republicate的数目,输入D选择data sets,输入200。


设置好条件后,输入Y确认参数。程序开始运行,并在EXE文件夹中产生outfile,部分内容如下:


将outfile文件名改为infile,为避免与原先infile文件重复,将原先文件名改为infile1。
 
3.  EXE文件夹中选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。输入M更改参数,输入D选择data sets。输入200。输入奇数种子3。


输Y确认参数。程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。部分内容如下:



4.  将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开,内容如下:



5.  将EXE文件夹中的intree文件名改为intree1,将outtree改intree。点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。


6.  点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。


 

 

其他

一、对于一个完整的进化树分析需要以下几个步骤

(1)要对所分析的多序列目标进行比对(alignment)。

(2)要构建一个进化树(phyligenetic tree)。

构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。

独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。

距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

(3)对进化树进行评估,主要采用Bootstraping法。

进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。

模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。

一般来说,最大简约性法适用于符合以下条件的多序列:i所要比较的序列的碱基差别小,ii对于序列上的每一个碱基有近似相等的变异率,iii没有过多的颠换/转换的倾向,iv所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。


CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows界面下的多重序列比对软件。

PHYLIP是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。

二、作业

1.  采用以上例子给出的DNA序列进行系统发育树的构建结果。(包括序列比对结果及最终生成的树)
 
2.  以下给出的是蛋白质序列,使用以上方法构建系统发育树。(包括序列比对结果及最终生成的树)
 
>RAT
MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPCQDFGKRMFVLK
ITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGI
>HUMAN
MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK
ITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI
>CANFA
MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK
ITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGI
>MOUSE
MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVLK
ITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGI
>Canis
MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK
ITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGI
>Gallus gallus
MEREPMRIREGYLVKKGSMFNTWKPMWVVLLEDGIEFYKRKSDNSPKGMIPLKGSTINSPCQDFGKRMFV
FKLTAAKQQDHFFQASYLEERDAWVRDIKKAIQCIDGGQRFARKSTRKSIRLPETINLSALYLSMKDPEK
>Danio rerio
MEPTTIREGYLVKKGTVLNSWKAVWVVLKDDAIEFFKKKTDRNAKGMIPLKGATLTSPCQDFSKRALVFK
VSTAKNQDHYFQATHLEEREHWVKDIRRAITCLQGGKKFARKSTRRSIRLPESVNLSELYVCMKDPDRGV
>chimpanzee
MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK
ITTTKQQDHFFQAAFLEERDAWVRDMKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI
 
3.  以上构建系统进化树的方法为N-J法,请总结采用蛋白质序列构建系统进化树与采用DNA序列构建系统进化树所选用的程序的区别。


互联网
文章推荐