分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

植物CPP基因家族的分子进化研究

2019.4.20
头像

184****5725

致力于为分析测试行业奉献终身

实验概要

类CPP基因家族(CPP-like gene family)属于一类成员数目较少的基因家族,该基因家族成员编码的蛋白质序列含有一到两个富含半耽氨酸的结构域,即CXC结构域。该基因家族在植物和动物中广泛存在,但是没有在酵母中发现。为了解CPP-like基因家族在植物中的进化规律,本研究对拟南芥和水稻基因组中的CPP-like基因家族进行了比较分析和分子进化研究。

实验步骤

1. 序列搜索

在NCBI数据库中获得拟南芥的TSO1和大豆的CPP1基因编码的蛋白质序列,并以这两段蛋白质序列为检索序列,通过BLASTP检索TIGR拟南芥基因组注释数据库(http://www.tigr.org/tdb/e2k1/athl/)和TIGR水稻基因组注释数据库(http://rice.tigr.org/tdb/e2k1/osal/index.shtml)。若检索出的蛋白质序列满足E≤10-l0,将被作为候选蛋白序列。然后利用Pfam工具检测候选序列中是否存在CXC结构域,若存在CXC结构域,则将其作为CPP-like基因编码的蛋白质序列。最后在利用新检索出的拟南芥和水稻的CPP-like蛋白质序列重新对上述数据库进行重新检索,直到没有新的序列检出为止。本研究中涉及的CPP-like基因的核昔酸序列,编码序列和编码的蛋白质序列均来自于TIGR数据库。此外本研究还利用TBLASTN和BLASTP分别检索了NCBI和Swiss-Prot数据库,以获得其他植物物种中已知的CPP-like基因。

2. 多序列联配和系统发生树的构建

对植物基因组中CPP-like蛋白质序列的多序列联配采用的是CLUSTAL W软件,参数为默认。将多序列的结果输出到MEGA 4软件中,并利用MEGA构建系统发生树,方法为邻接法(Neighbor-Joining,NJ),参数为P距离模型(p-distancemodel)和空位/缺失数据的成对删除模式(pairwise deletion of gaps/missing data),并利用bootstrapping方法对树进行评估。系统发生树的展示同样利用MEGA 4。

3. 基因扩张模式的分析

植物基因组中最重要的两种基因扩张模式为串联重复和片段复制。串联重复指的是同一家族的基因出现在染色体的同一区段或相邻区段。而片段重复则通常表现为一大片段区域中所有基因的重复,而不是单个基因或少量几个基因的重复。本研究中利用Gramme对基因组注释的结果将获得的CPP-like基因定位在染色体上。首先确定若在同一区段出现的CPP-like基因则被认为是通过串联重复形成的。对片段重复方式的研究,首先通过TIGR对拟南芥和水稻基因组的注释,找到每一CPP-like基因上游和下游各10编码基因的蛋白质序列,然后利用本地BLASTP软件分析是否在一对CPP-like基因的两侧还存在其它的旁系同源基因对,若存在其它的旁系同源基因对,则表明这对CPP-like基因起源于一次片段重复事件。

4. 正选择作用分析

核苷酸的非同义替换率(dN)和同义替换率(dS)的比值(dN/dS)是衡量选择压力的分子进化参数,通常用ω表示。ω>1表示正选择压力(positive selection);ω<1表示纯化选择压力(purifying selection);而ω=1表示中性选择或自然选择压力(neutral selection)。正选择作用的分析采用的是极大似然方法来确定具有正选择作用的系统发生树节点以及这些节点包含基因的多序列联配中经历正选择作用的氨基酸位点。由于这些方法的适用条件是至少包含三段同源序列,所以本研究分析了系统发生树中包含三个以上基因的节点。首先对每一待分析的节点中包含的蛋白质序列进行了多序列联配,然后利用PAL2NAL软件将蛋白质的多序列联配结果转换为编码序列的多序列联配,并去除多序列联配中产生的空位(gap)。将编码序列的多序列联配结果再导入到PAML4软件的CODEML程序中,并利用该程序计算相应的dN/dS(ω),即非同义替换率与同义替换率的比值。根据系统树和序列对位排列结果,采用“位点特异性”模型(site-specific model)下的各种密码子替换模型来计算每个位点上的ω。似然比测验(LRT)可以用于比较嵌套间差异的显著性,前提是似然比的比较结果基本遵循卡方分布,其自由度为两个模型间自由参数之差。在本研究中采用M3(离散模型)对M0(单个ω)模型检验位点间是否存在选择压力的差异;并用M8对M7模型检验正选择压力。M7和M8模型均采用离散刀分布来估计每个位点的ω值,并通过参数p和q来描述刀分布,M8和M7的不同之处在于M8添加了一类ω>1的位点,可用于检验正选择。若M8对M7的统计检验达到显著水平,并且M8模型具有ω>1,再通过贝叶斯方法估计经历正选择作用的位点。

5. 结构域的协同进化分析

大部分植物的CPP-like基因编码的蛋白质序列中包含两个CXC结构域,而且结构域序列及两段结构域之间的序列均是高度保守的,因此本研究认为两段CXC结构域在进化过程中很可能是协同进化的。本研究对CXC结构域的协同进化现象进行了研究。分析中,包含两段CXC结构域序列的蛋白质被分成5个部分,分别为N-末端序列、CXC结构域1、结构域之间的序列、CXC结构域2和C-末端序列。由于N-末端序列和C-末端序列的保守性较差,所以在本研究中重点考虑了CXC结构域1、结构域之间序列和CXC结构域2之间的协同进化现象。首先分别将这三段序列进行多序列联配,并利用MEGA 4来计算两两之间的进化距离。获得进化距离之后,再求取三段序列进化距离之间的相关系数(r)。显著高于0的相关系数被认为是正向的协同进化,显著小于0的相关系数被认为是负向的协同进化,而若与0表现出没有显著差异,则认为不存在协同进化现象。

对计算所得的相关系数采用两种方法进行了统计显著性检验,首先对相关系数:按照bootstrapping的方法进行了1000次重抽样,其次通过随机的方式对进化距离矩阵进行了1000次重抽样,并进而获得1000个随机的相关系数,以此来估计真实相关系数的概率(p)。以上的模拟工作是在Matlab软件中完成的。


Everlab云端实验室
仪器推荐
文章推荐