质谱小课堂第十期：质谱数据库确定

2017-03-08 13:34上海中科新生命生物科技有限公司

当当当当~蛋白质组学小课堂开课啦，众伙伴们准备好小板凳开始听讲啦！

质谱技术是目前蛋白质组研究中发展最快，也最具活力和潜力的技术。它通过肽段质荷比的匹配来判别蛋白质的种类。LC-MS所得的质谱数据通过直接搜寻数据库来进行蛋白定性以及功能注释。因此蛋白质组数据库是蛋白质组研究水平的标志和基础，基于质谱的蛋白质组学分析结果的质量首先取决于理论数据库的质量。

那么如何找到高质量的数据库呢？今天，小编手把手的教给大家数据库筛选的过程。

我们通常采用的是Uniprot的数据库：http://www.uniprot.org/；UniProt是 Universal Protein 的英文缩写，是信息最丰富、资源最广的蛋白质数据库。它由Swiss-Prot、 TrEMBL 和PIR-PSD 三大数据库的数据整合而成。其数据主要来自于基因组测序项目完成后，后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。Uniprot被认为是收录最广泛和注释信息最全面的蛋白质数据库。

1、在UniProtKB下拉框中选择Taxonomy，在搜索框中键入物种名称；

2、选择关注的物种，查看详细信息；

3、物种蛋白组学信息：

4、物种蛋白质组数据库的选择：

我们一般要求所有蛋白条数（UniProtKB）在1万以上时，该数据库的质量才能满足实验要求。

那么当你所关注的物种研究很少，UniProtKB低于1万时，我们就需要将物种分类放大，从种放大到属，科，甚至是目（分类放大会使得数据准确度降低），直到UniProtKB达到1万以上，由此确定所需数据库的信息（Taxonidentifier，Scientificname，Taxonomy）。具体操作：点击Taxonomy对应框中链接，如下图：

5、如果研究的目标不是单一物种，而是一个生物群体（一般是微生物菌群），那就需要在首页中点选Swiss-Prot；注意此处不建议选择TrEMBL，这些没有文献确证的蛋白条目太多，影响质谱分析查库效率。

在搜索栏中键入细菌（bacteria），真菌（fungus）或者古细菌（archaebacteria）等进行检索，得到的蛋白条数（Reviewed）也是要求达到1万以上。

NCBI网站也可用于查找蛋白数据库，但其中蛋白重复度较高，优先推荐使用UniProt的数据库。

NCBI网站蛋白数据检索流程类似，下拉列表选择Taxonomy，检索框中键入物种名；点选对应物种的Protein数据，可以看到蛋白质数据条数，其中很多序列都是同源性很高的重复序列。

特定物种的蛋白质数据库：研究较多的模式物种都有单独的数据库，如拟南芥（TAIR）、水稻（RAP DB）、家蚕（silkdb）等，其中的蛋白质数据信息相对更加完善，大家可以根据各自研究对象选择使用。

最后，小编要提醒一下：上面都是一般情况下的筛选过程，如果在您之前的研究中已经进行过转录组测序，可以直接将转录组学数据翻译成蛋白作为蛋白质组学分析的理论数据库；同样，如果所关注的物种研究实在太少，物种分类放大会影响到数据的准确度，这时可以考虑先做转录组学（混合样本单次实验）。基于转录组数据的蛋白质组学分析得到的蛋白数据更加丰富、全面、准确。

中科新生命，12年质谱服务经验，12台质谱仪全年无休，每年处理样本数超万例，为您提供优秀的质谱系统解决方案。

中科新生命 · 质谱系统解决方案提供者

▼

生物医药结构确证

蛋白质组 - 修饰蛋白质组 - 代谢组 - 脂质组

▼

技术支持

责任编辑：webmaster