基因表达的有力工具和统计方法全剖析

来源：互联网关键词：基因表达工具统计方法

DNA微阵列基因表达数据分析

芯片技术的发展为我们的基因序列分析工作提供了很大的便利，然而，当芯片所产生的数据如雪片般纷至沓来时，我们要怎样以最高效及时的方法将它们分门别类地统计处理好呢？这里总结了一些统计技术和数据库：

芯片分析能够检测不同条件下的基因转录变化，能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现，产生了新的问题：如果将所有获得的数据集中起来，我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。

基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性，从生物系统单个成分的定性发展到完整生物系统行为的描述上来，这方面困难很多，目前只有很少的分析工具。

1.聚类分析 (clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术，最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这些分析方法均处在研究的初级阶段，随着大量数据及标准化数据库的出现，其它数据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。

聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据，

(1)通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。

(2)通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。

(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。

(4)K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。

结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEVIEW，采用配对平均连锁(pairwise average-linkage)聚类分析。这种方法中，每个不同的基因与其它的基因比较，鉴定最相关的基因对。

这种基因对的数据用平均数替代，再重新计算关系矩阵，不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出，将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观，但其算法仍有缺陷之处：实际数据由每次重复的平均数据替代;相似性测定的选择(相关性/Eluclidean距离);将等级模型用于非等级过程;成对比较矩阵的计算负担。因此，出现了其它方法，包括自组织图(self organizing maps,SOMs)，二进制决定-退火算法(binary deterministic-annealing algorithm),k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。

2.基于知识挖掘的机器学习方法

最近发展了一种有监督的机器学习方法-支持向量机(support vector machines,SVMs)来分析表达数据，它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法(unsupervised clustering)和自组织图(self-organizing maps)不同，该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法，例如层级(hierarchical)和K-means聚类，假设每个基因仅属于一“类”(cluster)。这在生物学意义上当然不是真实的。而且，事实上同一类基因不是必然意味着有相似的表达类型。比如，k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”，并不总是有意义。需要对类(cluster)进行质量评价，“类”的“严谨性”和外围基因的存在(如果存在，它们与下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比，有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。

首先，对每个基因，应询问最近的邻居是否它与它们的关系是有生物学意义的。

其次，对已知共调控基因，应该询问它们的表达类型是否相似，如果是这样，还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。

第三，应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后，“类”可通过每个无监督的“类”的核心基因训练SVMs的方法来检测和优化。

3.可视化

大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径，如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库，可为基因表达分析提供非常有价值的工具，有助于从新的视角看待基因组水平的转录调控并建立模型。

基因组水平蛋白质功能综合预测

蛋白质之间的功能联系

基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图，Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。

通过比较系统发育(进化)谱和表达类型，以及通过分析结构域融合(domain fusions)新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。酵母未定性蛋白大约一半总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性，这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用，与大规模蛋白质功能实验互为补充。

构建通路和专配有用模型的信息来自实验，最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括采用大规模实验方法如双杂交系统(two-hybrid system)、质谱法(mass spectrometry,MS)、二维凝胶电泳(2D PAGE)和DNA芯片杂交(DNA microarray hybridization)。

任务大小和复杂性可由下面的假定理解：每个蛋白质有5-50个功能连锁，结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能，但是它们有时不是迅速廉价的，且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族，因此有相似的序列、结构，经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。

但是，通过同源性进行功能预测受两方面的因素制约。首先，它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次，不是总清楚匹配的蛋白质何种功能特性为其共享，尤其对那些距离较远的匹配。

Marcotte等和Enright等并未受此限制，因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。

而代替的是，将同样通路和装配的蛋白质分组，定义为“功能连锁”(functionally linked).Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法：系统发育谱(phylogenetic profiles)，结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析，采用新的聚类算法用于三个原核基因组分析。

系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱，定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁(functionally linked)。因此，根据系统发育谱进行的蛋白质聚类，当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。

结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白(component proteins)组成的融合蛋白(fusion proteins)。

这样的成分蛋白被认为彼此物理上有相互作用。在两个相互作用成分蛋白之间的界面(interface)更有可能进化当两个蛋白融合为一条单一链。著名的例子是，从细菌到真菌的色氨酸合成酶的α和β亚单位。在一些方面，结构域融合分析与从基因邻近效应(gene proximity)推测功能连锁相似。

Marcotte等也通过关联它们的mRNA表达类型来对酵母蛋白质进行分类。这些类型来自97组公共DNA芯片数据，显示了大多数酵母蛋白质在正常生长、葡萄糖缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同条件下表达水平相互关联的蛋白质是功能连锁的。

新的功能注释经常是广义的，限制蛋白质的功能为，“代谢”或“转录”。即使随机的一对蛋白质也有50%的相似机率在这样广义的水平上。但是因为注释一般来自许多连锁，比随机连锁信息量大3-8倍，在一些例子中与蛋白-蛋白相互作用的实验决定相比。

例如，Marcotte等建立了新的MSH6的连锁，在某些结肠癌中的DNA错配修复蛋白，属于PMS1错配修复家族，其中的突变也与人结肠癌、嘌呤生物合成途径、RNA修饰酶和一个未知的蛋白质家族相关，这样它们可以通过核酸修复或修饰来研究。

这样的注释精确度如何?能覆盖多少比例的蛋白质?这些问题只能部分提出，因为参考的功能连锁蛋白质不是很容易得到。Marcotte和同事给酵母2,557个未知蛋白的一半预测了一般功能。他们估计成对预测来确定功能的近30%是错误的，虽然两到三种方法联合应用使错误率降到15%。

Enright等通过结构域融合在三个原核基因组中仅功能连锁215个蛋白，但是非常少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和mRNA表达方法丢失了连锁(作者没有做这两种方法)，融合事件更严格的定义以及用较少的蛋白检测融合。

尽管假阳性和显得粗糙的功能注释，计算方法使得实验者将注意力集中在有希望的相互作用上。当得到更多的基因组数据，结构域融合和系统发育谱的方法的预测数和精度将增加。

下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上，通过考虑三维结构来做，因为蛋白质的功能更多直接由它的结构和动力学而不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢?至少有两个原因。

首先，只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组学(structural genomics)的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构，以便所有其它的蛋白质序列能够有很好的精确性建模。

其次，能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节，同样也依赖于它的动力学和能量，所有这些在现有的实验和理论技术下难以获得。

1 概述

当前人类基因组研究已进入一个重要时期，2000年将获得人类基因组的全部序列，这是基因组研究的转折点和关键时刻，意味着人类基因组的研究将全面进入信息提取和数据分析阶段，即生物信息学发挥重要作用的阶段。

到1999年12月15日发布的第115版为止，GenBank中的DNA碱基数目已达46亿5千万，DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成，另外的70个模式生物基因组正在测序当中;到2000年1月28日为止，人类基因组已有16%的序列完成测定，另外37.7%的序列已经初步完成;同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据，从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。

生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解释。

基因组信息学的关键是“读懂”基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。

了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"，解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。

近来的研究表明，基因组不仅是基因的简单排列，它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构，解译生命的遗传语言的关键。

目前在数据库中已经有越来越多的模式生物全基因组序列，第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成，整个人类基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料，同时也为基因组研究取得突破性进展提供了可能。

人类对基因的认识，将从以往的对单个基因的了解，上升到在整个基因组水平上考察基因的组织结构和信息结构，考察基因之间在位置、结构和功能上的相互关系。

从目前生物信息学的研究情况来看，国际上公认的生物信息学的研究内容，大致包括以下几个方面：

1. 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。

基因组序列信息的提取和分析。包括基因的发现与鉴定，如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据，经过大规模并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析，提出理论模型，阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。

功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究，基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟，以及蛋白质功能预测的研究。

生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。

生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具，诸如电子网络等远程通讯工具;改进现有的理论分析方法，如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。

包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术，用于解释基因组的信息，探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。

应用与发展研究。汇集与疾病相关的人类基因信息，发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术，建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。

利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法，可能产生相同或不同的结果。因此，必要弄清楚某种方法的基本原理，而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适，而对另一个则完全不对。

因此，本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面广，限于篇幅，本章并未将生物信息学的全部内容详细加以讲述，仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍，文中涉及问题的更详细信息可参考相关网站。生物信息学是新兴发展中的学科，该领域的研究日新月异，书中的描述可能滞后于生物信息学的最新发展为在所难免，作者期望本章的介绍对读者的研究工作有所助益。

2 生物信息数据库与查询

近年来大量生物学实验的数据积累，形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据，并提供相关的数据查询、数据处理的服务。随着因特网的普及，这些数据库大多可以通过网络来访问，或者通过网络下载。

一般而言，这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据，只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步整理。

国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多，它们因针对不同的研究内容和需要而各具特色，如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

下面将顺序简要介绍一些著名和有特色的生物信息数据库。

2.1 基因和基因组数据库

1. Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。

Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库，和日本的DNA数据库(DDBJ)交换数据，使这三个数据库的数据同步。到1999年8月，Genbank中收集的序列数量达到460万条，34亿个碱基，而且数据增长的速度还在不断加快。

Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库，或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种，其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，以及序列本身。

序列特征表里包含对序列生物学特征注释如：编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被各自分成若干个文件。

(1)Genbank数据检索

NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统，用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务，所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录，用户可以选择需要显示的数据，保存查询结果，甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。

(2)向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI，添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

BankIt是一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后，会从电子邮件收到自动生成的数据条目，Genbank的新序列编号，以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。

BankIt适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也不适合提交很长的序列，EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释，并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列，可以加入比对的数据。

Sequin除了用于编辑和修改序列数据记录，还可以用于序列的分析，任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/ 下找到，Sequin的使用说明可详见其网页。

2. EMBL核酸序列数据库

EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成，由于与Genbank和DDBJ的数据合作交换，它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护，查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具，也可以用Sequin软件来完成。

3. DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库，与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。

4. GDB

基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书，除了构建基因组图谱之外，还开发了描述序列水平的基因组内容的方法，包括序列变异和其它对功能和表型的描述。

目前GDB中有：人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性，加上等位基因频率数据)。GDB数据库以对象模型来保存数据，提供基于Web的数据对象检索服务，用户可以搜索各种类型的对象，并以图形方式观看基因组图谱。

2.2 蛋白质数据库

1. PIR和PSD

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，包含超过142,000条蛋白质序列(至99年9月)，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。

PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。

PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。PIR提供三类序列搜索服务：基于文本的交互式检索;标准的序列相似性搜索，包括BLAST、FASTA 等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

2. SWISS-PROT

SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。

3. PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

4. PDB

蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据，经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。

RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

5. SCOP

蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次：家族，描述相近的进化关系;超家族，描述远源的进化关系;折叠子(fold)，描述空间几何结构的关系;折叠类，所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。

SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。

6. COG

蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

2.3 功能数据库

1. KEGG

京都基因和基因组百科全书(KEGG)是系统分析基因功能，联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里，包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND，包含关于化学物质、酶分子、酶反应等信息。

KEGG提供了Java的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。

2. DIP

相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。

3. ASDB

可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库，通过选取有可变剪接注释的序列，搜索相关可变剪接的序列，经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。

4. TRRD

转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性：转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。

TRRD包括五个相关的数据表：TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。

5. TRANSFAC

TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。

此外，还有几个与TRANSFAC密切相关的扩展库：PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载，也可以通过Web进行检索和查询。

2.4 其它数据库资源

1. DBCat

DBCat是生物信息数据库的目录数据库，它收集了500多个生物信息学数据库的信息，并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。

2. PubMed

PubMed是NCBI维护的文献引用数据库，提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

除了以上提及的数据之外，还有许许多多的专门生物信息数据库，涉及了目前生物学研究的各个层面和领域，由于篇幅所限无法一一详述。

国内也有一些大数据库的镜像站点和自己开发的有特色的数据库，如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统，上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统，同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源，推动我国生物信息学和整个生命科学的发展。

3 序列比对和数据库搜索

比较是科学研究中最常见的方法，通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中，比对是最常用和最经典的研究手段。

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较，寻找这些有进化关系的序列之间共同的保守区域、位点和profile，从而探索导致它们产生共同功能的序列模式。

此外，还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比，从而获得蛋白质折叠类型的信息。

比对还是数据库搜索算法的基础，将查询序列与整个数据库]的所有序列进行比对，从数据库中获得与其最相似序列的已有的数据，能最快速的获得有关查询序列的大量有价值的参考信息，对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理，通过比对方法可以有效地分析和预测一些新发现基因的功能。

3.1 序列两两比对

序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念，序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实的验证。

在残基-残基比对中，可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守，这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的，例如它们可能是酶的活性位点残基，形成二硫键的半胱氨酸残基，与配体结合部位的残基，与金属离子结合的残基，形成特定结构motif的残基等等。

但并不是所有保守的残基都一定是结构功能重要的，可能它们只是由于历史的原因被保留下来，而不是由于进化压力而保留下来。因此，如果两个序列有显著的保守性，要确定二者具有共同的进化历史，进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析，一般认为蛋白质的结构和功能比序列具有更大的保守性，因此粗略的说，如果序列之间的相似性超过30%，它们就很可能是同源的。

早期的序列比对是全局的序列比较，但由于蛋白质具有的模块性质，可能由于外显子的交换而产生新蛋白质，因此局部比对会更加合理。通常用打分矩阵描述序列两两比对，两条序列分别作为矩阵的两维，矩阵点是两维上对应两个残基的相似性分数，分数越高则说明两个残基越相似。

因此，序列比对问题变成在矩阵里寻找最佳比对路径，目前最有效的方法是Needleman-Wunsch动态规划算法，在此基础上又改良产生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN，它能给出多个不相互交叉的最佳比对结果。

在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系，显然这种方法无法描述残基取代对结构和功能的不同影响效果，缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。

因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵，但国际上常用的取代矩阵有PAM和BLOSUM等，它们来源于不同的构建方法和不同的参数选择，包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。

对于不同的对象可以采用不同的取代矩阵以获得更多信息，例如对同源性较高的序列可以采用BLOSUM90矩阵，而对同源性较低的序列可采用BLOSUM30矩阵。

空位罚分是为了补偿插入和缺失对序列相似性的影响，由于没有什么合适的理论模型能很好地描述空位问题，因此空位罚分缺乏理论依据而更多的带有主观特色。一般的处理方法是用两个罚分值，一个对插入的第一个空位罚分，如10-15;另一个对空位的延伸罚分，如1-2。对于具体的比对问题，采用不同的罚分方法会取得不同的效果。

对于比对计算产生的分值，到底多大才能说明两个序列是同源的，对此有统计学方法加以说明，主要的思想是把具有相同长度的随机序列进行比对，把分值与最初的比对分值相比，看看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对，必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性，这样就排除了由于偶然的因素产生高比对得分的可能。

Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。不同之处在于为了提高搜索的速度和效率，通常的序列搜索算法都进行了一定程度的优化，如最常见的FASTA工具和BLAST工具。FASTA是第一个被广泛应用的序列比对和搜索工具包，包含若干个独立的程序。

FASTA为了提供序列搜索的速度，会先建立序列片段的“字典”，查询序列先会在字典里搜索可能的匹配序列，字典中的序列长度由ktup参数控制，缺省的ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果，以及这个比对的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。

BLAST是现在应用最广泛的序列相似性搜索工具，相比FASTA有更多改进，速度更快，并建立在严格的统计学基础之上。NCBI提供了基于Web的BLAST服务，用户可以把序列填入网页上的表单里，选择相应的参数后提交到数据服务器上进行搜索，从电子邮件中获得序列搜索的结果。

BLAST包含五个程序和若干个相应的数据库，分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。

表1. BLAST程序：

程序

数据库

查询

简述

blastp

blastn

blastx

tblastn

tblastx

蛋白质

核酸

蛋白质

核苷酸(翻译)

核酸(翻译)

蛋白质

核苷酸

核酸(翻译)

蛋白质

核酸(翻译)

可能找到具有远源进化关系的匹配序列

适合寻找分值较高的匹配，不适合远源关系

适合新DNA序列和EST序列的分析

适合寻找数据库中尚未标注的编码区

适合分析 EST序列

表2. BLAST的蛋白质数据库：

数据库

简述

month

swissprot

pdb

yeast

E.coli

Kabat

alu

汇集了SWISS-PROT,PIR,PRF以及从GenBank序列编码区中得到的

蛋白质和PDB中拥有原子坐标的蛋白质，并去除了冗余的序列

nr中过去30天内的最新序列

SWISS-PROT数据库

PDB结构数据库中的蛋白质序列

酵母基因组中编码的全部蛋白质

大肠杆菌基因组中编码的全部蛋白质

Kabat的免疫学相关蛋白质序列

由REPBASE中的Alu重复序列翻译而来，用来遮蔽查询序列中的

重复片段

表3. BLAST的核酸数据库：

数据库

简述

month

dbest

dbsts

htgs

yeast

E.coli

pdb

kabat

vector

mito

alu

gss

非冗余的GenBank＋EMBL＋DDBJ＋PDB序列，除了EST、STS、

GSS和0,1,2阶段的HTGS序列

nr中过去30天的最新序列

非冗余的Genbank＋EMBL＋DDBJ＋PDB的EST部分

非冗余的Genbank＋EMBL＋DDBJ＋PDB的STS部分

0,1,2阶段的高产量基因组序列(3阶段完成的HTG序列在nr库里)

酵母的全基因组序列

大肠杆菌的全基因组序列

由三维结构库来的核酸序列

Kabat的免疫学相关序列库

Genbank的载体子集

线粒体核酸序列

REPBASE中Alu重复序列翻译而来，用来遮蔽查询序列中的重复片段

基因组勘测序列(Genome Survey Sequence)

BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一行是描述行，第一个字符必须是“>”字符;随后的行是序列本身，一般每行序列不要超过80个字符，回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如，不明核酸用“N”，不明氨基酸用“X”)。此外，对于核酸序列，除了A、C、G、T、U分别代表各种核酸之外，R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。

对于氨基酸序列，除了20种常见氨基酸的标准单字符标识之外，B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻译结束标志。

BLAST的当前版本是2.0，它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile，然后用新的profile再次搜索数据库，如此反复直至没有新的结果产生为止。

PSI-BLAST先用带空位的BLAST搜索数据库，将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法，能寻找蛋白质序列中的隐含模式，有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白，甚至可以与一些结构比对方法，如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到，还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。

3.2 多序列比对

顾名思义，多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中，现有的大多数算法都基于渐进的比对的思想，在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步处理，例如构建序列模式的profile，将序列聚类构建分子进化树等等。

目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权;然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。

CLUSTALW的程序可以自由使用，在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单逐步指导用户进行操作，用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务，用户可以把序列和各种要求通过表单提交到服务器上，服务器把计算的结果用Email返回用户。

CLUSTALW对输入序列的格式比较灵活，可以是前面介绍过的FASTA格式，还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择，有ALN、GCG、PHYLIP和GDE等，用户可以根据自己的需要选择合适的输出格式。

用CLUSTALW得到的多序列比对结果中，所有序列排列在一起，并以特定的符号代表各个位点上残基的保守性，“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。

4 核酸与蛋白质结构和功能的预测分析

人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如，DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息;蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。

虽然用实验的方法是多年以来解决这类问题的主要途径，但新的思路是利用已有的对生物大分子结构和功能特性的认识，用生物信息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息。由于生物信息学的特点，可以用较低的成本和较快的时间就能获得可靠的结果。

近10年来生物学序列信息的爆炸性增长大大促进了各种序列分析和预测技术的发展，目前已经可以用理论预测的方法获得大量的结构和功能信息。要注意的是，尽管各种预测方法都基于现有的生物学数据和已有的生物学知识，但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件，因此最好对同一个生物学问题尽量多用几种分析程序，综合分析各种方法得到的结果和结果的可靠性。

此外，生物信息学的分析只是为生物学研究提供参考，这些信息能提高研究的效率或提供研究的思路，但很多问题还需要通过实验的方法得到验证。

4.1 针对核酸序列的预测方法

针对核酸序列的预测就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。

一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求，有的程序只适用于长序列，而