蛋白质功能预测
一、根据序列预测功能的一般过程
如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物–蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析:
①比较未知蛋白序列与已知蛋白质序列的相似性;
②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段
二、通过比对数据库相似序列确定功能
具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。
所以,一般的策略是首先进行Blast检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序.
BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。
通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。还应注意计分矩阵(scoring matrix)的重要性。
选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。
除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL
三、序列特性:疏水性、跨膜螺旋等
许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。
仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度 。
有多种方法可以预测序列的跨膜螺旋 。最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。
这些程序将使用了不同的统计模型,总体上,预测准确率在 80 ~ 95% 左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一
(责任编辑:admin)