新miRNA的发现策略

2013-10-07

字体大小：

新miRNA 的发现，主要通过实验室湿实验和生物信息学即计算方法两种途径。

1）通过实验发现新miRNA的方法：

新miRNA的发现主要有cDNA克隆、新一代测序、微阵列、原位杂交和Northern blot等方法。

miRNA检测的 cDNA克隆法是早期发现miRNA的常用方法。第一种miRNA就是通过这种方法发现的。过程一般是筛选一定大小的RNA分子，连接上3’和5’接头，逆转录，PCR扩增、亚克隆并进行Sanger测序。这种方法不需高端设备，容易实现。但涉及到克隆测序，耗时费力；由于只对挑出的克隆进行Sanger测序，测序通量有限，可能造成很多miRNAs在分离和鉴定过程中被遗漏；数据信噪比较低，因很多降解的RNA分子被克隆测序，造成假阳性较多；而且，一些低表达的miRNA不易被发现。

miRNA检测的新一代测序法是目前发现新miRNA的常用方法。一般的做法是，选取特定大小的RNA分子，连接上3’和5’接头，反转录，PCR扩增后进行高通量测序。这种方法有许多优势。

微阵列、原位杂交和Northern blot等方法基于同源杂交原理，可以用于具有类似保守序列的新miRNA的发现。其中微阵列方法还可用于大规模筛选。但这些方法建立在已知探针序列信息的基础上，不易发现不含某保守序列或种属特异性较强的miRNA。这些方法反而多用于检测某类已知miRNA的表达信息，从而进行miRNA功能相关研究。

2）生物信息学方法预测新的miRNA
借助上述湿实验方法，许多新的miRNA被发现。但检测microRNA的实验方法不可避免地受到microRNA表达的瞬时性、组织特异性及miRNA表达量的限制；另一方面，随着对miRNA认识的增加，一些规律被总结出来。这为生物信息学方法预测新miRNA奠定了基础。生物信息学方法可以作为替代方法弥补湿实验方法的不足。其预测原理有多种。譬如，可以主要依赖于miRNA基因的如下特性：前体中的茎环二级结构，物种间的进化高度保守性以及最小折叠自由能原则等。

计算机预测miRNA的方法可以分为如下几种类型。

基于序列比较的预测方法。这类方法依赖于序列的相似或保守。例如，早期预测曾采用同源片段搜索方法。由于pre-miRNA 的序列较长, 且形成茎环结构,因而目前大部分同源片段搜索方法均是在基因组中搜索已知的pre-miRNA 的同源片段。也有人通过在基因组中搜索成熟miRNA 的同源片段来预测新的miRNA。可采用BLAST或BLAT程序。研究发现，较大比例的已知miRNA位于基因组中进化保守的区域，基于比较基因组学搜索在多物种中保守的miRNA 成为一种可行的方法。一种策略是先在一个物种基因组中根据结构和序列特征找出可能的pre-miRNA, 而后与其他物种基因组比较, 判断其序列和结构是否保守；另一种思路是是先通过比较两物种的基因组找出保守区域, 而后在保守区域中根据结构和序列特征搜索可能的miRNA。相对于同源片段搜索而言, 基于比较基因组学的预测方法能够找到不与已知miRNA 同源的新miRNA, 具有更大的优越性。然而, 该类方法由于仅在两个或多个物种基因组的保守序列中预测miRNA, 限制了其对非保守miRNA 的发现；这种方法对进化距离较远的物种不适用。

基于序列和结构特征的方法。根据已知miRNA 在序列和结构上的特征、对全基因组中可能折叠形成茎环结构的片段进行筛选可以发现某些不与已知miRNA 同源和物种特异的miRNA。但这类方法为了降低假阳性, 往往用异常严格的序列和结构标准筛选候选片段, 因而可能造成假阴性，遗漏部分目标miRNA。

参考作用靶标的预测方法。这类方法基于miRNA与靶标mRNA序列互补的原理，将靶标mRNA 3’UTR（或5’ UTR）的序列特性作为筛选miRNA的条件之一。通过序列保守性、复杂度、是否位于外显子区域、是否包含重复元件、miRNA 与mRNA 双链的自由能、在基因组中的拷贝数和前体序列的自由能、环的大小和配对数等因素筛选miRNA。这类方法有时仍依赖于保守性来缩小候选范围，有时筛选标准过严，降低了敏感性。

基于机器学习的预测方法。随着大批的miRNA 被发现，基于机器学习的miRNA 预测方法受到了重视。这种方法设立了两类序列：一类为已知的miRNA序列（阳性训练数据集），另一类为含有发夹结构但不含有miRNA序列（阴性训练数据集），例如某些mRNA, tRNA,和 rRNA。通过这两种数据集来构建区分两者的分类器，经测试后对未知序列进行预测。

分类器主要考察训练集的序列和结构特征，例如发夹结构的最小自由能，茎区的序列保守性，环的长度，倒置序列重复等。用于训练的数据集越大，越有助于提高分类器的敏感性和特异性。常见的机器学习方法有支持向量机(Support vector machines, SVM)、隐马尔可夫模型(Hidden markov model, HMM)和Naive Bayes 分类法等。已有一些预测工具推出，如RNAmicro, MiRFinder, ProMiR, MiRRim 和 BayesMiRNAFind等。

选取准确合理的阳性和阴性训练样本对机器学习预测很关键。样本的特征应能够很好地反映两类样本的差异。但实际应用中不易找出足以区分miRNA和非miRNA的特征，也难以选取到足以描述整个阴性样本空间的代表样本，机器学习预测结果miRNA存在不少假阳性和假阴性现象。在现有miRNA数据的基础上，总结出更为准确、细致的规律，采用更有效的算法，将有助于预测结果的改进。

编辑： hejianxin 来源：丁香园

关于上海伯豪

上海伯豪生物技术有限公司是上海生物芯片有限公司/生物芯片上海国家工程研究中心根据国内外研发外包发展的需要，整合旗下系统化的分子生物学技术平台、商业化服务体系、高素质服务团队等资源成立的致力于研发外包服务公司。

上海伯豪生物技术有限公司拥有五大技术平台：生物样品分析平台、微阵列芯片平台、高通量测序平台、生物标志物验证平台、生物信息平台。凭借先进的技术平台，多样化的服务和严格的质量控制等竞争优势，公司向国内外企业和相关单位提供系统的生物学研究全面解决方案。目前正在为多达18家跨国制药企业（包括排名前10位的跨国制药企业）和超过1100家的国内科研机构、医院等提供基因表达谱、基因分型、比较基因组学、DNA甲基化、miRNA、生物标志物筛选及确认、生物信息等技术服务。

技术服务热线：800-820-5086/400-880-5086

如需了解更多，请访问：伯豪生物官网

资源分享

更多 >

新miRNA的发现策略

关于上海伯豪

资源分享

丁香园旗下网站

关于丁香园

官方链接