“富矿”的开发:从miRNA到lncRNA

lncRNA的发现策略

   2013-10-14
字体大小:

与miRNA的研究类似,发现新的lncRNA 是lncRNA创新研究的一个方面。发现lncRNA,主要依赖于两种技术:微阵列技术和核酸测序技术,尤其是新一代测序技术。

传统的微阵列技术多用于检测mRNA的丰度,不用于lncRNA的检测。但有研究显示,有些原来被认定的mRNA实际上是lncRNA;有的lncRNA有polyA尾巴,有的则没有。因此,一部分微阵列检测的数据包含有部分lncRNA的信息,可以重新对数据进行分析、注释,获取这部分lncRNA 信息。随着越来越多的lncRNA被发现,专门的针对lncRNA芯片被设计开发出来,可以利用相对保守的区域作为探针发现新的lncRNA。然而,一部分lncRNA表达水平很低,不易被芯片检出。另外,SAGE(serial analysis of gene expression)实验的结果可用于lncRNA研究。挖掘EST(expressed sequence tag)公共数据库也可发现一些候选的lncRNA。对cDNA进行克隆、全长测序的方法曾发现一些lncRNA,如FANTOM(Functional Annotation of The Mammalian Genome)项目的一些工作。

新一代测序技术在lncRNA研究中应用广泛、作用巨大。一种直接的方法是RNA-seq,它可以检出低丰度转录本,可直接、快速发现新转录本,包括新lncRNA。除RNA-seq外,对用其它方式捕获的RNA甚至DNA进行新一代测序,不但能够发现新的lncRNA,还可推断其功能或调控信息。

用新一代测序技术发现lncRNA,强烈依赖于计算机进行数据的处理和分析。

计算机对lncRNA的识别考虑了多种因素。有的因素很明显,如转录本总长需大于200nt;不编码任何已知蛋白质或其区段,这是由lncRNA的定义决定的。另外的因素还有ORF(Open Reading Frame)长度和序列及二级结构的保守性等。

从概率上讲,如果一个转录本不编码蛋白,其起始密码和终止密码的分布是趋于随机的,ORF 一般不会超过300 碱基或100氨基酸残基。这种方法也有例外。一些lncRNA如Xist有大于300nt的ORF,而拟南芥中的RCI2A基因只编码54个氨基酸。为了避免误判,有人对ORF策略又添加了更严格的条件,如用基因组数据库做比较基因组学的检验,蛋白同源区长度不能超过30个氨基酸。

一般来说,mRNA 的ORF是具有保守性的,即可编码蛋白质的转录本序列与已注释的蛋白质或蛋白质结构域有同源相似性。可将预测转录本的氨基酸序列放入蛋白质库进行搜索,最后根据比对得到的同源相似性得分来判别该转录本是否可能编码蛋白质。该方法的缺点在于它们依赖于现有蛋白质库的准确性,另外有些lncRNA系mRNA演变而来,也会表现出与已有蛋白质的同源性,可被错判为mRNA。其它一些指标,如密码子替换频率(Codon Substitution Frequency, CSF),被一些程序用来考量转录本。非编码序列较编码序列缺乏保守性,易发生突变,CSF高。 有一些lncRNA的二级结构具有一定的保守性,有些程序依据这些结构特性进行lncRNA预测,但某些mRNA也有类似的保守性,可能会误判。

有些软件通过整合许多因素来预测lncRNA。譬如机器学习的方法,通过学习序列、结构和表达等多种特征,建立分类模型(训练集),进而进行新的lncRNA的预测。有些整合的方法,没有机器学习的过程,但将多种特征作为过滤标准,判定某转录本是否为lncRNA。这种方法,因筛选标准多,可产生假阴性。

编辑: hejianxin    来源:丁香园

上海伯豪生物技术有限公司是上海生物芯片有限公司/生物芯片上海国家工程研究中心根据国内外研发外包发展的需要,整合旗下系统化的分子生物学技术平台、商业化服务体系、高素质服务团队等资源成立的致力于研发外包服务公司。

上海伯豪生物技术有限公司拥有五大技术平台:生物样品分析平台、微阵列芯片平台、高通量测序平台、生物标志物验证平台、生物信息平台。凭借先进的技术平台,多样化的服务和严格的质量控制等竞争优势,公司向国内外企业和相关单位提供系统的生物学研究全面解决方案。目前正在为多达18家跨国制药企业(包括排名前10位的跨国制药企业)和超过1100家的国内科研机构、医院等提供基因表达谱、基因分型、比较基因组学、DNA甲基化、miRNA、生物标志物筛选及确认、生物信息等技术服务。

技术服务热线:800-820-5086/400-880-5086

如需了解更多, 请访问:伯豪生物官网