大家都在搜
为大家介绍一些 lncRNA 的基本知识,包括 lncRNA 的定义,分类,特征,以及可以进行 lncRNA 注释的工具或软件。
1. lncRNA 的定义与分类 广义上,由长度大于 200bp 的非编码 DNA 序列转录生成的 RNA 序列均称为 lncRNA。lncRNA 的分类主要有如下几类:lincRNA, retained intron, antisense 等等 18 种,具体分类见下表一。(每个研究人员根据自己理解的不同,会有一些差异,可以查看 nature genetics review 上的综述类文献进行细致的了解)
表一 lncRNA 类型
其中,只有少数几类 lncRNA 的功能验证可行性较高,在选择 lncRNA 进行功能验证时,需要注意挑选 lncRNA 类型,最好不要选择有 overlap 的 lncRNA。
2. lncRNA 的序列保守特征 编码 RNA 和非编码 RNA 在长度和生物学特征上有着很多相近的特征,比如他们在 5』端都有「帽子」结构,都能进行可变剪切,3』端都有 ployA 加尾,也都能被 RNA 聚合酶 II 转录。因此,利用算法对 lncRNA 和 mRNA 进行区分是一件很困难的事情。然而,lncRNA 与 mRNA 的最大区别是没有开放阅读框,不能进行蛋白编码。有些 lncRNA 在序列上具有特定的序列特征,可以利用这些特征来帮助检测和鉴别 lncRNA。如超保守区域转录本(transcribed ultra-conserved regions, T-UCRs,这类转录本是由基因组上的超保守区域转录生成的)、选择剪接识别元件(splicing recognition elements, SREs,这类 lncRNA 能够作为分子支架,调节可变剪接事件的发生)、Alu 重复序列(Alu repeat elements,哺乳动物基因组中短散在重复序列的一类)和 CpG 岛(CpG islands, CGIs)。 3.lncRNA 注释策略 主流的注释 lncRNA 的算法依据主要有:根据序列编码蛋白的潜力和序列的保守性计算出各种参数,进行 lncRNA 注释;Folding algorithms,根据序列的二维或三维结构对 lncRNA 进行注释;根据 lncRNA 与蛋白或 microRNA 等等结合的相互关系,预测 lncRNA 的功能。 4. 下面对 lncRNA 注释工具和数据库进行一个汇总 比较常用的有 Noncode, LncRBase, Lncipedia, lncRNAdb, lncRNABaes 和 Linc2 Go 等等。 表二 lncRNA 注释工具汇总
图 1 lncRNA 分析的基本流程(针对芯片数据)
|