lncRNA 生物信息学分析
1、差异lncRNA靶基因预测
lncRNA的靶基因较为复杂,主要分为正式和反式两种作用机制.lncRNA作用机制与miRNA类似,均可以通过调控相应的mRNA来行使功能,所以靶基因的预测在科学研究中都显得非常必要。
2、靶基因Gene Ontology分析
我们将靶基因向gene ontology数据库的各节点映射,计算每个节点的基因数目.
3、靶基因Pathway分析
信号通路分析需要完备的注释信息支持,通过整合KEGG、Biocarta、Reactome等多个数据库的信息可以精确检验来进行Pathway的显著性分析。
4、lncRNA与调控基因的表达机制
通过整合lncRNA的信息和靶基因之间的关系,我们可以得到一个lncRNA与靶基因之间的调控网络图.
5、 转录因子结合位点预测
对于差异表达lncRNA,提取转录起始位点上下游序列,使用预测程序对其转录因子结合位点进行预测.
6、基因关联分析
现在市面上的lncRNA芯片均含有mRNA的表达探针,通过将lncRNA的靶基因分析结果与芯片上mRNA的表达结果做关联分析,可以更进一步的分析lncRNA的功能。
7、信号通路调控网络构建:
实验中基因同时参与了很多Pathway,通过构建信号通路调控网络,从宏观层面看到Pathway之间的信号传递关系,在多个显著性Pathway中发现受实验影响的核心Pathway,以及实验影响的信号通路之间的调控机理。
8、lncRNA的功能分析
根据lncRNA最新的功能数据库,利用生物信息学工具,做出Function-Tar-Net图表,从而得出lncRNA与功能的关系
9、差异LncRNA的邻近基因分析
很多LncRNA是通过调控邻近发挥生物学功能,因此通过邻近基因的分析可以为后续LncRNA的功能研究提供线索。
lncRNA-mRNA整合分析
1.LncRNA简要
LncRNA是一类转录本长度超过200nt的RNA,它们本身并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。生物体内含量相相当丰富,约占RNA的4-9%(mRNA约占1-2%)。LncRNA的组织特异性及特定的细胞定位,显示lncRNA受到高度严谨的调控,目前已知其与发育、干细胞维持、癌症及一些疾病相关。虽然近年来随着基因芯片及第二代高通量测序技术的广泛运用,lncRNA不断被发现,但此类转录本的确切功能还未知。目前市场上的lncRNA芯片通常将lncRNA与mRNA设计在一起,RNASeq数据中也包含lncRNA, mRNA序列,因此可以通过分析lncRNA与mRNA表达相关性对lncRNA进行功能注释。
2.分析流程图
3. 分析内容
1. 计算LncRNA与mRNA表达相关性,根据设定的域值筛选lncRNA与mRNA关系对,构建LncRNA与mRNA共表达网络,如下是全局网络
2. 基于lncRNA与mRNA表达相关性以及lncRNA与mRNA基因组位置近邻关系,得到lncRNA的潜在靶标基因,对差异表达的lncRNA靶标基因进行功能注释以及功能富集分析,如下是功能富集的GO的Barplot图和差异lncRNA的Heatmap图
3. 研究lncRNA与mRNA的共表达网络的拓扑学特性,基于度筛选网络拓扑上重要的lncRNA,这些lncRNA极有可能是与研究背景相关的lncRNA,如下是重要lncRNA与mRNA的局部共表达子网络
4. 客户提供研究背景相关一组基因,根据表达相关性可以找出与这组基因相关的lncRNA,从而构建出感兴趣的共表达网络。通过构建的共表达网络能进一步找到感兴趣的 hub lncRNA。
lncRNA芯片数据分析策略
1) 芯片数据预处理:对实验数据质量评估,预处理及均一化处理。
2) 差异表达lncRNA及mRNA 的筛选:根据客户提供样本量的大小与分布或实验目的,应用倍数法、多重假设检验等手段,对两条件或多条件下的表达差异的lncRNA和mRNA分别进行计算和筛选。
※ 表达模式聚类分析:针对芯片结果进行样本及差异表达lncRNA和mRNA的聚类,寻找属于同一表达趋势的基因或样本。
※ GO和pathway显著性富集分析:差异基因,应用数据库进行功能富集分析,挖掘具有统计学意义的差异表达基因的功能类别。显著性P值越小,则它随机聚集差异表达基因的概率越小,其功能相关性的非随机性就越小,该功能模块有较大的可能与疾病(或药物作用) 相关。
※ 蛋白互作网络分析:研究与指定蛋白质相互作用的其他蛋白质的信息,以使研究人员能够更加深入地认清相关蛋白质的功能,更清楚地理解其调控机制。
3) lncRNA-mRNA共表达分析:对于每一个差异表达的lncRNAs,计算得到与之共表达的编码基因。
4) lncRNA表达模式分析:考察差异表达LncRNAs 的表达模式,将LncRNAs 以及与该LncRNAs 显著共表达的编码基因的表达模式绘制heatmap。
5) lncRNA功能预测:筛选出表达显著相关的lncRNA-mRNA 关系对,利用成熟的mRNA 的功能来推导lncRNA 的功能,对异常表达lncRNA 显著相关的mRNA 进行功能富集分析。
6) lncRNA cis作用机制研究:对于感兴趣的差异表达lncRNAs,搜索其上下游100K范围内的所有编码基因,并与该lncRNAs 有显著共表达的基因取交集。这些在基因组上临近、且表达模式上共表达的基因很可能被该lncRNAs 所调控。
7) lncRNA trans作用机制研究:计算LncRNAs 共表达的编码基因,集合与转录因子/染色质调控复合物的靶基因集合的交集,利用超几何分布计算该交集的富集程度,得到与lncRNAs 显著相关的转录因子,从而识别可能与lncRNAs 联合发挥调控作用的转录因子/染色质调控因子。
※ lncRNA--转录因子二元关系及网络分析
※ lncRNA--转录因子--靶基因三元关系及网络分析
LncRNA的作用机制不清楚,lncRNA的功能非常难研究。当前很多通过研究miRNA与lncRNA的调控关系来揭示非编码RNA的功能,最热门的要数ceRNA调控网络。相关的可利用资源包括
(1)starBase平台(http://starbase.sysu.edu.cn/mirLncRNA.php) 构建了最全面的CLIP-Seq实验支持的miRNA和lncRNA的调控关系网络,包括构建了ceRNA调控网络(http://starbase.sysu.edu.cn/mrnaCeRNA.php)。
(2)DIANA-LncBase数据库(www.microrna.gr/LncBase)构建了基于单个CLIP-Seq数据的miRNA和lncRNA调控关系。