“富矿”的开发:从miRNA到lncRNA

SBC miRNA测序数据分析

   2013-10-03
字体大小:

数据分析流程

数据分析内容

1) microRNA长度分布统计以验证试验可靠性
应用fastx(fastx_toolkit-0.0.13.2)对测序原始reads进行预处理,去除接头序列以及低质量序列。

图为经过长度统计,各长度上序列的分布情况

2) 比对注释
将测序得到的序列与miRBBase以及其他非编码数据库ncRNA,pirna,Rfam数据库里的序列进行比对,对已知microRNA进行注释:
下图为经过注释的结果,其中分别列出和miRBase数据库,pirna数据库,Rfam数据库以及ncRNA数据库的比对情况。

下图为针对miRBase种Sus scrofa物种进行的比对注释统计:

由之前所得的注释结果,可以作图来更进一步展示其结果:

 

 

对整体的注释结果,还可以采取进一步的分析,例如:

(1) 统计碱基偏好性,下图就是测序所得序列分别在21,22,23,24长度上的5’碱基分布情况。

2) 对于测序所得序列,可以统计出其正负链分布情况,以找寻生物学上的特征。

针对某单一microRNA,也可以对其进行更深度的分析。
例如,对其序列的匹配情况进行分别统计:

还可以对其对应的microRNA前体二级结构进行观察。

3) 分类注释

将测序得到的序列与物种所对应的基因组数据库比对,对有注释的reads的来源进行分类统计,鉴定并统计出已知的microRNA以及各种不同种类的RNA分子。
如图,经过与数据库进行分别比对,可以鉴定并统计出包括tRNA,rRNA,snoRNA,snRNA的数量及分布。

4) 差异分析

我们采取用DEGseq R语言包结合perl脚本将样品按照客户的分组情况,进行表达量的比较分析。
在差异分析中,我们会采用TPM(Transcripts per million,公式为:单一miRNA reads数×106/总reads数)作为标准化数据。

结果展示如下:

5) 饱和度分析

将注释结果按比例划分作图,以观察样品注释的趋势,发现其在生物学上的合理性。

6) 新microRNA预测

对于未注释上的序列,我们将其与该物种全基因组序列进行比对分析,通过折叠模型预测新的microRNA,通过折叠模型分析,若有序列位于茎环结构上,则初步判定该序列为一个候选的新microRNA。

对于预测出的新microRNA,我们会统计并列出其所位于的染色体,起始位置,终止位置,正负链,以及数目,长度,GC含量,最小自由能等数值。

对于新microRNA,我们还会计算并绘制出其前体的二级结构,以及其与成熟microRNA之间的位置关系。

7) mircoRNA作用靶基因预测:

采用miranda软件,对microRNA序列以及对应物种的基因组cDNA序列进行可能的靶位点预测
Miranda软件比对结果示意图如下:

 

 

编辑: hejianxin    来源:丁香园

上海伯豪生物技术有限公司是上海生物芯片有限公司/生物芯片上海国家工程研究中心根据国内外研发外包发展的需要,整合旗下系统化的分子生物学技术平台、商业化服务体系、高素质服务团队等资源成立的致力于研发外包服务公司。

上海伯豪生物技术有限公司拥有五大技术平台:生物样品分析平台、微阵列芯片平台、高通量测序平台、生物标志物验证平台、生物信息平台。凭借先进的技术平台,多样化的服务和严格的质量控制等竞争优势,公司向国内外企业和相关单位提供系统的生物学研究全面解决方案。目前正在为多达18家跨国制药企业(包括排名前10位的跨国制药企业)和超过1100家的国内科研机构、医院等提供基因表达谱、基因分型、比较基因组学、DNA甲基化、miRNA、生物标志物筛选及确认、生物信息等技术服务。

技术服务热线:800-820-5086/400-880-5086

如需了解更多, 请访问:伯豪生物官网