大家都在搜
我们一般做数据挖掘时都是通过 BLAST 或其他相似工具在数据库中寻找大量相似的序列,然而因为搜索得到的序列结果与数据库中的主题序列存在部分匹配,大大增加我们翻译、解释这些结果的难度。 在今年 7 月来自捷克的 Schwarz 课题组在 Frontiers in Genetics 发表了著作,他们开发了 RboAnalyzer 软件,主要针对非编码 RNA,以自动化工作流程取代手动工作,从而使数据库序列搜索结果的解释更加容易,可有助于解释序列搜索结果。 这是 rboAnalyzer 的操作流程图 rboAnalyzer 软件操作步骤简单地分为三步:
所有信息都会集合到 HTML 输出里。 rboAnalyzer 在 Linux 系统上运行,利用具有 Biopython、NumPy、Pandas、matplotlib 和 Jinja2 的 Bash 和 Python 3 操作。 Schwarz 课题组用该软件对放线菌的分歧杆菌 ms1 RNA 的同源性分析做了示范,你看 他们选取 3 个不同质量的高分值片段对 HSP,图 5A 代表的是高质量 HSP,HSP 覆盖了查询序列的很大一部分,但间隙相对较少,表明查询序列与主题 RNA 具有很强的相似性,从而表明它们的同源性。高序列相似性导致精确扩展的全匹配,使得能够预测由 Turbofold 和 rfam-Rc 预测最好表示的准确二级结构。 图 5B 代表的是同源性 RNA,5C 代表的是非同源性 RNA。rboAnalyzer 软件能够准确地识别同源性。事实上,ms1 RNA 是个细菌 RNA,而非同源性 HSP 的存在于真核细胞。 这篇文章的作者认为 rboAnalyzer 软件是必需的,因为通常只有全长序列才能对 RNA 做有效分析。二级结构、同源性和功能鉴定的预测分析也同样重要。 |