大家都在搜
RNA-seq 应用越来越广泛,但目前还没有一个 RNA-seq 数据分析流程能够适用于所有的项目情况。
佛罗里达大学等单位的研究人员 2016 年 1 月在 Genome Biology 杂志上发表了一篇概述 RNA-seq 数据分析流程的文章,并于 2016 年 8 月份对原文进行了勘误,文章为 RNA-seq 科研工作者提供了重要参考。文章涵盖了 RNA-seq 数据分析的所有主要步骤,包括实验设计,质量控制,比对参考序列,基因和转录本定量,基因差异表达等。文章最后也讨论了 RNA-seq 数据与其他类型数据的联合分析。 RNA-seq 项目成功的一个重要前提是得到的测序数据能够潜在地回答相应的生物学问题。要得到好的测序数据,第一要有个好的实验设计,包括挑选合适的建库类型、测序深度以及重复个数。挑选合适的建库类型包括选择合适的提取 mRNA 方法——polyA 选择还是 rRNA 去除,选择链特异性建库还是普通建库,选择插入片段的大小以及选择单端测序还是双端测序。测序的深度越深,则能检测到的转录本越多,定量也会越精确。在给定测序深度的情况下,饱和度曲线常用来评估转录本的覆盖度。第二实验本身要正确运行以保证获得的数据没有污染。
拿到原始测序数据后首先要进行质量控制,即检测数据质量、GC 含量以及是否有污染等,然后去除不合格的reads 。FastQC 软件被广泛应用于 Illumina 平台做数据质控,软件 FASTX-Toolkit 或 Trimmomatic 可用来去除低质量 reads、带接头 reads 以及去除低质量碱基。
将 reads 比对基因组或转录组,大部分 reads 只比对到了一个特定位置,然而有部分 reads 比对到了多个位置。出现 read 有多个比对位置的原因主要是由于重复序列的存在以及旁系同源基因之间存在共同结构。多比对位置的 reads 并不被去除。 比对率是重要的比对质量参数,可指示测序的精确度以及数据是否有污染。当 reads 只比对转录组时,由于来源于未注释转录本的那部分 reads 将丢失,比对率通常要比 reads 比对基因组时低,并且比对结果含有更多的多比对位点 reads,因为可变剪切的存在导致可能有多个转录本共享同一个外显子。Reads 对外显子覆盖度的均一性是比对质量的另一个参数。对于 polyA 选择的样本,如果 reads 在转录本的 3’末端原始累积,则表明最初样本的 RNA 质量低。比对步骤质量控制的软件可用 Picard, RSeQC 或 Qualimap。 当研究的物种没有参考基因组或参考基因组不完整时,可将 reads 组装成转录组。组装软件可用SOAPdenovoTrans, Oases, Trans-ABySS 或 Trinity。组装时如果 reads 数量过少,会导致转录本覆盖度不足而不能组装出低表达水平的转录本,但如果 reads 数量过多,会导致潜在的错误组装以及增加运行时间。组装时建议所有样本一起组装成一个转录组。 尽管存在一些算法例如 Sailfish 仅依靠计算 reads 中 k-mer 数量来定量,但转录本水平定量通常基于比对上每条转录本序列的 reads 数量。定量的结果需进行标准化处理以去除转录本长度、测序深度的影响。RPKM(reads per kilobase of exon model per million reads)、FPKM(fragments per kilobase of exon model per million mapped reads) 和 TPM(transcripts per million) 是常用的样本内标准化方法。TPM 方法比 RPKM、FPKM 发表的时间晚,但在文献中出现的频率却是最高的。FPKM 可通过公式转化为 TPM。如果项目是单端测序项目,则 RPKM 与 FPKM 是等价的。 转录本水平定量必须解决一个问题,即可变剪切的存在导致的多个转录本共享其大部分 reads。TopHat 利用expectation-maximization 方法将 reads 比对到参考基因组,同时兼顾了 reads 在基因长度上的非均一分布。Cufflinks 充分利用双端 reads,可同时参考 gtf 注释文件,根据 reads 比对参考基因组的结果将 reads 拼接成转录本。转录本水平定量的算法有 RSEM (RNA-Seq by Expectation Maximization), eXpress, Sailfish 和 kallisto。这些算法将多比对位置 reads 在拼接的转录本中重新定位。 原文链接: A survey of best practices for RNA-seq data analysis Erratum to: A survey of best practices for RNA-seq data analysis |