GCBI:基因数据指导精准医疗

【实践者】差异基因筛选方法——内有高人解答!

   2015-11-06
字体大小:

大家拿到基因数据,一头雾水不知如何下手,别急,咱们从差异基因筛选开始,一步步掀开数据分析的那层神秘面纱!

本文特别感谢 GCBI 算法工程师 Doctor Wang 的倾情解答!

对于基因的差异表达分析,能够发现一组在正常样本和患病样本中表达不同的基因,这为生物工作者进行实验验证提供了较好的候选基因。

通常的检测是对两种不同实验条件下的差异基因表达的问题进行模式化,一种检验对应一种基因,如果基因的表达值是零假设,那么它是无差异的。差异基因的筛选方法有很多,最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。另外还有些方法包括统计学的 T 检验法和 SAM 等方法。

倍数变化法

倍数变化法 (Fold change),计算患病组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。

整体而言,Fold Change 方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测的基因假阳性结果比率相对较高。

T 检验法

T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。

由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T 检验的检验效能降低。

SAM 算法

SAM 算法就是通过控制 FDR 值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM 算法更为稳定,筛选出的结果也更为准确。

SAM 方法以 q-value< 0.05 作为筛选差异表达基因的标准,从公式上来看,p-value 和 q-value 较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因的假阳性率 (p-value 较小) 可能会较大,而 q-value 和 FDR 值较常见的 BH 校正方法得到的 FDR 值而言,改进了其对假阳性估计的保守性。

微信截图_20151106151708.png

其实什么算法、软件好烦人,还是 GCBI 简单方便,导入数据-设置参数-运行,分分钟拿到结果。

32.png

为了得到可验证性的高质量差异结果,GCBI 实验室推荐每个分组 (Each Group) 的样本数不少于 3,当样本重复数少于 3 个使用倍数法,样本重复数大于等于 3 使用 SAM 法。

前方高能请注意:


 1、如何设置参数?

答:在 GCBI 进行差异筛选,通过选择 (q-value/差异倍数、差异数量) 和设置差异参数,筛选样本中的差异基因。

(1) q-value 越高,筛选出差异基因越多。q-value=0.05 认为结果良好,可根据具体情况适当调整。

(2) 差异倍数常用:1.2、1.5、2,其中 1.5 最常用。

2、为什么 GCBI 采用 q-value 过滤差异结果?q-value 较 FDR 有哪些好处?

    答:差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因 (p-value 较小) 的假阳性率可能会较大,而我们期望得到具有高可验证性的合适数量的差异结果,那么 q-value 或 FDR 更合适于用来过滤差异结果。FDR 值与 q-value 都是用来衡量多重检验中的误判率的,而 q-value 较常见的 BH 校正方法得到的 FDR 值而言,改进了其对假阳性估计的保守性,即 q-value 一般会较 FDR 更低,从而提高了部分差异分析的可行性。

3、差异基因数量太多或太少,怎么办?

答:可以在适当范围内调整参数设定,可参考下一个问题。

4、当 q-value 大于 0.05 还有意义吗? 

   答:从 q-value 的定义与意义可知,q-value 衡量地是某个基因假阳性的概率。显然如果 q-value 越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越高。也就是说 q-value 从概率的角度对差异的结果进行了一个整体的可验证性判断,所以在差异很大的情形下,我们可以适当地减小 q-value 的过滤阈值,而在差异较小的情况下,我们完全可以适当增大 q-value 的过滤阈值。对于差异较小的情况,q-value 大于 0.05 仍然具有意义,如 q-value=0.3,就是说这个基因 30% 的可能性出现假阳性,即它的可验证性的概率 (70%) 仍然远高于不可验证性 (30%)。

5、为什么有些差异分析结果中的 q-value 全部相等?

答:说明差异结果从假阳性方面看具有一致性,即使存在某些基因的 p-value 较小,但是其假阳性的概率与其他基因一致,就是说其验证差异的风险几乎相同。如果结果的 q-value 较大,那么说明输入的基因数据整体的差异不大,这种情形我们推荐采用合适的差异基因总数 (即控制 Rank 值或 d Score 值) 或者控制 q-value 来得到期望的可行性结果;如果得到的 q-value 较小,说明差异较大,可以通过更加严格的 q-value 或者差异倍数过滤来得到合理的差异结果。

6、为什么有时候通过调整 q-value 进行差异基因过滤,而差异结果没有变化?

答: 一般来讲,我们首先建议用户对默认参数的结果进行查看(通过数据栏查看),通过对结果的预览做到「心中有数」,然后有针对性的进行 q-value 调整或差异总数的调整。举例来讲,如 q-value 变化区间较大时,通过微调可能就达不到预期结果;如果 q-value 全部相等(见 Q5),那么过前端调整 q-value 的方法来过滤基因将不再会有效果。

7、基因差异倍数大于 2 才是有意义的?

答:对于 1vs1 样本,差异倍数大于 2 是一个较好的先验选择,但仍然不满足部分差异过大结果的分析要求。在样本数较多的条件下,判断一个基因是否有差异,不单单是通过差异倍数来判断,而是结合其他统计学参数 (如 p-value、q-value) 来判断。

8、为什么 Gene Symbol 的有些单元格时空白的? 

答:因为这段序列在 NCBI 上是没有正式基因名,可以通过查找结果中的 Accession 列中的编号,来得到该序列的信息。

关注 GCBI 知识库让您科研、学习更轻松!

  


编辑: wuch    来源:丁香园

了解 GCBI:www.gcbi.com.cn
电话:400-600-4643