上海生物芯片有限公司

3

手机商铺

qrcode
商家活跃:
产品热度:
  • NaN
  • 0.7000000000000002
  • 0.7000000000000002
  • 1.7000000000000002
  • 0.7000000000000002

上海生物芯片有限公司

入驻年限:3

  • 联系人:

    黄小姐

  • 所在地区:

    上海 浦东新区

  • 业务范围:

    医疗器械、试剂、细胞库 / 细胞培养、ELISA 试剂盒、技术服务、体外诊断

  • 经营模式:

    生产厂商 科研机构

在线沟通

公司新闻/正文

探秘全基因组关联分析第三期:关联分析

192 人阅读发布时间:2025-07-23 09:51

经过前面两期的讲解,我们了解了GWAS分析需要的数据类型和数据质控方法,终于来到我们的核心内容:关联分析。

GWAS分析一般会构建回归模型检验标记与表型之间是否存在关联,其中:

① 零假设(H0 null hypothesis)是标记的回归系数为零, 标记(即SNP)对表型没有影响。

② 备择假设(H1,Alternative Hypothesis)是标记的回归系数不为零,标记(即SNP)和表型相关。

在第一期中我们提到表型数据的类型包括三种:数量性状、质量性状和分级性状,我们在进行关联分析之前,需要根据不同类型的表型选择合适的关联分析方法,同时为了减少假阳性,通常对p值进行矫正。

 

1 连续性状 

连续性状是指那些在群体中呈现连续分布的性状,如身高、体重、血压等。可以选择的方法有T检验(Student’s test)和线性回归(linear regression)。

--assoc,卡方检验+优势比,表型若为数字则视为字符,不允许有协变量;

--linear,线性回归,表型为纯数字,允许有协变量,如果考虑协变量,加上--covar即可。

# assoc关联分析不校正/校正p值

plink --bfile test --assoc --out result_assoc

plink --bfile test --assoc --adjust --out result_assoc

注意:会多出一个*.assoc.adjusted后缀文件。

# linear关联分析不考虑协变量、不校正/校正p值

plink --bfile test --linear --out result_linear

plink --bfile test --linear --adjust --out result_linear

注:协变量使用 --covar 参数添加。

 

2 阈值性状 

阈值性状即表型值数据是两类数据:1和2(其中0和-9都表示缺失),比较常见的是对照组(用1表示)和实验组(用2表示)。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)

--assoc,卡方检验+优势比,不允许有协变量;

--logistic,逻辑回归,允许有协变量,如果考虑协变量,加上--covar即可。

注:这里的协变量比如性别、年龄等信息。

# assoc关联分析不校正/校正p值

plink --bfile test --assoc --out result_assoc

plink --bfile test --assoc --adjust --out result_assoc

注意:会多出一个*.assoc.adjusted后缀文件。

# logistic关联分析不考虑协变量、不校正/校正p值

plink --bfile test --logistic --out result_logistic

plink --bfile test --logistic --adjust --out result_logistic

注:协变量使用 --covar 参数添加。

 

3 分级性状 

我们将通过人为观察而可以进行分类的离散型变量统称为分级性状。但要注意一点,分级性状最终的定义,还是部分依赖于我们的经验。 例如,对于植物的抗病性,我们既可以按照叶片病斑的面积(0~100%),将其定义为连续型的数值型性状,也可以人为设定阈值将其定义为分级性状(高、中、低)。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。

--assoc,卡方检验+优势比,不允许有协变量;

--logistic,逻辑回归,允许有协变量,如果考虑协变量,加上--covar即可。

# assoc关联分析不校正/校正p值

plink --bfile test --assoc --out result

plink --bfile test --assoc --adjust --out result_adjust

# logistic关联分析不考虑协变量、不校正/校正p值

plink --bfile test --logistic --out result_logistic

plink --bfile test --logistic --adjust --out result_logistic

注:协变量使用 --covar 参数添加。

到这一步我们终于得到了梦寐以求的显著性结果,可以对结果表格进行pvalue筛选过滤假阳性,也可以进行可视化直观展示(即鼎鼎大名的Q-Q plot和Manhattan图),那如何进行可视化呢?别急,我们留到下一期。

上一篇

生物数据工具箱:从入门到精通的数据库攻略(六)| ImmPort资源库介绍

下一篇

探秘全基因组关联分析第二期:数据质控

更多资讯

我的询价