我要登录|
免费注册
|
我的丁香通
- 企业机构：
- 成为企业机构
- 个人用户：
- 个人中心
移动端

大家都在搜

0 人通过求购买到了急需的产品

免费发布求购

发布求购

【操作步骤】6.2 分文章作者，亲手教你如何轻松搞定生信文章

科研论文时间2022-07-13

2405

大家好，今天跟大家分享一篇文章「DDX60 is associated with glioma malignancy and serve as a potential immunotherapy biomarker」。

该文章是由笔者于 2021 年 2 月发表于《Frontiers in Oncology》杂志上的，目前该杂志中科院分区 2 区，影响因子 6.2 分。

今天就通过该文章跟大家分享一下肿瘤方向生信文章的套路及绘图方法～

信息发展到这个年代，许多科研道友仍然闻「代码」色变，总想走不用代码发文章的捷径。

殊不知，其实代码才是捷径，许多软件复杂的操作只需一行代码就能轻松搞定。

闲话少说，上干货～

总体思路

首先我们来看一下文章标题「DDX60 is associated with glioma malignancy and serve as a potential immunotherapy biomarker」，就是说 DDX60 这个基因在胶质瘤中很重要，能够提示胶质瘤患者预后不良，且与胶质瘤免疫应答相关。

听起来有点玄妙，那么具体是怎么操作的呢？

先通过 Results 的小标题来看一下总体套路：

1、目标基因在胶质瘤中表达增高

2、目标基因高表达能提示胶质瘤患者预后不良

3、目标基因与多种生物过程密切相关

4、目标基因作用于炎症反应和免疫应答

5、目标基因与胶质瘤患者的免疫检查位点关系密切

通过这一系列小标题，发现文章套路了吗？

总结而言，扩展到各种肿瘤的生信研究，大致思路就是：某基因的表达情况—生存预后分析—基因通路富集—富集结果验证—结合临床应用。

总体思路有了把握，那么具体如何执行呢？

Figure 1

首先，该文章通过「http://ualcan.path.uab.edu/」网站查找了目标基因在不同癌症中的差异表达情况，证明了该基因在多种癌症中的表达量较正常组均有所升高。

网站原始下载图片如下：

图片来源：文献截图

其次，该文章下载了 TCGA 的原始数据进行验证，并利用 R 语言进行绘图。

研究胶质瘤，分组情况一般是传统的病理级别（胶质瘤可分为 I-IV 级）、2016 版 WHO 分组情况（经典型、间质型、神经元型、前神经元型），以及临床常用的分子标志物表达情况（MGMT 启动子甲基化、ATRX 表达情况、TERT 表达情况、IDH1 表达情况）。

当然，2021 年 WHO 又更新了脑肿瘤的分类，那是后话，不体现在本文中。

组间差异表达的形式可以有多种图形及其变种，比如传统的箱式图，如空心箱式图、实心箱式图，还可以用箱式图结合散点图，如本文 Figure 1 B、Figure 1 C。

此外，小提琴图（Violin 图）也是近年来文献中常见的图形，其特点是更加直观地展示了数据的分布情况，如本文 Figure 1 D-G。绘图时建议多尝试几种，选择效果比较漂亮的放到你的 Paper 中。

由于篇幅原因，本文 R 语言绘图代码仅展示主要部分：

箱式图：

ggplot (grade_TCGA, aes (x = Grade, y = DDX60, fill = Grade)) +

stat_boxplot (geom = 'errorbar', width = 0.08) +

geom_boxplot (outlier.fill = "black", outlier.shape = 2, outlier.size = 0.1)

图片来源：文献截图

小提琴图：

ggplot (grade_TCGA, aes (x = Histology, y = DDX60, fill = Histology)) +

geom_violin (trim = F) + scale_fill_brewer (palette = "Dark2") +

theme_classic () + geom_boxplot (width = 0.1, fill = "white")

图片来源：文献截图

Figure 2

证明了目标基因在正常组和肿瘤组之间的表达存在显著差异，接下来就要证明这个目标基因是坏的，即高表达该基因的肿瘤病人生存期短，预后不良。

生存曲线就是有力证明！

想要绘制 P 值最小，即生存差异最显著的生存曲线， cut off 取值最为关键。

常用的 cut off 值一般有中位数，四分位数等，但如果想要寻找最佳 cut off 值，也可以通过 R 语言「surv_cutpoint」包来计算。

直接拿代码说事～

cut_GBM_TCGA <- surv_cutpoint (TCGA_GBM, time = "survival", event = "status", variables = c ("gene"))

一行代码搞定，最佳 cut off 值立现！

然后就需要将连续性变量按照计算好的 cut off 转为二分类变量，代码如下：

cut2_GBM_TCGA <- surv_categorize (cut_GBM_TCGA)

最后，一起来优雅地绘制生存曲线～

fit.TCGA_GBM <- survfit (Surv (survival, status) ～DDX60, data = cut2_ GBM_TCGA)

ggsurvplot (fit.TCGA_GBM)

出图如下：

图片来源：文献截图

根据不同数据库信息，微调代码的数据框，6 张生存曲线美图分分钟搞定！

这里笔者也要提醒大家，因为本目标基因在脑肿瘤中的生存差异比较显著，因此绘制了 95% 区间的阴影线（就是蓝色、黄色的范围）毫无违和感。

如果你的目标基因画出来阴影重合比较多甚至相互交叉，建议还是去掉这个阴影吧～

Figure 3

这是一张 nomogram 图，词典翻译是列线图。

简单来说，就是将每个影响肿瘤患者预后的指标量化，并给出一个分值，将这些分值相加得到一个总分，最后根据总分对应的点，预测肿瘤患者 3 年 5 年、甚至 10 年后仍然存活的百分率。

这里的 3 年、5 年甚至 10 年都是可以自己规定的，也可以换成 3 个月、10 个月等。当然这也不是拍拍脑袋随便规定，而是要根据具体肿瘤的生存期来设置。

比如胶质母细胞瘤，脑肿瘤中最为恶性的肿瘤，其 5 年生存期不足 10%，那么这里规定 1 年、3 年即可，规定 10 年就毫无意义，图也会很难看。

Nomogram 学问还很多，一张信息量够大够好的 nomogram 图本身就可发一篇 paper，可以自己去 PubMed 一下～

好啦，这里还是纯干货，上代码。

这个代码稍稍有点复杂，比把大象放冰箱还要多一步，可以分成……4 步，我们来详细说一下：

1、打包

dd <- datadist (TCGA)

options (datadist = "dd")

2、生成函数

f <- cph (Surv (survival, status) ～ gene + Grade+ Age+ IDH.status, x = TRUE, y = TRUE, surv. = TRUE, data = TCGA, time.inc = 36)

surv <- Survival(f)

3、建立 nomogram

nomogram <- nomogram (f, fun = list (function(x) surv (36, x), function(x) surv(60, x)),

lp = FALSE, funlabel = c ("Risk of Death","3-Year Survival", "5-Year Survival"), maxscale = 100, fun.at = c (1, 0.9, 0.8, 0.7, 0.6, 0.5,0.4,0.3,0.2,0.1,0))

4、将建立好的 nomogram 绘制出来

plot (nomogram,

col.conf = c (5, 0.3),

conf.space = c(.08,.2), label.every = 1,

xfrac = 0.3, cex.axis = 0.7, cex.var = 0.9,

tcl = -0.15, lmgp = 0.05)