
TCGA/GEO/SRA/EBI公共数据库高通量数据挖掘分析
- 询价
- 2026年01月19日
相关产品推荐更多 >
万千商家帮你免费找货
0 人在求购买到急需产品
- 详细信息
- 询价记录
- 文献和实验
- 技术资料
1、 公共数据获取和重注释
下载 TCGA 数据(https://tcga-data.nci.nih.gov/)中的疾病的 RNAseqV2 exon 数据(Level 3,raw count)和临床数据,共有*例样本纳入研究,其中肿瘤样本*例,癌旁样本*例;其中临床预后信息齐全的共*例患者;测序平台为 Illumina HiSeq 2000 RNA Sequencing platform;数据下载时间为 2017 年*月。
RNAseqV2 exon 数据提供了 exon 的染色位置、raw count 、rpkm 信息。结合 Gencode 数据库(https://www.gencodegenes.org/)的 lncRNA 染色体位置
注释信息(V25),通过比对 RNAseqV2 exon 数据,若某 exon 的起始位置包含于注释数据库的 lncRNA 或 protein coding RNA,且正负链相符合,则将该 exon定义为 lncRNA 或 protein coding RNA。
2 、差异基因识别
分 别 使 用 R 包 edgeR ( Version : 3.4 ,http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)对 raw count 数据进行预处理,将 raw count 标化为 log-CPM 值,并过滤平均表达值低于第一四分位数(Q1)的基因;进行线性建模,并且使用由 voom 函数计算的精度权重来调节平均方差关系。
使用 limma 包(Version 3.10.3, http://www.bioconductor.org/packages/2.9/bioc/html/limma.html)提供的 T-test方法,分别对 mRNA 和 lncRNA 数据 Tumor VS Normal 进行差异表达分析。所有基因经过T检验后得到相应的 P.Value 值,P.Value 采用Benjamini & Hochberg法进行校正得到 adj.P.Value,lncRNA 和 mRNA 差异表达阈值均为 adj.P.Value < 0.05 且|log2FC| > 2。
3 、功能、通路富集分析
使用 DAVID[6]在线工具(Version: 6.8, https://david.ncifcrf.gov/)对获得差异表达 mRNA 进行功能和通路富集分析,包括 GO富集分析和KEGG pathway富集分析,GO 分析结果包括 BP(Biological Process)、CC(Cellular Component)、MF(Molecular Function),显著富集阈值为 P.Value <0.05。
4、 PPI 网络分析
我们以 mentha(http://mentha.uniroma2.it/about.php)、BioGRID(Version:3.4,https://wiki.thebiogrid.org/)、HPRD(Release 9,http://www.hprd.org/)三个数据库中的人类蛋白-蛋白相互作用关系,取三者并集作为背景,在其中匹配上一步得到的差异 mRNA,获得差异基因的蛋白相互作用关系(PPI)。得到的 PPI 关系对之后,使用 Cytoscape 软件对其进行网络图构建。运用CytoNCA插件(Version 2.1.6,
http://apps.cytoscape.org/apps/cytonca)进行节点网络连接度(Degree)分析,通过各个节点的连接度得分排名,得到 PPI 网络中参与蛋白互作关系的重要节点,即 hub 蛋白。
利用 Cytoscape 软件的 MCODE 插件,在蛋白互作网络中,通过应用聚类分析进行功能模块识别,得到网络拓扑结构和网络组件间相互关系,最终获得有生物学意义的蛋白质复合体或功能模块。参数:Include Loops: false Degree Cutoff: 10,Node Score Cutoff: 0.2,Haircut: true,Fluff: false,K-Core: 2,Max. Depth from Seed: 100。利用 DAVID 工具对模块中的基因进行 kegg pathway 富集分析,显著富集阈值为 P.Value < 0.05。
5、 lncRNA-mRNA 调控网络
通过对应样本的 lncRNA 和 mRNA 表达值,计算每个差异 lncRNA 与 mRNA的 pearson 相关系数 r,并进行相关性检验得到 p.value,筛选|r| > 0.85 且 p.value < 0.05 的差异 lncRNA-mRNA 关系对,将差异 mRNA 看做是 lncRNA 的靶基因。利 用 R 包 clusterProfiler( Version 3.2.11, http://www.bioconductor.org/packages/release/bioc/html/clusterProfiler.html)分析这些 lncRNA 的靶基因所参与的功能和通路,认为是该 lncRNA 的相关功能,显著富集阈值为 BH 校正后的 adj.P.Value < 0.05。
6、 lncRNA 共调控和功能协同分析
利用两 lncRNA 的共同调控靶基因构建 lncRNA 之间的共调控网络。如果两lncRNA 之间的共同调控靶基因有显著的 GO BP(Level 4)富集结果,我们认为两 lncRNA 之间有功能的协同作用,并对全部有功能协同作用的 lncRNA 之间绘制功能协同作用网络。GO BP 富集利用 R 包 clusterProfiler 实现,显著富集阈值为 BH 校正后的 adj.P.Value < 0.05。
7 、预后相关 lncRNA 筛选
整理临床数据,匹配与 lncRNA 矩阵中肿瘤组样本名相吻合的总生存时间(OS)和生存状态。我们将差异 lncRNA 按照肿瘤组表达值中位数将样本分为两组:高表达和低表达,对两组绘制 K-M 生存曲线,并进行 log-rank 统计检验,设定 p<0.05 为统计学显著性阈值,获得与生存相关的差异 lncRNA 若干个。
采用随机生存森林(Random survival forest, RSF)进一步筛选构建预后相关差异 lncRNA 模型。随机生存森林是在随机森林基础上,加入生存分析,采用 bootstrap 方法从原始数据中有放回地抽取 N 个样本,建立生存树模型,得到每个变量的重要性评分(variable importance measure ,VIMP),VIMP 越大预测能力越强,接近 0 或者负值说明不具有预测性;RSF 由各个生长生存树来估算得到累积风险函数(cumulative hazard function ,CHF) ,反映出每个个体在某个时间处于风险的累积概率。
将差异 lncRNA 表达数据按照随机抽样分为测试集(占样本总数 75%)和验证集(占样本总数 25%),利用 R 软件包 randomForestSRC(Version 2.4.0,https://cran.r-project.org/web/packages/randomForestSRC/index.html)进行 RSF 分析。先我们通过测试集构建 RSF 模型,得到每个 lncRNA 在模型中的 VIMP,按照 VIMP 由高到低排序,再按照排序依次将 lncRNA 纳入模型中获得当前模型的 Error rate,当 Error rate 最小时,认为当前的 lncRNA 组合是 RSF 模型的最好变量组合。重新以最好组合构建 RSF 模型,以每个患者在不同时间点的 CHF 值累加得到风险指数(Risk score),并设定 Risk score 的中位数为分辨高风险与低风险的阈值。
用验证集对最好预后相关 lncRNA 集进行验证,采用相同的参数得到每个样本的 Risk score,利用上一步设定的 Risk score 阈值将样本分为高、低风险两组。对两组绘制 K-M 生存曲线,进行 log-rank 检验;并结合临床数据进行多因素 COX回归分析。
因为此项服务为定制化服务,故无法给出简单的报价,有需求的老师,请致电联系。
风险提示:丁香通仅作为第三方平台,为商家信息发布提供平台空间。用户咨询产品时请注意保护个人信息及财产安全,合理判断,谨慎选购商品,商家和用户对交易行为负责。对于医疗器械类产品,请先查证核实企业经营资质和医疗器械产品注册证情况。
- 作者
- 内容
- 询问日期
文献和实验分析方法,得到不同的基因,使用一个非常低的辐射剂量,需要挑选出真正细小的变化。来自微阵列数据分析的最大的困难是确定哪一个结果是显著性的。SAM通过降低错误率和揭示哪一个基因被辐射影响解决了这个问题。 三、数据管理 DNA微阵列的应用,产生了大量的基因表达数据,现在有许多存储这些数据的数据库,通常与发表的论文结合起来,提供后来的研究者比较全面的信息。这些数据的共享、发布和再利用成为目前重要的研究内容。一些知名的研究机构如NCBI,EBI等正在试图建立新的标准,建立一些公共
笔者前一段时间忙于为新文章制作配图,多处搜集配图优雅美观的优质论文。最后终于找到一篇发表在 Science Advances 的文章——通过高通量测序分析揭示了小 RNA 在小鼠卵母细胞和早期胚胎中的调控作用。文章中除了复杂的 RNA Seq、Chip Seq 分析,图表的搭配十分美观。虽说我们是崇高的科(ke)学 (yan) 家 (gou),但关乎我们毕业大计的 SCI 也得要「高颜值」。以常见的热图(heatmap)为例,在分子生物学涉及高通量以及芯片的文章中,尤其是 RNA-seq 相关
为了支持公共使用和散布基因表达数据,NCBI开始了基因表达汇编(GEO)计划。GEO是努力建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。来自microarray,高密度寡核苷酸array(HAD),杂交膜(filter)和SAGE的许多类型的基因表达数据都被接受,登记,和存档,作为一个公共数据集合。一系列预先计算的数据的定义和描述,以及用于交互检索和分析这些表达数据的在线工具即将放入。一个GEO仓库概念图解的顶层视图显示四个基本实体:提交者,平台,系列和样本
技术资料暂无技术资料 索取技术资料






