NAR丨SEA version 4.0:超级增强子数据库重大升级,跨物种解析基因调控
2025-12-11 11:59点击次数:38
关键词:超级增强子(Super-Enhancer,SE)作为一类具有超强转录激活能力的顺式调控元件,近年来被认为是决定细胞命运与疾病发生的关键“调控枢纽”。但SE在不同物种、细胞类型和疾病状态下的系统性识别与功能注释仍是一个巨大挑战。

2025年10月31日,来自哈尔滨工业大学顾悦/张岩/的团队在《Nucleic Acids Research》上发表文章“SEA version 4.0: a major expansion and update of the Super-Enhancer Archive”,推出了更新的SEA 4.0版本,这是一个用于系统性搜索、注释、分析和可视化SE的综合交互式平台。该平台覆盖14个物种、54万+细胞类型、近50万个SE,是解码SE在发育和疾病中机制作用的不可或缺的资源。

关键升级与功能亮点
跨物种、多组学的超级增强子识别体系

SEA 4.0构建了一套标准化、可重复的计算流程,用于系统性地识别和注释SE。该版本最大的突破在于新增H3K4me1作为核心识别标志。传统上,SE的识别严重依赖H3K27ac等活性标记,但H3K4me1作为“预启动”或“预备”增强子的标志,能够有效识别那些尚未完全激活但具有调控潜能的区域。文章指出,整合H3K4me1可将SE的预测准确性提升27.3%。该流程整合了来自ENCODE、GEO等公共数据库截至2024年12月的海量数据,使用Bowtie2进行序列比对,MACS2进行峰检测,并采用ROSE算法将相距在12.5 kb以内的相邻增强子“缝合”成潜在的SE。为了确保结果的可靠性,流程中严格排除了转录起始位点±2.5 kb范围内的区域,并过滤掉长度小于1 kb的候选SE,此举有效消除了89%的非功能性染色质环干扰,将假阳性识别率较SEA 3.0降低了41%。
SE活性元素评分系统:量化调控强度

为更精确地衡量SE的调控强度,SEA 4.0创新性地提出了“SE活性元素” 的概念及其量化评分算法。一个SE活性元素被定义为一个包含组成型增强子、染色质可及性区域和转录因子结合位点的完整功能基因组单元。其最终得分(scoreAE)并非单一信号,而是三个核心基因组特征的加权整合:
-
组成型增强子信号:计算每个增强子区域的标准化峰值信号,并按其有效长度占整个SE长度的比例进行加权。
-
染色质可及性信号:整合来自23个人体组织的56个ATAC-seq数据集,同样按可及性区域的有效长度进行加权。
-
转录因子结合富集:汇总SE区域内所有TFBS的富集分数,乘以位点数量,并进行长度归一化。
基于Shannon熵的SE特异性分析:精准定位细胞身份开关
SE的核心特性之一是其高度的细胞类型特异性。SEA 4.0在v3.0的基础上,优化了基于Shannon熵的算法来量化这种特异性。其原理是:一个在多种细胞中均活跃的“通用型”SE,其活性分布均匀,熵值较高(接近log₂(n));而一个仅在特定细胞中活跃的“特异性”SE,其活性高度集中,熵值接近于0。SEA 4.0的关键改进在于引入了归一化程序,以消除SE长度巨大差异所带来的偏差。算法首先计算每个基因组区域的归一化信号(即其组蛋白修饰峰值信号按其有效长度比例加权之和),再基于此归一化值计算跨细胞系的Shannon熵。
交互式调控网络与肿瘤特异性SE检测器:从静态数据到动态分析
SEA 4.0超越了静态数据仓库的定位,提供了两大动态分析工具:

交互式调控网络:用户输入一个基因、转录因子或SE的标识符,工具即可在人类或小鼠中构建一个一阶邻居交互网络。该网络以图形化方式动态展示查询实体与相关联的增强子、SE和TF之间的连接。点击网络中任一节点,可实时展开其直接互作对象,支持用户深入探索调控子网络,所有数据均可导出。

肿瘤特异性SE检测器:该工具专为癌症研究设计,整合了来自12种癌症类型及其正常对照的scRNA-seq数据,涵盖超40万个单细胞。利用Seurat和Harmony进行细胞聚类与批次效应校正,通过SingleR进行细胞类型注释,最终通过比对细胞类型特异性标记基因与已知SE相关基因集,来锁定肿瘤内特定细胞亚群(如癌细胞、免疫细胞)特有的SE,并通过t-SNE/UMAP图和小提琴图进行可视化。
多功能注释模块:从CRISPR靶点到异染色质区域

SEA Browser支持多轨道基因组数据叠加浏览,包括:DNA甲基化、Hi-C三维互作、染色质可及性、调控元件、SpCas9靶点等信息,用户可对任一SE进行GO/KEGG富集分析、转录因子结合富集分析、特异性评分计算等。
SEA version 4.0的发布,标志着超级增强子研究从“注释型数据库”向“功能型分析平台”的跨越。其跨物种、多组学、交互式、单细胞分辨率的设计理念,为解析SE在发育、分化与疾病中的动态调控提供了系统性工具。未来,团队计划进一步整合空间转录组与单细胞表观组数据,构建更高精度的细胞水平SE活动图谱,持续推动基因调控机制的解析。

本周
本月
本年
LetPub发布最新SCI影响因子查询及期刊投稿分析系统
ELISpot试剂盒限时特惠!一口价低至500元,加赠免费读板服务
草甘膦(glyphosate)酶联免疫分析(ELISA)试剂盒使用说明书
应用gentleMACS™灌流技术从脂肪肝小鼠模型高效分离肝细胞与非实质细胞
单个细胞也能提取核酸?超全干货教你微量样本发高分(含完整电子版宝典资料))
链脲佐菌素 (Streptozotocin,STZ)-糖尿病动物模型造模
LetPub完整SCI影响因子、期刊分区查询系统
研究思路 | 多组学专题——如何进行转录组+蛋白组关联分析?
Elabscience® 从原料到标记,打造属于中国自己的流式抗体品牌
淋巴细胞百分比偏低原因解析
- 促销公告
- 更多 ›


