元码又一专利已经进入实质审查阶段,这个专利就是基因融合分析新方法—SEGF (Single-end Gene Fusion),相关文章也已于 7 月份发表在《Genes》杂志上。今天小编将为您简单介绍一下这一方法。 首先,什么是基因融合? 基因融合是由于染色体断裂和重排导致的两个基因融合在一起的现象,是结构变异的一种,在肿瘤发生中起着关键作用。许多基因融合被认为是诊断标记,例如,9 号和 22 号染色体的易位现象导致 BCR 和 ABL1 基因之间产生了融合,可作为慢性粒细胞白血病(CML)的诊断标记,该易位现象导致生成费城染色体,在 CML 发生率高达 90%[1]。
随着下一代测序 (NGS) 和目标区域捕获技术的发展与应用,对从高通量数据中精确分析出融合基因方法的需求越来越大。 那么目前的分析方法有哪些呢?SEGF 又是怎么个优秀法呢? 目前分析结构变异的方法主要包括以下四种: 1. De novo assembly:该方法是检测结构变异的最直接的方法,且不受 PCR 结果的影响,但是由于基因组中重复区域的影响,我们很难将 NGS 的短序列正确地组合起来。而且,全基因组测序价格昂贵,不是融合基因检测的最优选择。 图 2 De novo assembly 方法检测结构变异原理图 [3] 2. Read-depth:该方法假设比对到基因组上的序列深度符合泊松分布,然后用实际的序列深度分布来判断结构变异。Read-depth 方法适合检测缺失和重复区,缺点是受实验环节的扩增和测序偏向性影响较大,结果往往不是很准确。 图 3 基于 Read-depth 方法利用隐马尔可夫模型检测结构变异原理图 [4] 3. Read-pair:该方法利用 pair-end 的一对 reads 的中间空缺长度和序列方向特征进行检测。这种方法可以检测到大片段的插入、缺失、倒位、易位等结构变异,但受限于测序文库片段长度的偏差,同时,软件的参数设置对结果的影响也非常大。 图 4 Read-pair 方法检测结构变异原理图 [5] 4. Split-read:该方法是分割短序列的方法。当基因组发生某一段的缺失,或转录组的剪接后,在测序过程中,横跨缺失位点及剪接位点的 reads 比对到基因组时,一条 reads 被切成两段,匹配到不同的区域,这样的序列叫做 soft-clipped reads,这些 reads 对于鉴定染色体结构变异及外源序列整合具有重要作用,soft-clip 的位置往往包含结构性变异的断点之处。该方法主要用于检测缺失、插入、倒置、易位等,但是基因组上的重复序列对结果影响较大,且软件的参数设置需要慎重考虑。 图 5 Split-read 方法检测结构变异原理图 [6] To be, or not to be, that is the question. 鉴于以上方法的优缺点,不屈的元码人选择另辟蹊径,启发于 split-read 方法,从单端 DNA-Seq 数据出发,开发了 SEGF,一种全新的融合基因分析方法。该方法基于 Linux 平台使用 PERL 语言开发,以压缩形式的原始测序数据 (FASTQ.gz) 为输入,去除两端质量低的部分序列后,对两端高质量的 35bp (默认) 使用常用的比对方法 BLAST 和 SOAP 进行比对,结合严格的过滤参数来获得融合候选序列,并进行基因区间的注释。 图 6 SEGF 检测基因融合原理图 为了评估 SEGF 方法的可靠性,我们将两种比对方法和两种结构变异分析方法相结合,与 SEGF 进行比较。其中 BWA 是比对软件,其优势是速度快且准确度高,它有 ALN 和 MEM 两种比对方法,分别应用了全局比对和局部比对的算法、针对于短序列和长序列。FACTERA 和 CREST 则是业内结构变异分析的两个知名软件 [6-7]。 在利用五种方法分析来自标准品 (n = 22/23) 和临床样本 (n = 11/286) 的融合基因时,SEGF 展现了最高的灵敏度和准确性。而且与其他方法相比,SEGF 能够通过单端 NGS 测序数据检测复杂的基因融合类型,节省了一半的计算时间。 表 1 应用于标准品上的基因融合检测结果比较 表 2 应用于临床样本上的基因融合检测结果比较 综上,由于大多数融合基因在基因之间都有一个模糊的断点,因此需要大量的计算时间去确定这些断点,元码研发的 SEGF 只保留双端 35bp 的准确序列进行比对,是一种不需要处理复杂参数的简单方法,但同时也保证了结果的准确性和灵敏度,为挖掘融合基因提供了一种新颖且高效的方法。 参考资料: 1.Shah NP, Nicoll JM, Nagar B, et al. Multiple BCR-ABL kinase domain mutations confer polyclonal resistance to the tyrosine kinase inhibitor imatinib (STI571) in chronic phase and blast crisis chronic myeloid leukemia. CANCER CELL 2002;2:117-125 2.https://www.cancer.gov/publications/dictionaries/cancer-terms/def/bcr-abl-fusion-gene 3.Li Y, Zheng H, Luo R, et al. Structural variation in two human genomes mapped at single-nucleotide resolution by whole genome de novo assembly. NAT BIOTECHNOL 2011;29:723-730 4.Shen R, Ying K, Wang Z, Schnable PS. ALGORITHM FOR DNA COPY NUMBER VARIATION DETECTION WITH READ DEPTH AND PARAMORPHISM INFORMATION Rong Shen1, Kai Ying2, Zhengdao Wang1, Patrick S. Schnable3. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2016:869-873 5.Chen K, Wallis JW, McLellan MD, et al. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. NAT METHODS 2009;6:677-681 6.Newman AM, Bratman SV, Stehr H, et al. FACTERA: a practical method for the discovery of genomic rearrangements at breakpoint resolution. BIOINFORMATICS 2014;30:3390-3393 7.Wang J, Mullighan CG, Easton J, et al. CREST maps somatic structural variation in cancer genomes with base-pair resolution. NAT METHODS 2011;8:652-654 |