资讯

首页 > 业内资讯 > 企业动态

已知一段DNA序列，怎样找到哪些转录因子会跟它结合？

2017-06-19 12:22 点击次数：关键词：预测转录因子

两种方法来实现，你更喜欢哪一种？

方法一、有实验证据的推测

目前全世界已发表800多个TF在人和小鼠里的14000多套ChIP-seq数据（详见CistromeMap用法），也就是说，这些转录因子结合到哪些位点，以及基因组的每个位置上有哪些TF结合，都已经有了ChIP-seq实验证据的支持。

只要查询已有的ChIP-seq数据，就可以知道基因组上某个位置结合了哪些TF。

方法二、基于DNA序列的预测

每个转录因子都有一个DNA结合结构域（DBD），喜欢结合在特定DNA序列上，也就是motif。

如果我感兴趣的DNA上有某个TF的motif，那么该TF就有可能结合这段DNA，从而调控下游基因表达。

方法一的优点是，这些TF跟DNA的结合是有in vivo实验证据的，缺点是，由于基因的转录调控有着组织特异性，做ChIP-seq的细胞类型和处理条件下不结合，在你关心的细胞类型或处理条件下不一定也不结合，有可能真就能结合呢！反之亦然。

方法二的缺点是，DNA序列上有TF对应的motif，in vitro凝胶阻滞实验也可能是阳性，但该TF在体内不一定真的就能过来结合，不过这起码提供了一条线索，让你有迹可循，看到了某个你感兴趣的TF的motif，就做个ChIP-qPCR验证一下吧！

下面我们介绍个工具，能够同时实现以上两种方法。

http://genome.ucsc.edu/ENCODE/

点击左边那个Genome Browser，进入UCSC genome browser界面。这里有多行，俗称track，先是基因结构，然后依次是SNP位点、mRNA、EST、表观遗传修饰、保守性等等，怎么看，怎么用，跟本帖问题没大关系，以后再聊。

以TP53为例，在空白方框里输入基因名TP53（或者你感兴趣的那个基因名），zoom out处点击3x。

想见主角，请向下滚动鼠标，到Regulation，

在ENC TF binding site处，选择show，在TFBS conserved处，选择full，点击右上角的refresh。页面刷新后，就会出现2个新的track。

一个track是Transcription Factor ChIP-seq Uniform Peaks from ENCODE/Analysis，即方法一的已有ChIP-seq实验证据的TF结合位点。可以看到大部分细胞里，TP53的promoter区都有CTCF和PolII的结合信号，另外，GM12878细胞里，有SP1的结合信号，胚胎干细胞H1里有NANOG的结合信号，白血病细胞系K562里有NFYA的结合信号，Hela-S3细胞系里有E2F1的结合信号等等，说明特定TF可能特异性的在这些细胞系里调控着TP53的转录。

另一个track是HMR Conserved transcription Factor Binding sites，即方法二的TF的motif。可以看到，在TP53的promoter区，有M2F1，STAT1，LMO2COM，GATA，GFI1，NFKAPPAB65，CREL，NFKB，M2F1，NMYC等转录因子的motfi。

你感兴趣的TF在这里出现了吗？

再碎碎念一下：方法一虽然有实验证据，但毕竟UCSC genome browser里只列出了ENCODE做的那有限的119个TF和组蛋白修饰的ChIP-seq数据，如果刚好是119个以外的某个TF在我这里起到关键的调控作用，我不就看不到了吗，说好的800多个TF的14000套ChIP-seq数据呢，如何查看呢？这个小丫只能告诉你，找嘉因生物吧，他们能帮你解决这119个以外，800个TF以内的问题。

如果我感兴趣的TF是在那800个TF以外呢？还有方法二来帮你，所有已知motif的TF它都包含进来了，就需要你自己进一步的做实验验证了。