两种方法来实现,你更喜欢哪一种? 方法一、有实验证据的推测 目前全世界已发表800多个TF在人和小鼠里的14000多套ChIP-seq数据(详见CistromeMap用法),也就是说,这些转录因子结合到哪些位点,以及基因组的每个位置上有哪些TF结合,都已经有了ChIP-seq实验证据的支持。 只要查询已有的ChIP-seq数据,就可以知道基因组上某个位置结合了哪些TF。
方法二、基于DNA序列的预测 每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。 如果我感兴趣的DNA上有某个TF的motif,那么该TF就有可能结合这段DNA,从而调控下游基因表达。
方法一的优点是,这些TF跟DNA的结合是有in vivo实验证据的,缺点是,由于基因的转录调控有着组织特异性,做ChIP-seq的细胞类型和处理条件下不结合,在你关心的细胞类型或处理条件下不一定也不结合,有可能真就能结合呢!反之亦然。
方法二的缺点是,DNA序列上有TF对应的motif,in vitro凝胶阻滞实验也可能是阳性,但该TF在体内不一定真的就能过来结合,不过这起码提供了一条线索,让你有迹可循,看到了某个你感兴趣的TF的motif,就做个ChIP-qPCR验证一下吧!
下面我们介绍个工具,能够同时实现以上两种方法。
http://genome.ucsc.edu/ENCODE/
想见主角,请向下滚动鼠标,到Regulation,
一个track是Transcription Factor ChIP-seq Uniform Peaks from ENCODE/Analysis,即方法一的已有ChIP-seq实验证据的TF结合位点。可以看到大部分细胞里,TP53的promoter区都有CTCF和PolII的结合信号,另外,GM12878细胞里,有SP1的结合信号,胚胎干细胞H1里有NANOG的结合信号,白血病细胞系K562里有NFYA的结合信号,Hela-S3细胞系里有E2F1的结合信号等等,说明特定TF可能特异性的在这些细胞系里调控着TP53的转录。
另一个track是HMR Conserved transcription Factor Binding sites,即方法二的TF的motif。可以看到,在TP53的promoter区,有M2F1,STAT1,LMO2COM,GATA,GFI1,NFKAPPAB65,CREL,NFKB,M2F1,NMYC等转录因子的motfi。
再碎碎念一下:方法一虽然有实验证据,但毕竟UCSC genome browser里只列出了ENCODE做的那有限的119个TF和组蛋白修饰的ChIP-seq数据,如果刚好是119个以外的某个TF在我这里起到关键的调控作用,我不就看不到了吗,说好的800多个TF的14000套ChIP-seq数据呢,如何查看呢?这个小丫只能告诉你,找嘉因生物吧,他们能帮你解决这119个以外,800个TF以内的问题。
如果我感兴趣的TF是在那800个TF以外呢?还有方法二来帮你,所有已知motif的TF它都包含进来了,就需要你自己进一步的做实验验证了。 |