Posted on

Motif:在生物学中是一个基于数据的数学统计模型,是一段序列也可以是一个结构,是特定的group的序列预测,对DNA来说可以定义为转录因子的结合位点;对蛋白质来说可以定义某个蛋白属于哪个给定的蛋白质家族。

Protein domains:domains是一种结构实体,在蛋白质结构中独立折叠和行驶功能的一部分。因此,蛋白质经常是这些结构域的不同的组合构建起来的。

因为之前跑的嫁接的motif不理想,于是今天重新call peaks,用HOMER跑了motif。写这篇推文的时候手上有师姐现成的DAP-Seq数据的结果,DAP是DNA水平,m6A是RNA水平上的修饰,所以再用MotifStack把T变成U做就好。但这不是今天的重点,这是HOMER跑出来的motif:

之前师兄用这个图的时候一直嫌弃HOMER跑出来的图很丑,我之前听说的大家使用其实还有问题,比如我们有时候找到的motif可能只需要其中的某一段,于是我们可以用MotifStack这个强大的motif绘制工具。假设这里的第一个motif是我们希望要的结果,首先对应的HOMER会提供给我们这个motif的文件信息,文件信息在HOMER结果中有对应的每个motif的文本文件,你也可以点开图片中的最后一列Motif File,大致长这样:

HOMER的官网对这个文本此有详细的解释说明,总的来说我们需要的信息只有下面像矩阵一样的信息,他对应的是在每个位置A/C/G/T的碱基比例。目前主流Motif的序列格式主要有JASPARMEMERAW PFM。此外JASPAR数据库 (http://jaspar.genereg.net/) 提供了转录因子与DNA结合位点motif最全面的公开数据,共收集了脊椎动物、植物、昆虫、线虫、真菌和尾索动物六大类不同类生物的数据。

JASPAR WEB

这里我随便挑了一个motif,其实这个红框标注的矩阵才是我们希望要的!所以我们把HOMER提供给我们的文本文件的第一行信息先删除,然后接下来读入处理后的文本,用以下的代码开始作图!
 1#install motifStack
 2if (!requireNamespace("BiocManager", quietly = TRUE))
 3  install.packages("BiocManager")
 4BiocManager::install("motifStack")
 5library(motifStack)
 6?motifStack
 7#rebild data format
 8motiffile <- read.table("/Users/hejieqiang/Desktop/motif1.motif")
 9names(motiffile) <- c("A","C","G","T")
10A <- motiffile[,1]
11C <- motiffile[,2]
12G <- motiffile[,3]
13T <- motiffile[,4]
14data <- rbind(A,C,G,T)
15pcm <- data[,1:ncol(data)]
16#plot
17rownames(pcm) <- c("A","C","G","T")
18motif <- new("pcm", mat=as.matrix(pcm), name="bin_SOLEXA")
19opar<-par(mfrow=c(4,1))
20par(opar)
21plot(motif)
当然这里我遇到了一个超级大的阻碍,就是在最后一步Mac上出现了报错:

其实报错解决的办法很简单brew install ghostscript,但是你真的不知道homebrew有多慢?;因为brew install基于git,github在国外的网络,所以这个断断续续的搞了一个多小时;之后安装完我直接试了plot(motif),结果这时候又报错了,网络上是这样说的:

This error can occur in Rstudio simply because your “Plots” pane is just barely too small. Try zooming your “Files, Plots, Packages, Help, Viewer” and see if it helps! If you get this message in RStudio, clicking the ‘broomstick’ figure “Clear All Plots” in Plots tab and trying plot() again may work.

于是在最终plot(motif)前加了一串命令par(opar),在运行就有结果了!

当然这个R包能做的事情远不止如此,比如这是在2016年Cell上的一篇名为“Cistrome and Epicistrome Features Shape the Regulatory DNA Landscape”的文章motif作图。

虽然晚点了,

但是看到朋友圈秀恩爱的和领结婚证的

祝幸福久久!

发表评论

邮箱地址不会被公开。 必填项已用*标注