3’UTR序列获取目的:用于批量miRNAs靶基因预测
首先用到的R包是biomaRt
安装过程
BiocManager::install("biomaRt")
library(biomaRt)
接下来需要安装某个物种的基因注释文件:以斑马鱼为例,此处可根据研究的物种调整安装包
BiocManager::install("org.Hs.eg.db")
library(org.Hs.eg.db)
链接到数据库
ensembl=useMart("ENSEMBL_MART_ENSEMBL")
看数据库里面有多少数据表,然后选择所研究物种的数据表进行下一步操作。
all_datasets <- listDatasets(ensembl)
view(all_datasets)#此处根据名称选择了斑马鱼的数据表“hsapiens_gene_ensembl”
选择人基因数据库
ensembl = useMart("ensembl", dataset = "hsapiens_gene_ensembl")
获得所有基因转录本ID,此处同样需要根据物种调整。
ensembl_ID <- toTable(org.Hs.egENSEMBLTRANS) #获得所有基因转录本ID
获得3’UTR序列文件
utr <- getSequence(id=ensembl_ID$trans_id, type="ensembl_transcript_id", seqType='3utr', mart=ensembl)
#需要注意type参数录入错误会报错,由于mart为ensemble ID,所有type同样为ensemble ID。
#type名称通过listFilters(ensembl)查找
获得3’UTR序列的.fa文件
outfile <- file("hsa-3utr.fa", "w")
for (i in 1:nrow(utr)) {
h = paste(c(">", utr[i,2]), collapse="")
writeLines(h, outfile)
writeLines(utr[i,1], outfile)
}
close(outfile)