Posted on

3’UTR序列获取目的:用于批量miRNAs靶基因预测


首先用到的R包是biomaRt

安装过程

BiocManager::install("biomaRt")
library(biomaRt)

接下来需要安装某个物种的基因注释文件:以斑马鱼为例,此处可根据研究的物种调整安装包

BiocManager::install("org.Hs.eg.db")
library(org.Hs.eg.db)

链接到数据库

ensembl=useMart("ENSEMBL_MART_ENSEMBL")

看数据库里面有多少数据表,然后选择所研究物种的数据表进行下一步操作。

all_datasets <- listDatasets(ensembl)
view(all_datasets)#此处根据名称选择了斑马鱼的数据表“hsapiens_gene_ensembl”

选择人基因数据库

ensembl = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

获得所有基因转录本ID,此处同样需要根据物种调整。

ensembl_ID <-  toTable(org.Hs.egENSEMBLTRANS) #获得所有基因转录本ID

获得3’UTR序列文件

utr <- getSequence(id=ensembl_ID$trans_id, type="ensembl_transcript_id", seqType='3utr', mart=ensembl)
#需要注意type参数录入错误会报错,由于mart为ensemble ID,所有type同样为ensemble ID。
#type名称通过listFilters(ensembl)查找

获得3’UTR序列的.fa文件

outfile <- file("hsa-3utr.fa", "w")
for (i in 1:nrow(utr)) {
  h = paste(c(">", utr[i,2]), collapse="")
  writeLines(h, outfile)
  writeLines(utr[i,1], outfile)
}

close(outfile)

发表评论

邮箱地址不会被公开。 必填项已用*标注