R语言获取所有基因3’UTR序列

3’UTR序列获取目的：用于批量miRNAs靶基因预测

首先用到的R包是biomaRt

安装过程

BiocManager::install("biomaRt")
library(biomaRt)

接下来需要安装某个物种的基因注释文件：以斑马鱼为例，此处可根据研究的物种调整安装包

BiocManager::install("org.Hs.eg.db")
library(org.Hs.eg.db)

链接到数据库

ensembl=useMart("ENSEMBL_MART_ENSEMBL")

看数据库里面有多少数据表，然后选择所研究物种的数据表进行下一步操作。

all_datasets <- listDatasets(ensembl)
view(all_datasets)#此处根据名称选择了斑马鱼的数据表“hsapiens_gene_ensembl”

选择人基因数据库

ensembl = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

获得所有基因转录本ID，此处同样需要根据物种调整。

ensembl_ID <-  toTable(org.Hs.egENSEMBLTRANS) #获得所有基因转录本ID

获得3’UTR序列文件

utr <- getSequence(id=ensembl_ID$trans_id, type="ensembl_transcript_id", seqType='3utr', mart=ensembl)
#需要注意type参数录入错误会报错，由于mart为ensemble ID，所有type同样为ensemble ID。
#type名称通过listFilters(ensembl)查找

获得3’UTR序列的.fa文件

outfile <- file("hsa-3utr.fa", "w")
for (i in 1:nrow(utr)) {
  h = paste(c(">", utr[i,2]), collapse="")
  writeLines(h, outfile)
  writeLines(utr[i,1], outfile)
}

close(outfile)

miRNA结合位点预测软件RNAhybrid的使用教程

RNA22预测miRNA靶基因

打赏赞(2)

3’UTR序列获取目的：用于批量miRNAs靶基因预测

发表评论 取消回复

发表评论取消回复