Posted on

我们经常从GEO数据库下载一些芯片数据,做数据挖掘。虽然现在测序已经很普遍并且价格也已经很便宜了,但是挖掘别人的芯片数据可是一分钱都不用花哦!但是芯片数据有个比较讨厌的地方就是,表达谱矩阵里面使用的都是芯片内部的一个探针ID号,你如果想知道这个探针到底对应哪个基因,你就需要对探针做注释。好在绝大多数GEO里面的芯片数据都提供配套的表达谱矩阵和探针注释文件。但是总有一些特立独行的奇葩,就要让你感到弱小无助。比如说Agilent-045997 Arraystar human lncRNA microarray V3 (Probe Name Version),这是一款Agilent提供的研究lncRNA的商用芯片(Agilent公司很多芯片注释数据都是一样的问题,比如GPL19072、GPL16956)。在GEO里面对应的注释文件如下:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956

https://pic1.zhimg.com/v2-628dffebc427783c234e88b1a7fa13dc_r.jpg

只有一个内部探针ID和探针序列,没有探针对应的基因名字。好不容易找到一套跟自己课题相关的数据,难道注定就这样擦肩而过。

当然不,今天进哥就来拯救你的课题。

library(devtools)
#安装注释探针的R包
install_github("jmzeng1314/AnnoProbe")
#加载AnnoProbe这个包
library(AnnoProbe)
#选择要注释的探针类型
gpl='GPL16956'
#得到探针对应的基因名字
probe2gene=idmap(gpl,type = 'pipe')
#展示前10条结果
head(probe2gene)

展示前10条结果

然后使用merge合并即可。

2 Replies to “GEO芯片注释文件没有基因名称,怎么办??”

  1. ERROR: dependency ‘DT’ is not available for package ‘AnnoProbe’
    * removing ‘D:/R/R-4.3.0/library/AnnoProbe’ 这是因为啥啊

发表评论

邮箱地址不会被公开。 必填项已用*标注