Posted on

大家常常在GEO数据库上下载数据,下载的是完整的所有基因的表达数据。而当我们只需要验证某个或某几个基因的表达量时,下载整个数据集就显得大材小用,费时费力,还不一定数据能用。其实,GEO数据库给大家提供了很好的一个单基因的检索平台: GEO Profiles

GEO Profiles数据库存储源自GEO DataSets (样本集)的基因表达谱。每个文件都显示为一个图表,显示某一特定的样本集中所有样本中一个基因的表达水平。在图表底部的条形图中提供了实验背景,使得可以一眼看出基因是否在不同的实验条件下差异表达。


B站视频演示如下:

1. 检索实操案例:

接下来以“(((lung cancer) AND GAPDH[Gene Symbol])) AND 50:500[Number of Samples]”为检索条件进行演示。可能有些萌新不明白这个检索什么意思或怎么写,暂不急,先看结果,结果讲解完来说说这个高级检索什么意思。

咱们继续,点击第一个结果的Bar plot,咱就可以看到数据明细了:

然后,需要统计分析的话,就可以copy🡪paste到excel。

是不是很简单,很快就可以得到GAPDH在这个数据集里面的表达。需要注意的时,这边检索的结果都是探针的值,比如上图探针是213453_x_at,其实这个数据集的GPL注释文件中GAPDH肯定会有其他的探针。对于芯片数据多个探针注释一个基因实在司空见惯,选择的时候还是要留意一下。

2. 高级检索字段解释:

(((lung cancer) AND GAPDH[Gene Symbol])) AND 50:500[Number of Samples]

其实可以简化为如下,因为都是并的关系,三个条件并列。

(lung cancer) AND GAPDH[Gene Symbol] AND 50:500[Number of Samples]

首先解释一下这个规则的逻辑顺序,其实应该也很好读懂:“lung cancer”没有限制,也就是在all field中检索,检索的基因名字是GPADH,然后是样本数目30:500。

这个规则可以不用自己输入,可以到Advance检索界面选择相应字段输入规则即可:

当然高级检索中还有更多字段可供选择,大家自行摸索。

https://pic4.zhimg.com/v2-5ae76933df29e7f9dc3a39d635a90d1b_r.jpg

在了解这些字段含义和AND、OR这些逻辑关系之后,可以实现更多功能的自定义检索。举个例子,肺癌数据集除了以lung caner作为标题,还经常写成lung carcinoma,我们只检索lung cancer就会丢信息,所以可以这么写:

((lung cancer) OR (lung carcinoma)) AND GAPDH[Gene Symbol] AND 50:500[Number of Samples]

结果较单独lung cancer多了十几篇。


留个思考,上述规则咱写成:(lung cancer) OR (lung carcinoma) AND GAPDH[Gene Symbol] AND 50:500[Number of Samples] 结果一样吗?答案是一样,为什么?

再变成:GAPDH[Gene Symbol] AND 50:500[Number of Samples] AND (lung cancer) OR (lung carcinoma) 还一样吗?这回就不一样了

再加个括号:GAPDH[Gene Symbol] AND 50:500[Number of Samples] AND ((lung cancer) OR (lung carcinoma))这回就和前面一样了,理解一下。其实就和使用R语言数据分析一样,理清楚逻辑关系。

2 Replies to “GEO Profiler——助力GEO数据分析”

发表评论

邮箱地址不会被公开。 必填项已用*标注