Posted on

GEO数据库是集成与NCBI下的两个子集,分别有GEO datasets 和GEO Profiles两种。
那么我们在本文中就介绍一下这两个数据库分别是什么吧。本文以文献综述的形式向大家介绍一下GEO Profiles。

GEO Profiles数据库存储源自GEO DataSets (样本集)的基因表达谱。每个文件都显示为一个图表,显示某一特定的样本集中所有样本中一个基因的表达水平。在图表底部的条形图中提供了实验背景,使得可以一眼看出基因是否在不同的实验条件下差异表达。文件还具有各种类型的链接,包括相似基因的链接,以及指向其他NCBI数据库中相关记录的链接。a:通过在此框中输入关键字或搜索语句来确定目标GEO文件(可以在搜索中使用各种术语,包括基因名称,基因符号,GenBank号和不同研究条件)。

b:NCBI基因,Nucleotide数据库中列出的基因名;以及补充了实验的环境

c:基因注释:NCBI基因,UniGene或Nucleotide数据库中列出的基因符号,全名和别名

d:数据的记录平台

e:数据集的类别:包括实验的形式,样本数等等

f:每个图表显示数据集中所有样本中一个基因的表达水平


单击缩略图将放大图表以显示完整的信息,表达式值以及反映实验设计的数据集各个样本表达。每个图表显示数据集中所有样本中一个基因的表达水平。

a:数据集的总结,包括名称,研究过程和方法。
b:红色柱子表示一个原始提交者提供的样本记录的VALUE列中提取的表达度数。蓝色方块:表示表达式测量的等级顺序。
C:图表底部的条形表示样本集中的各个样本,可以包含一个或多个样本。每个样本都有一个类型。
D:包括了样本名,具体研究方法,检验结果已经具体的表达数值。

好的,那GEO Profiles 就到这里啦,下次我讲给你们带来GEO datasets的介绍。

参考文献:

  1. Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO: archive for functional genomics data sets–update. Nucleic Acids Res. 2013;41(Database issue):D991–D995. doi:10.1093/nar/gks1193
  2. Wilhite SE, Barrett T. Strategies to explore functional genomics data sets in NCBI’s GEO database. Methods Mol Biol. 2012;802:41–53. doi:10.1007/978-1-61779-400-1_3

另外,进哥也用R语言写了一个小程序,爬虫GEO Profiles,并进行初步差异分析,其中两组采用T检验,多组采用单因素方差分析。差异分析初步选择数据。代码用到selenium和phantomjs,没法部署到shinyapp服务器。自己用吧,感兴趣的可以找进哥索取,代码可能略粗糙。

发表评论

邮箱地址不会被公开。 必填项已用*标注