基于单基因批量相关性分析的GSEA

2020-11-082023-09-03

有这样的使用场景么？

1.已经确定研究的基因，但是想探索他潜在的功能，可以通过跟这个基因表达最相关的基因来反推他的功能，这种方法在英语中称为guilt of association，协同犯罪。
2.我们的注释方法依赖于TCGA大样本，既然他可以注释基因，那么任何跟肿瘤相关的基因都可以被注释，包括长链非编码RNA。

GSEA需要的gene set是现成的没有问题，但是genelist没有，这里我们可以把所有基因跟单个基因的相关性系数当做LogFC，有正有负，就解决了geneList的问题。这个想法不是我的，是我的一个学员的，不过他要解决的是microRNA把基因的问题。

下面来实战一下：

1.首先加载数据

这个数据是我下载了TPM数据，然后提取出乳腺癌的数据得来的。

load(file = 'BRCA_mRNA_exprSet.Rdata')
exprSet <- mRNA_exprSet
test <- exprSet[1:10,1:10]

2.写一个函数批量计算相关性

这个函数只要输入一个基因，他就会批量计算这个基因跟其他编码基因的相关

性，返回相关性系数和p值。

###对于有缺失值的基因，有效样本小于4会报错
batch_cor <- function(gene){
  y <- as.numeric(exprSet[gene,])
  rownames <- rownames(exprSet)
  do.call(rbind,future_lapply(rownames, function(x){
    dd  <- cor.test(as.numeric(exprSet[x,]),y,type='spearman')
    data.frame(gene=gene,mRNAs=x,cor=dd$estimate,p.value=dd$p.value )
  }))
}
###这是修改的代码  加一个判断   样本量<10的就不要了吧
batch_cor <- function(gene){
  rownames <- rownames(exprSet)
  do.call(rbind,future_lapply(rownames, function(x){
    xy <- exprSet[c(gene,x),]
    xy <- t(xy) %>% na.omit() %>% as.data.frame()
    if (nrow(xy)>10){
      dd  <- cor.test(as.numeric(xy[,1]),as.numeric(xy[,2]),type='spearman')
      data.frame(gene=gene,mRNAs=x,cor=dd$estimate,p.value=dd$p.value )
    }

  }))
}

3.并行化运行函数

以PCDC1这个基因为例

library(future.apply)
plan(multiprocess)
system.time(dd <- batch_cor('PDCD1'))

这是返回的结果

http://image109.360doc.com/DownloadImg/2019/07/2011/166454437_2_20190720111805175

4.制作genelist

gene <- dd$mRNAs## 转换
library(clusterProfiler)
gene = bitr(gene, fromType='SYMBOL', toType='ENTREZID', OrgDb='org.Hs.eg.db')## 去重
gene <- dplyr::distinct(gene,SYMBOL,.keep_all=TRUE)
gene_df <- data.frame(logFC=dd$cor,
                      SYMBOL = dd$mRNAs)
gene_df <- merge(gene_df,gene,by='SYMBOL')
## geneList 三部曲
## 1.获取基因logFC
geneList <- gene_df$logFC
## 2.命名
names(geneList) = gene_df$ENTREZID
## 3.排序很重要
geneList = sort(geneList, decreasing = TRUE)

5.运行GSEA分析

从GESA(https://www.gsea-msigdb.org/gsea/downloads.jsp)的官网上，下载一个gmt文件

library(clusterProfiler)
## 读入hallmarks gene set，从哪来？
hallmarks <- read.gmt('h.all.v6.2.entrez.gmt')
# 需要网络
y <- GSEA(geneList,TERM2GENE =hallmarks)

作图看整体分布

### 看整体分布library(ggplot2)
dotplot(y,showCategory=12,split='.sign')+facet_grid(~.sign)

本次结果中全是激活的

6.特定通路作图

yd <- data.frame(y)

library(enrichplot)
gseaplot2(y,'HALLMARK_INTERFERON_ALPHA_RESPONSE',color = 'red',pvalue_table = T)

PCDC1跟阿拉法干扰素正相关，这个事情没什么好说的吧。

如需要批量进行几个基因的分析，可以包进一个函数会更方便。

好了，我们又掌握了一个特别强悍，实用的技能。我是进哥哥，有问题随时留言讨论。

##对于多个通路绘制在一起：：：
pathway=c("KEGG_ENDOCYTOSIS","KEGG_MAPK_SIGNALING_PATHWAY")
gseaplot2(y,pathway,color = c('red',"blue"),pvalue_table = F)

打赏赞(16)

By 进哥哥

Tags: GSEA, R语言

28 Replies to “基于单基因批量相关性分析的GSEA”

淘米说道：

2023-10-08 14:56

基于相关性分析进行GSEA是否有文献参考呢我查了没查到不知道是不是在方法里写清楚就行？

回复
1. 进哥哥说道：
  
  2023-10-15 14:21
  
  写清楚方法吧，这个常规做法，按照相关性系数作为权重进行GSEA
  
  回复
生信菜鸟说道：

2023-09-04 06:07

不太能够理解，以示例图为例子的话，这种方法是说明相关度高的基因在该通路中起贡献作用，相关度低的基因起抑制作用，从而推测该基因与贡献相关，这种方法也可以应用于go富集分析么，

回复
1. 进哥哥说道：
  
  2023-09-04 17:02
  
  这个方法并不能说明activate还是inhibit作用，只能表示对该通路的贡献。无非就是得到一个按照特定权重排序的基因集，这里是相关性系数，差异分析是logFC
  其他分析也一样，GO、Cluster等等
  
  回复
  1. 生信菜鸟说道：
    
    2023-09-04 21:42
    
    好的好的，感谢解惑
    
    回复
  2. 淘米说道：
    
    2023-10-08 14:55
    
    基于相关性分析进行GSEA是否有文献参考呢我查了没查到不知道是不是在方法里写清楚就行？
    
    回复
何说道：

2023-03-06 18:00

您好，请问TPM数据是只需要肿瘤患者的数据还是要肿瘤+正常患者的数据呢？

回复
1. 进哥哥说道：
  
  2023-03-07 12:24
  
  因为基于相关性分析嘛其实加上正常组织未尝不可，你方法中写清楚就好
  
  回复
  1. 何说道：
    
    2023-03-07 21:49
    
    好的！谢谢！
    
    回复
何说道：

2023-02-17 18:07

您好，请问为什么运行到system.time(dd <- batch_cor('PDCD1'))这一步就变得特别慢，甚至一个小时都不出结果？

回复
1. 进哥哥说道：
  
  2023-02-18 01:44
  
  你的数据很大？还是电脑配置不够？并行运行需要根据电脑配置修改一些参数，不然很卡很慢
  或者直接用for循环进行不并行处理
  
  回复
  1. 何说道：
    
    2023-02-18 12:02
    
    数据倒也不大以前一直可以运行的，最后用for循环解决啦！感谢！
    
    回复
求助说道：

2022-09-21 15:00

error in if(abs(max.ES)＞abs(min.ES)){：missing value where TRUE/FALSE needed，请问老师，这个是什么意思呢，最后的出图出不来。望老师帮帮我。

回复
1. 进哥哥说道：
  
  2022-09-21 15:16
  
  这样看不出来诶。。。确定你所要画的通路在富集结果里面吗并且拼写正确？可以加我微信具体讨论
  
  回复
  1. Weily Wei说道：
    
    2023-03-19 14:40
    
    我刚刚也留言碰到同样的问题找了GitHub也有人有相同疑问我在另一个帖子下面留言了 o(╥﹏╥)o
    
    回复
2. HMH说道：
  
  2022-11-08 17:39
  
  您好，本人也困于此问题，请问您于王博交流后，此问题如何处理的呢。烦请告知，多有打扰，谢谢～
  
  回复
  1. 进哥哥说道：
    
    2022-11-09 21:02
    
    加我微信吧得一步步运行看看什么问题
    
    回复
    1. 木木木说道：
      
      2023-02-01 17:19
      
      请问这个问题解决了吗，我也遇到了同样的问题
      
      回复
      1. 进哥哥说道：
        
        2023-02-03 20:48
        
        不清楚指的那个问题？都可以解决如果还没解决可以加我微信我看看
赵宇说道：

2022-07-06 23:10

您好，可以提供一下PTM吗？想试试

回复
1. 进哥哥说道：
  
  2022-07-07 08:12
  
  您好发给你数据太大，这个不一定需要TPM数据，只要是任意标准化的表达矩阵都可以，你可以从XENA上下载任意肿瘤的表达矩阵进行分析，你先试试有问题加我微信讨论
  
  回复
夲仐说道：

2022-07-03 18:25

在进哥的指导下，运行成功，再次感谢进哥！

回复
问题咨询说道：

2022-05-05 09:46

您好！非常感谢您提供便捷的学习资料。想问下您：我在运行“plan(multiprocess)；system.time(dd <- batch_cor('PDCD1'))”时，显示“ Error: ‘node$session_info$process$pid == pid’ is not TRUE ” ，这个问题应该怎么解决。谢谢

回复
1. 进哥哥说道：
  
  2022-05-05 21:33
  
  你好，这个得看你的数据，要不你加我微信详细讨论，我的简历最下面有微信
  
  回复
  1. 求助说道：
    
    2022-09-20 23:21
    
    请问要单基因的gsea图包含多条通路怎么做呢，谢谢！
    
    回复
    1. 进哥哥说道：
      
      2022-09-21 11:51
      
      哈哈，晚一点出个教程
      
      回复
    2. 进哥哥说道：
      
      2022-09-21 12:35
      
      对于clusterprofiler包的结果，直接绘制时添加多个通路即可，文中最后已补充请参考
      
      回复
      1. 求助说道：
        
        2022-09-23 13:47
        
        你好，王老师，多个通路的颜色没办法自己绘制，是不是要加个颜色的代码。

28 Replies to “基于单基因批量相关性分析的GSEA”

发表评论 取消回复

发表评论取消回复