新版TCGA表达mRNA/miRNA和临床数据下载及R语言整合代码

2022-07-162023-09-23

以肺腺癌数据（TCGA-LUAD）为例，为了用TCGA结直肠癌数据做分析，我们首先要先整理出该癌症的基因表达矩阵。（也有一些数据库提供整理好的TCGA癌症数据，如UCSC xena数据库对TCGA数据进行了整理，可直接下载表达矩阵和临床数据用于研究）

进入GDC data portal–>Respository栏目，勾选下面选项：（注意，TCGA更新后的Workflow Type一栏只有STAR – Counts，即将原来的HTSeq-Counts、HTSeq-FPKM、HTSeq-FPKM-UQ数据都放入了一个文件中）

C:\Users\JINWAN~1\AppData\Local\Temp\1657963917(1).png

C:\Users\JINWAN~1\AppData\Local\Temp\1657964003(1).png

对筛选到的文件，可一键全部添加到cart或手动添加到cart：

C:\Users\JINWAN~1\AppData\Local\Temp\1657964305(1).png

点击顶部Cart，进入下载界面，需要点击这三个地方下载临床数据(Clinical)、json文件（包括文件信息和样本barcode的关系)、表达文件(Download?Cart)。

C:\Users\JINWAN~1\AppData\Local\Temp\1657964371(1).png

手动解压临床数据文件和json文件，最终我们得到以下三个文件：

https://pic4.zhimg.com/80/v2-b8defa0cd3486f87abdb81e6691ea543_720w.jpg

到此为止我们下载好了所需数据然后进行数据整理，

C:\Users\JINWAN~1\AppData\Local\Temp\1657964859(1).png

Tips: 此处不需要将下载的tsv文件合并到一个文件夹中，如果合并了，会出现样本名称全部为NA

如果已合并，需要对应修改count_file_name <- sapply(count_file_name,function(x){x[2]})为count_file_name <- sapply(count_file_name,function(x){x[1]})

完整代码：

setwd("你的下载数据路径")
#install.packages("rjson")
library("rjson")
json <- jsonlite::fromJSON("metadata.cart.2022-04-18.json")
View(json)
#id <- json$associated_entities[[1]][,1]
sample_id <- sapply(json$associated_entities,function(x){x[,1]})
file_sample <- data.frame(sample_id,file_name=json$file_name)  

#获取gdc_download文件夹下的所有TSV表达文件的 路径+文件名
count_file <- list.files('gdc_download_20220418_090958.803273',pattern = '*.tsv',recursive = TRUE)
#在count_file中分割出文件名
count_file_name <- strsplit(count_file,split='/')
count_file_name <- sapply(count_file_name,function(x){x[2]})

matrix = data.frame(matrix(nrow=60660,ncol=0))
for (i in 1:length(count_file)){
  path = paste0('gdc_download_20220418_090958.803273//',count_file[i])
  data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
  colnames(data)<-data[2,]
  data <-data[-c(1:6),]
  data <- data[3]   #取出unstranded列（第3列），即count数据，对应其它数据
  colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
  matrix <- cbind(matrix,data)
}

write.csv(matrix,'COUNT_matrix.csv',row.names = TRUE)

设置Gene Symbol为列名

#------------------------------增加部分：设置Gene Symbol为列名的矩阵（前面得到的是Ensembl ID）------------------------------------------
path = paste0('gdc_download_20220418_090958.803273//',count_file[1])
data<- as.matrix(read.delim(path,fill = TRUE,header = FALSE,row.names = 1))
gene_name <-data[-c(1:6),1]
matrix0 <- cbind(gene_name,matrix)
#将gene_name列去除重复的基因，保留每个基因最大表达量结果
matrix0 <- aggregate( . ~ gene_name,data=matrix0, max)    
#将gene_name列设为行名
rownames(matrix0) <- matrix0[,1]
matrix0 <- matrix0[,-1]

分为normal和tumor矩阵

#------------------------------增加部分：分为normal和tumor矩阵--------------------------
sample <- colnames(matrix0)

normal <- c()
tumor <- c()

for (i in 1:length(sample)){
  if((substring(colnames(matrix0)[i],14,15)>10)){    #14、15位置大于10的为normal样本
    normal <- append(normal,sample[i])
  } else {
    tumor <- append(tumor,sample[i])
  }
}

tumor_matrix <- matrix0[,tumor]
normal_matrix <- matrix0[,normal]

#写入文件

临床数据整合

setwd("你的路径")
#install.packages("rjson")
library("rjson")
json <- jsonlite::fromJSON("metadata.cart.2022-04-18.json")
View(json)
entity_submitter_id <- sapply(json$associated_entities,function(x){x[,1]})
case_id <- sapply(json$associated_entities,function(x){x[,3]})
sample_case <- t(rbind(entity_submitter_id,case_id))

clinical <- read.delim('clinical.cart.2022-04-18\\clinical.tsv',header = T)
clinical <- as.data.frame(clinical[duplicated(clinical$case_id),])

clinical_matrix <- merge(sample_case,clinical,by="case_id",all.x=T)
clinical_matrix <- clinical_matrix[,-1]

miRNA数据整合

library("rjson")
json <- jsonlite::fromJSON("metadata.cart.2022-09-27.json")
View(json)
#id <- json$associated_entities[[1]][,1]
sample_id <- sapply(json$associated_entities,function(x){x[,1]})
file_sample <- data.frame(sample_id,file_name=json$file_name)  

#获取gdc_download文件夹下的所有miRNA表达文件的 路径+文件名
count_file <- list.files('gdc_download_20220927_150057.906231',pattern = '*quantification.txt',recursive = TRUE)
#在count_file中分割出文件名
count_file_name <- strsplit(count_file,split='/')
count_file_name <- sapply(count_file_name,function(x){x[2]})

matrix = data.frame(matrix(nrow=1881,ncol=0))
for (i in 1:length(count_file)){
  path = paste0('gdc_download_20220927_150057.906231//',count_file[i])
  data<- read.delim(path,fill = TRUE,header = T,row.names = 1)
  data <- data[1]   #取出count列（第1列），rpm列（第2列）
  colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
  matrix <- cbind(matrix,data)
}

小程序分享：TCGA mRNA/miRNA数据下载、合并、差异分析及可视化

新版TCGA突变maf数据下载整合及瀑布图绘制和TMB计算

打赏赞(148)

By 进哥哥

Tags: TCGA

169 Replies to “新版TCGA表达mRNA/miRNA和临床数据下载及R语言整合代码”

Seasons说道：

2023-08-13 22:01

王老师您好，非常抱歉打扰您，我在安装TCGAbiolinks包时，TCGAbiolinksGUI.data在安装时总是显示退出时值不为0，一般什么情况导致的，一般怎么解决？
R已经升级到最新版本了。而且在biocoductor上下载的TCGAbiolinksGUI.data.tar 在Rstudio里也装不上，同样显示退出时值不是0。该怎么办？非常感谢

回复
1. 进哥哥说道：
  
  2023-08-16 10:40
  
  额这可能是版本的原因，R语言安装包经常会遇到这个问题或者下载binary包，从binary进行安装，你搜一下试一下
  
  回复
圆圆说道：

2023-08-11 17:03

老师您好，我想知道得到的表达矩阵里边很多基因的表达量是0，我该怎么筛选呢？

回复
1. 进哥哥说道：
  
  2023-08-12 09:43
  
  你想将他们变成NA不去统计的话：data[data == 0] <- NA
  
  回复
  1. 圆圆说道：
    
    2023-08-14 08:57
    
    谢谢老师的回复！我是想把矩阵里边的表达量多数是0的基因去掉，但是我也不好确定是表达量0占比多少才删，如果是人为确定条件的话，我想把每一列基因对应的表达值只要是0的占比超过30%就去掉？可能得需要在前边的完整代码里补充一下
    
    回复
66ccff说道：

2023-07-09 14:12

进哥，请问你给出的代码中出现这个报错怎么解决
Error in data[-c(1:6), 1] : object of type ‘closure’ is not subsettable

回复
1. 进哥哥说道：
  
  2023-07-12 22:00
  
  你好，哪一步的？data[-c(1:6),]?不应该会有问题,还没解决的话加微信看看
  
  回复
zyy说道：

2023-06-22 14:38

进哥，如何加微信询问问题呢？

回复
1. 进哥哥说道：
  
  2023-06-25 10:04
  
  首页我的简历有电话，我直接发你也行18021308280
  
  回复
赵说道：

2023-04-02 17:25

老师您好，请问我倒数第二步一直报错，是为什么呢
In file(file, “rt”) :
cannot open file ‘gdc_download_20220418_090958.803273//0052ae83-7ae5-470a-a125-5cd94a9fa9e9/a6a6b9c6-9db7-42b3-a09f-770b7e126fbb.rna_seq.augmented_star_gene_counts.tsv’: No such file or directory

回复
1. 进哥哥说道：
  
  2023-04-03 11:36
  
  解决了吗路径设计有问题，还有问题加微信
  
  回复
  1. 赵说道：
    
    2023-04-04 00:42
    
    谢谢您已经解决了，有个其他的问题想要请教您，最近想找肿瘤耐药的临床样本感觉这个很少，请问您有什么数据库推荐的吗？
    
    回复
    1. 大号芥末酱说道：
      
      2023-07-22 22:25
      
      我也遇到了这个问题，请问是怎么解决的。谢谢！
      
      回复
      1. Icetea说道：
        
        2023-09-01 11:22
        
        请问问题解决了吗？我也遇到了这个问题
      2. 进哥哥说道：
        
        2023-09-04 17:11
        
        什么问题还没没解决的话可以进群讨论
        https://www.jingege.wang/jingle_science/
桥本说道：

2023-03-28 20:49

进哥，运行到4行的时候显示报了这个错误，请问是不是我的这个json文件有问题啊？跟电脑文件储存的路径会有关系吗？
> json <- jsonlite::fromJSON("metadata.cart.2023-03-28.json")
Error: lexical error: invalid char in json text.
metadata.cart.2023-03-28.json
(right here) ——^

回复
1. 进哥哥说道：
  
  2023-03-30 08:58
  
  搞定了吗？没搞定加微信发我文件看看
  
  回复
  1. 桥本说道：
    
    2023-03-30 09:59
    
    搞定了已经，还有一个问题进哥，gene symbol设为列名之后输出的文件是csv文件，我想接着往后运行差异分析，但是我看别的教程的up主他们的数据矩阵都是txt文件，这个后面应该怎么接着运行呢？
    
    回复
    1. 进哥哥说道：
      
      2023-03-30 17:08
      
      文件读取换成read.csv读入就可以
      
      回复
2. 脑瓜疼说道：
  
  2023-08-03 16:25
  
  咋解决的呀
  
  回复
Dr.说道：

2023-03-23 23:25

你好，我想请问下，gdc上下载的临床信息没有生存结局的数据（OS，DSS，DFI和PFI）等，那是去哪里下载，xena上的好像不是最新的。现在的情况是我用R包下载的临床数据却和xena上另外下载的生存信息匹配后有NA值，说明不是同个版本的？需要怎么找到最新的生存结局数据呢？

回复
1. 进哥哥说道：
  
  2023-03-27 10:20
  
  你好如果需要最新的可能需要自己计算了，参考数据原文：Liu J, Lichtenberg T, Hoadley KA, Poisson LM, Lazar AJ, Cherniack AD, Kovatich AJ, Benz CC, Levine DA, Lee AV, Omberg L, Wolf DM, Shriver CD, Thorsson V; Cancer Genome Atlas Research Network, Hu H. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 2018 Apr 5;173(2):400-416.e11. doi: 10.1016/j.cell.2018.02.052
  
  回复
hhh说道：

2023-03-14 11:45

老师我想问一下做cerna 下载rna-seq中可以提取mirna的表达量，那还用单独下载mirna的表达量吗？

回复
1. 进哥哥说道：
  
  2023-03-16 15:57
  
  当然，使用miRNA测序数据，转录组中应该只有部分不全的
  
  回复
优说道：

2023-02-17 19:12

王老师，想问修改了相同counts的文件名后，报错了
Error in type.convert.default(data[[i]], as.is = as.is[i], dec = dec, :
invalid multibyte string at ‘ci’
In addition: Warning messages:
1: In read.table(file = file, header = header, sep = sep, quote = quote, :
line 3 appears to contain embedded nulls
下一步该怎么解决

回复
优说道：

2023-02-17 19:08

Error in type.convert.default(data[[i]], as.is = as.is[i], dec = dec, :
invalid multibyte string at ‘ci’
In addition: Warning messages:
1: In read.table(file = file, header = header, sep = sep, quote = quote, :
line 3 appears to contain embedded nulls
2: In read.table(file = file, header = header, sep = sep, quote = quote, :
line 5 appears to contain embedded nulls
3: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
embedded nul(s) found in input
倒数第二步咋这样啦，

回复
1. 进哥哥说道：
  
  2023-02-18 01:41
  
  看不出来问题，要不加我微信，我明天有空远程看看？
  
  回复
Teen Liu说道：

2023-02-15 10:18

王老师，我有两个问题想请教
1、我是用TCGAbiolinks包下载的数据，但是中途有部分文件下载失败，请问要怎么查找下载失败的文件信息然后补充下载？
2、我在网站上下载json文件时，网站提示“GDC download service is currently experiencing issues”，请问这是我的问题还是网站的问题呢？

回复
1. Teen Liu说道：
  
  2023-02-15 11:04
  
  王老师，第一个问题已经解决，我发现只要文件储存地址设置一致，R包会只补充下载漏掉的文件
  
  回复
  1. 进哥哥说道：
    
    2023-02-15 16:31
    
    好的解决就好
    
    回复
2. 进哥哥说道：
  
  2023-02-15 16:33
  
  第二个问题看提示应该是网站问题你换个浏览器或者网络看看不行就过一段时间再试试
  
  回复
  1. Teen Liu说道：
    
    2023-02-15 16:35
    
    好的，谢谢老师，json文件除了官网还有别的什么途径下载吗
    
    回复
    1. 进哥哥说道：
      
      2023-02-15 16:47
      
      应该没有吧，这其实是一个样本名文件名对应的文件，需要和你的下载对应
      
      回复
飘飘说道：

2023-02-01 19:51

王老师，想请问一下，数据下载好了，但是在提取单基因差异表达分析后，出现null device 1，图片是ns，试了好几个基因结果都是一样，不知道是否是代码出了问题，能否出个教程？感谢！

回复
1. 进哥哥说道：
  
  2023-02-03 20:47
  
  请问解决了吗前两天忙刚刚看见，代码没有问题绘图保存出了问题确认你的图片保存路径是否正确？如果还有问题加我微信我看看
  
  回复
shuodada说道：

2023-01-13 22:15

我也遇到了相同的问题。。。。

回复
1. 进哥哥说道：
  
  2023-01-15 10:08
  
  什么问题解决了吗没有的话加微信讨论
  
  回复
萧念说道：

2022-11-09 18:51

王老师，想请教下如何在TCGA中下载结直肠癌的数据，是分别下载结肠癌的和直肠癌的数据，然后再进行合并吗。谢谢。

回复
1. 进哥哥说道：
  
  2022-11-09 20:56
  
  是的可以COAD 和READ分别下载进行合并或者直接两种全部加入到cart 按照同样方式提取合并即可
  
  回复
  1. 萧念说道：
    
    2022-11-09 23:44
    
    欧欧，那问下王老师，直接两种全部加入到 cart中，是不是直接点TCGA首页中Case by Major Primary Site 中的colorctal cancer,还是说需要通过输入TCGA-COAD AND TCGA-READ呢，谢谢
    
    回复
    1. 进哥哥说道：
      
      2022-11-10 09:40
      
      你先试一下按照单个检索之后分别加入cart 然后进入cart一起下载
      再有问题直接微信吧
      
      回复
      1. 萧念说道：
        
        2022-11-10 09:42
        
        好的，谢谢老师
丽丽子说道：

2022-11-01 20:52

进哥好，在第一个MATRIX运行后出现Error in file(file, “rt”) : cannot open the connection
In addition: Warning message:
In file(file, “rt”) :
cannot open file ‘gdc_download_20221030_023742.984354//NA’: No such file or directory
怎么处理？麻烦进哥了

回复
1. 进哥哥说道：
  
  2022-11-02 12:48
  
  你好，查看一下你的count_file_name 中的文件名是否存在非数据文件的，因为你这里出现了gdc_download_20221030_023742.984354//NA，这个NA，搞不定加微信
  
  回复
  1. 丽丽子说道：
    
    2022-11-02 17:01
    
    微信怎么加？
    
    回复
    1. 进哥哥说道：
      
      2022-11-03 09:42
      
      网站顶上我的简历里面有微信二维码我的简历也有手机号
      
      回复
2. 李二牛说道：
  
  2022-11-04 10:15
  
  请问你解决了吗？
  
  回复
  1. 进哥哥说道：
    
    2022-11-04 15:48
    
    你也是一样的问题吗？需要的话加我微信我看看
    
    回复
刘晨瑞说道：

2022-10-27 00:31

说错了，是没有列名，只有行（基因）名和COUNT数

回复
刘晨瑞说道：

2022-10-27 00:29

老师您好，我按照您的方法进行操作之后第一个matrix命令得到的矩阵没有行的名字，列的名字存在，这是什么问题啊？

回复
1. 进哥哥说道：
  
  2022-10-27 17:37
  
  你是不是把下载的tsv文件放到一个文件夹下了，如果是就会出现这样的问题，需要修改代码，把file_name<-....最后[2]变成[1]
  
  回复
2. 进哥哥说道：
  
  2022-10-27 17:45
  
  如果自己搞不定加我微信，给你看看
  
  回复
HU说道：

2022-10-17 19:22

请问这个报错什么意思，Error in order(list(“bce25281-502e-4599-9679-32dc8462ffb1”, “7fb03840-5153-4dc6-a302-5a89aa4e1fb6”, :
unimplemented type ‘list’ in ‘orderVector1’

回复
1. 进哥哥说道：
  
  2022-10-17 23:59
  
  目前具体我也看不出来，方便的话加我微信看看
  
  回复
  1. 熊昌优说道：
    
    2022-10-21 12:08
    
    您好请问这是为什么？一直说我Error in read.table(file = file, header = header, sep = sep, quote = quote, :
    ‘row.names’里不能有重复的名字
    
    setwd(“C:\Users\samsung\Desktop\rawdate1”)
    #install.packages(“rjson”)
    library(“rjson”)
    json <- jsonlite::fromJSON("metadata.cart.2022-10-20.json")
    View(json)
    #id <- json$associated_entities[[1]][,1]
    sample_id <- sapply(json$associated_entities,function(x){x[,1]})
    file_sample <- data.frame(sample_id,file_name=json$file_name)
    
    #获取gdc_download文件夹下的所有TSV表达文件的路径+文件名
    count_file <- list.files('rawdata',pattern = '*.txt',recursive = TRUE)
    #在count_file中分割出文件名
    count_file_name <- strsplit(count_file,split='/')
    count_file_name <- sapply(count_file_name,function(x){x[2]})
    
    matrix = data.frame(matrix(nrow=1714,ncol=0))
    for (i in 1:length(count_file)){
    path = paste0('rawdata//',count_file[i])
    data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
    colnames(data)<-data[2,]
    data <-data[-c(1:6),]
    data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
    colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
    matrix <- cbind(matrix,data)
    }
    
    write.csv(matrix,'COUNT_matrix.csv',row.names = TRUE)
    
    回复
    1. 进哥哥说道：
      
      2022-10-22 03:46
      
      你好你下载的什么数据？提示行名重复，也就是基因名称重复如果确实如此需要换一下数据读取策略
      
      回复
报错说道：

2022-10-08 12:21

R version 4.2.1 (2022-06-23 ucrt) — “Funny-Looking Kid”
Copyright (C) 2022 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type ‘license()’ or ‘licence()’ for distribution details.

R is a collaborative project with many contributors.
Type ‘contributors()’ for more information and
‘citation()’ on how to cite R or R packages in publications.

Type ‘demo()’ for some demos, ‘help()’ for on-line help, or
‘help.start()’ for an HTML browser interface to help.
Type ‘q()’ to quit R.

[Workspace loaded from ~/.RData]

> setwd(“D:\\BRCA”)
> #install.packages(“rjson”)
> library(“rjson”)
> json View(json)
> #id sample_id file_sample #获取gdc_download文件夹下的所有TSV表达文件的路径+文件名
> count_file #在count_file中分割出文件名
> count_file_name count_file_name matrix=data.frame(matrix(nrow=60660,ncol=0))
> for (i in 1:length(count_file)){
+ path = paste0(‘gdc_download_20221006_102846.585898//’,count_file[i])
+ data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
+ colnames(data)<-data[2,]
+ data <-data[-c(1:6),]
+ data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
+ colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
+ matrix View(matrix)

这个报错是什么意思啊

回复
1. 进哥哥说道：
  
  2022-10-09 09:47
  
  你好，需要看具体报错信息的，这样看不出来问题
  
  回复
  1. 报错说道：
    
    2022-10-09 13:45
    
    > setwd(“D:\\BRCA”)
    > #install.packages(“rjson”)
    > library(“rjson”)
    > json View(json)
    > #id sample_id file_sample #获取gdc_download文件夹下的所有TSV表达文件的路径+文件名
    > count_file #在count_file中分割出文件名
    > count_file_name count_file_name matrix=data.frame(matrix(nrow=60660,ncol=0))
    > for (i in 1:length(count_file)){
    + path = paste0(‘gdc_download_20221006_102846.585898//’,count_file[i])
    + data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
    + colnames(data)<-data[2,]
    + data <-data[-c(1:6),]
    + data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
    + colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
    + matrix View(matrix)
    
    回复
    1. 进哥哥说道：
      
      2022-10-09 23:47
      
      我的意思是报错信息就是运行代码之后的报错
      搞不定的话加我微信
      
      回复
  2. 报错说道：
    
    2022-10-09 13:48
    
    Error in data.frame(…, check.names = FALSE) :
    参数值意味着不同的行数: 60660, 51065
    
    回复
    1. 进哥哥说道：
      
      2022-10-09 23:46
      
      这样的话你需要把上面代码里的60660改成51065，你确认一下每个数据文件里行数是多少（R语言或者Excel打开查看）这个60660根据你的实际行数进行修改
      我不清楚你是不是下载的转录组测序数据，这个应该是60660，如果其它数据，按照我上面所说的修改60660成实际行数
      
      回复
      1. YUN说道：
        
        2022-10-23 11:54
        
        老师您好，我也遇到了这个报错我下载的是转录组数据，他报错：
        Error in data.frame(…, check.names = FALSE) :
        参数值意味着不同的行数: 60660, 29397
        于是我改成了29397；运行后又报错：
        data.frame(…, check.names = FALSE) :
        参数值意味着不同的行数:29397， 60660。
        请问这到底怎么回事呢?
        
        而且最后处理只有50个样本数，但是实际上是有1000+样本的，请问还有哪里需要改代码吗？运行的是您给的代码
      2. 进哥哥说道：
        
        2022-10-23 22:52
        
        您好得根据你的数据进行代码修改加我微信吧我远程给你看看
AA说道：

2022-10-07 23:59

老师你好，在做临床数据整合的时候最后两步报错
Error in sort.list(bx[m$xi]) :
‘x’ must be atomic for ‘sort.list’, method “shell” and “quick”
Have you called ‘sort’ on a list?
请问怎么解决呢？老师的代码给了莫大帮助，谢谢老师！

回复
1. 进哥哥说道：
  
  2022-10-09 10:00
  
  你好，这个临床数据整合代码有点多余其实用Excel就可以很快实现，可以用Excel打开tsv文件的，所有信息都在这个文件里。具体出错原因需要确定的话加我微信我看看你的数据
  
  回复
HH说道：

2022-10-03 13:12

还有就是nrow=60660，这个数字是随便写的还是咋确定呢？

回复
1. 进哥哥说道：
  
  2022-10-03 18:55
  
  这个数值是表达数据文件中的所有基因数目，转录组是60660，其它数据需要打开下载的任意一个文件看一下有几行
  
  回复
HH说道：

2022-10-03 10:51

你好进哥，设置列名的那个增加代码是单独运行还是要整合到完整代码里面使用呢？

回复
1. 进哥哥说道：
  
  2022-10-03 18:58
  
  你好，这个在吗是加在上面代码for循环中的，你先理解一下，不懂再问
  
  回复
柠檬树说道：

2022-09-27 22:33

进哥你好，我用这个临床代码提取后发现矩阵文件缺少了分级数据，然后看了一下clinical里面的内容发现没有grade项目，我该怎么解决

回复
1. 进哥哥说道：
  
  2022-09-28 09:33
  
  这种肿瘤是应该有grade数据是吧？没有的话就是没有了，还是你指的是stage
  
  回复
林雨丝说道：

2022-09-26 15:29

请问这要怎么办
> clinical <- read.delim("clinical.cart.2022-09-23\\clinical.tsv",header = TRUE)
Error in file(file, "rt") : cannot open the connection
In addition: Warning message:
In file(file, "rt") :
cannot open file 'clinical.cart.2022-09-23\clinical.tsv': No such file or directory

回复
1. 进哥哥说道：
  
  2022-09-26 16:42
  
  这个提示就是找不到你的文件，确认你的路径和文件名是否正确
  
  回复
  1. 林雨丝说道：
    
    2022-09-26 18:07
    
    现在又报另一个问题了Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
    line 1 did not have 159 elements
    
    回复
王烨说道：

2022-09-23 00:06

进哥，您哈，看了你的代码下载普通的临床信息没问题，但是想从官网下载整理用药信息您可以分享下方法吗？

回复
1. 进哥哥说道：
  
  2022-09-25 15:29
  
  您好，这个没有注意过不过我打开下载的tsv格式临床数据文件，在145列往后就是相关用药史和放化疗信息，不过我下载的几种肿瘤都是这些信息缺失，您看一下，不对我再看看
  
  回复
JC-Todd说道：

2022-09-18 23:13

> matrix = data.frame(matrix(nrow=60660,ncol=0))
> for (i in 1:length(count_file)){
+ path = paste0(‘gdc_download_20220918_132616.576012’,count_file[i])
+ data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
+ colnames(data)<-data[2,]
+ data <-data[-c(1:6),]
+ data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
+ colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
+ matrix <- cbind(matrix,data)
+ }
Error in file(file, "rt") : cannot open the connection
In addition: Warning message:
In file(file, "rt") :
cannot open file 'gdc_download_20220918_132616.5760120022cd20-f64f-4773-b9ff-a3de0b71b259/8d1641ea-7552-4d23-9298-094e0056386a.rna_seq.augmented_star_gene_counts.tsv': No such file or directory
您好，请问无法读取文件怎么解决呢？

回复
1. JC-Todd说道：
  
  2022-09-18 23:30
  
  路径和文件夹都是对的，把文件夹删了另一个文件夹也是同样的报错。matrix文件里是空的
  
  回复
  1. hopehhhhhh说道：
    
    2022-10-17 20:01
    
    我也是，请问下您是怎么解决的？
    
    回复
    1. 进哥哥说道：
      
      2022-10-17 22:13
      
      你好，这个原因多种，反正就是对应目录下没有数据，核对一下路径有没有问题不清楚加我微信，我的简历里面有
      
      回复
2. 进哥哥说道：
  
  2022-09-19 02:46
  
  你好加我微信吧上午给你看看
  
  回复
若若说道：

2022-09-18 15:19

老师，请问一下。matrix 60660 obs. Of 0 variables。为什么我的是0呀，而且matrix打开后是空白？

回复
1. 进哥哥说道：
  
  2022-09-19 02:47
  
  你好就这样我看不出问题方便的话加我微信给你看看
  
  回复
吴文松说道：

2022-09-18 15:08

请问临床数据的case id是啥

回复
1. 进哥哥说道：
  
  2022-09-19 02:50
  
  临床数据整合这个代码很多余 Excel其实就可以打开整理
  就这个case id 是指的每个患者的ID，TCGA-***-***-这个是样本编号，一个患者可能有癌旁组织和癌组织，而临床信息是一个患者对应一条差别在这儿
  
  回复
东畔说道：

2022-09-17 21:56

老师我换了这的代码跟之前一样只出来了一列数据，for后面改了1:150，metadata也跟评论里有一样问题的同学一样重新下过了，还是只有一列数据

回复
1. 进哥哥说道：
  
  2022-09-19 02:51
  
  诶这样说我看不出问题要不加我微信
  
  回复
海洋说道：

2022-09-14 21:49

博主您好，请问我运行到第四行的时候，提示这样的错误是什么意思呢？
> json <- jsonlite::fromJSON("metadata.cart.2022-09-14.json")
Error in loadNamespace(x) : 不存在叫‘jsonlite’这个名字的程辑包

回复
1. 进哥哥说道：
  
  2022-09-15 01:37
  
  您好需要安装一下这个包：install.packages(“jsonlite”)
  
  回复
嘿嘿说道：

2022-09-14 16:13

可以將
count_file_name <- sapply(count_file_name,function(x){x[2]})
的 function(x){x[2]} 改為 function(x){x[1]} 試試

回复
1. 进哥哥说道：
  
  2022-09-15 01:50
  
  目的是什么？2是文件名，1是文件夹名
  
  回复
  1. 嘿嘿说道：
    
    2022-09-15 07:48
    
    上面有朋友提到會顯示NA，這樣改改看即可
    
    回复
何尔萌说道：

2022-09-13 19:25

老师能不能出个从xena数据库下载的TCGA数据来分析差异基因与临床特征之间关系的教程呢？谢谢老师了！

回复
1. 进哥哥说道：
  
  2022-09-15 01:52
  
  这个分析比较简单，不需要R，excel就可以实现匹配和差异分析，你现在问题在哪一步
  
  回复
  1. 何尔萌说道：
    
    2022-09-16 21:45
    
    就是目的基因表达高低与肿瘤患者年龄、性别、分期等临床特征之间的关系，相当于一个基线资料表？我好像表达的不太清楚（哭/(ㄒoㄒ)/~~
    
    回复
  2. 何尔萌说道：
    
    2022-09-17 12:31
    
    https://www.zhihu.com/question/519669640
    就是这个知乎问题里面的这种分析要怎么做呢？求老师指导，谢谢~
    
    回复
    1. 进哥哥说道：
      
      2022-09-19 02:52
      
      这个分析不需要R 没有必要方便的话加我微信交流
      
      回复
Han Su说道：

2022-09-11 16:07

老师你好，按上述代码运行后生成的表格只有一列序号是为什么呢

回复
1. Han Su说道：
  
  2022-09-12 11:22
  
  解决啦，重新下载了一下metadata文件就好了，谢谢老师
  
  回复
  1. 进哥哥说道：
    
    2022-09-13 14:11
    
    不客气
    
    回复
李说道：

2022-09-09 00:10

你好，请问怎么样能把mRNA的数据单独提取出来呢？

回复
1. 进哥哥说道：
  
  2022-09-09 11:09
  
  第三列genetype，提取数据的时候加上data <- data[which(data$gene_type == "protein_coding"),] 即 data <- data[which(data$gene_type == "protein_coding"),] data <-data[-c(1:6),] data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
  
  回复
  1. 李说道：
    
    2022-09-09 17:39
    
    感谢！
    
    回复
  2. 李说道：
    
    2022-09-09 17:57
    
    我发现输入了这个data <- data[which(data$gene_type == "protein_coding"),]之后，好像就不需要 data <-data[-c(1:6),] 这一步了，前面6行也一并被筛选掉了~
    
    回复
  3. HH说道：
    
    2022-10-03 16:06
    
    这样要报错，说是参数值意味着不同的行数。。。
    
    回复
    1. 进哥哥说道：
      
      2022-10-03 19:06
      
      有可能你下载的数据里面有不是表达量的文件，方便的话加我微信讨论
      
      回复
      1. HH说道：
        
        2022-10-03 20:14
        
        下载的全是转录组表达量的数据，里面有mRNA和IncRNA的，用你提供的那一行代码筛选后mRNA数量是19962行，所以我试着把matrix = data.frame(matrix(nrow=60660,ncol=0))中的60660改成19962，就行了，而且data <-data[-c(1:6),]这一行也要删了，不然结果会少6行，进哥你看这样是否正确呢
白居说道：

2022-09-06 10:17

matrix = data.frame(matrix(nrow=60660,ncol=0))
for (i in 1:length(count_file)){
path = paste0(‘gdc_download_20220418_090958.803273//’,count_file[i])
data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
colnames(data)<-data[2,]
data <-data[-c(1:6),]
data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
matrix <- cbind(matrix,data)
}
您好，请问想提取fpkm数据，将for循环的第3列改为第7列后还是不能提取，还需要改动哪里呢？麻烦您了谢谢

回复
1. 进哥哥说道：
  
  2022-09-07 09:32
  
  不用的，你逐步运行到data <-data[-c(1:6),] 看一下data数据里面，确认一下数据以及FPKM第几列，不明白加我微信
  
  回复
李晓庄说道：

2022-09-05 19:16

我临床矩阵出来的数据是NA

回复
1. 进哥哥说道：
  
  2022-09-07 09:33
  
  你先确认metadata文件和clinic文件都是一种癌症类型，搞不定加微信讨论另外多说一句这个临床数据整合代码有点多余
  
  回复
李说道：

2022-09-02 09:15

我也遇到同样问题，count_file_name执行出来是NA。是什么原因呢？

回复
1. 进哥哥说道：
  
  2022-09-02 13:13
  
  那就是count_file没有读取到你的目标目录下的文件，先确认一下你的目录和文件夹名称，没问题的话加微信讨论
  
  回复
  1. 李说道：
    
    2022-09-06 09:09
    
    谢谢，是这个问题。已经解决
    
    回复
野野说道：

2022-09-02 08:33

您好，感谢您的分享！希望可以继续分享整理肿瘤突变数据的代码?

回复
1. 进哥哥说道：
  
  2022-09-02 12:57
  
  谢谢，好的后续有时间整理
  
  回复
jimmy说道：

2022-08-31 17:29

clinical <- as.data.frame(clinical[duplicated(clinical$case_id),]) #是不是应该为!duplicated() 来去除重复呢

回复
1. 进哥哥说道：
  
  2022-09-01 11:13
  
  准确来说是的应该为!duplicated() 实际上这个clinical整合的代码我觉得很多余
  
  回复
  1. jimmy说道：
    
    2022-09-01 14:40
    
    是的，用于数据分析后面我还是提取了生存时间、状态以及分期分级的信息。BTW，我看到好像很多肿瘤的Grade信息不再提供了。至少乳腺癌和肾细胞癌是这样的。
    
    回复
jimmy说道：

2022-08-31 14:37

你好博主在临床信息整理中。clinical <- as.data.frame(clinical[duplicated(clinical$case_id),]) 其中duplicate() 去重复是否应该为!duplicate()呢，只使用duplicate()是否是取了重复的值呢？

回复
1. 进哥哥说道：
  
  2022-09-01 11:14
  
  您好，下载的时候clinic信息都duplicate了，所以duplicate()和!duplicated() 的结果应该一样，准确说的话应该是!duplicated()
  
  回复
海狸先生说道：

2022-08-19 17:21

老师您好，我在合并时出现显示这种错误，老师您可以帮忙解答一下吗
clinical_matrix <- merge(sample_case,clinical,by="case_id",all.x=T)
Error in sort.list(bx[m$xi]) :
'x' must be atomic for 'sort.list', method "shell" and "quick"
Have you called 'sort' on a list?

回复
1. 进哥哥说道：
  
  2022-08-22 00:42
  
  您好这样我也不清楚，还没解决的话要不你加我微信，发我文件看一下
  
  回复
李玙说道：

2022-08-18 10:56

进哥哥，我是通过GDCquery分别下载了肿瘤和正常的表达矩阵，但是我发现两者直接基因数量有差异，肿瘤样本里可能第一行基因名有4万，而正常样本里只有3万多了，这是合理的吗？

回复
1. 进哥哥说道：
  
  2022-08-22 00:42
  
  您好，这个没有关系，你下载的第一列基因名应该是ensembl transcript ID吧，反正按照这一列合并就好。
  
  回复
王说道：

2022-08-17 12:03

王老师，您好，麻烦咨询下您，这个TCGA表达矩阵最后处理出来的是原始的count数据吗？还是fpkm？

回复
1. 进哥哥说道：
  
  2022-08-17 12:46
  
  您好都有，在一个文件里，您修改提取的列可以得到不同的数据，文中有介绍
  
  回复
龚智强说道：

2022-08-14 21:29

请教进哥哥，为什么形成的矩阵没有列名呢？

回复
1. 进哥哥说道：
  
  2022-08-14 22:19
  
  你好代码修改过吗？
  你把代码发我看看
  
  回复
  1. 龚智强说道：
    
    2022-08-23 16:11
    
    没有，
    setwd(“F:\\Bioresearch”)
    #install.packages(“rjson”)
    library(“rjson”)
    json <- jsonlite::fromJSON("metadata.cart.2022-08-12.json")
    View(json)
    #id <- json$associated_entities[[1]][,1]
    sample_id <- sapply(json$associated_entities,function(x){x[,1]})
    file_sample <- data.frame(sample_id,file_name=json$file_name)
    #View(file_sample)
    #View(sample_id)
    #在count_file中分割出文件名
    
    count_file <- list.files('F:\\Bioresearch\\files',pattern = '*.tsv',recursive = TRUE)
    count_file_name <- strsplit(count_file,split='/')
    count_file_name <- sapply(count_file_name,function(x){x[2]})
    
    count_file_name执行出来是NA
    
    回复
    1. 进哥哥说道：
      
      2022-08-24 01:42
      
      您方便的话直接加我微信我远程看一下 18021308280
      
      回复
海狸先生说道：

2022-08-10 10:50

你好临床数据整合部分运行到clinical <- read.csv("clinical.cart.2022-08-10\\clinical.tsv",header = T)
提示Error in file(file, "rt") : 无法打开链结
此外: Warning message:
In file(file, "rt") :
无法打开文件'clinical.cart.2022-08-10\clinical.tsv': No such file or directory
请问您这是什么原因呢

回复
1. 进哥哥说道：
  
  2022-08-10 12:32
  
  你好，检查一下对应目录下有没有clinical.tsv文件，是不是没有解压还是路径设置不对？不确定就改成绝对路径
  
  回复
# 差异分析检验 et说道：

2022-08-06 13:03

你好我在TCGA下载我想要的样本后，通过你的代码整理成矩阵然后还是通过你的代码绘制火山图啥的但是到 # 差异分析检验 et et <- exactTest(y)
Error in exactTest(y) :
At least one element of given pair is not a group.
Groups are: 0
这个需要怎么解决呢

回复
1. 进哥哥说道：
  
  2022-08-06 14:19
  
  应该是前面定义tumor normal没有成功，如果可以的话你自己看一下定义分组之后的结果，不行的话加我微信讨论18021308280
  
  回复
  1. # 差异分析检验 et说道：
    
    2022-08-06 14:49
    
    你好我用你的代码定义了分组发现分组normal 里面没有全在tumor组里面
    
    回复
    1. 进哥哥说道：
      
      2022-08-06 15:29
      
      那就是没有正常样本，可以结合gtex
      
      回复
石小果说道：

2022-08-05 15:07

你好，我想问一下，for (i in 1:10){
path = paste0(‘gdc_download_20220418_090958.803273//’,count_file[i])
data<- read.delim(path,fill = TRUE,header = FALSE,row.names = 1)
colnames(data)<-data[2,]
data <-data[-c(1:6),]
data <- data[3] #取出unstranded列（第3列），即count数据，对应其它数据
colnames(data) <- file_sample$sample_id[which(file_sample$file_name==count_file_name[i])]
matrix <- cbind(matrix,data)
}这一步之后，matrix没有列名是怎么回事呀？可以解答一下嘛？谢谢！

回复
1. 进哥哥说道：
  
  2022-08-07 00:58
  
  您好不好意思刚刚看到你的问题
  你已经把代码中对应文件路径改成你自己的吗？如果解决不了可以加我微信讨论
  
  回复
  1. 杨说道：
    
    2022-08-09 15:39
    
    你好，我也遇到同样的问题，想问一下你的联系方式可以吗
    
    回复
    1. 进哥哥说道：
      
      2022-08-10 08:21
      
      可以，网站上我的简历下面有微信和电话
      
      回复
  2. 石小果说道：
    
    2022-08-09 16:08
    
    路径是改为自己的，现在已经用其他的方法解决这个问题了，谢谢您
    
    回复
宋宋说道：

2022-08-02 15:13

感觉很详细但是过程中遇到了一些问题，进哥能不能帮忙解答一下呢？
count_file count_file
NULL
上面是一步一步来的这一步就变成这样了

回复
1. 进哥哥说道：
  
  2022-08-03 08:52
  
  你确认一下你的路径是否正确，然后这一步的结果count_file <- list.files('gdc_download_20220418_090958.803273',pattern = '*.tsv',recursive = TRUE)是什么？如果文件夹下有文件，就不应该null。
  
  回复
反馈说道：

2022-08-01 23:56

json <- jsonlite::fromJSON("metadata.cart.2022-08-01.json")
Error in parse_con(txt, bigint_as_char) :
parse error: object key and value must be separated by a colon (':')
[{ " ""data_format"": ""TSV"", " " ""access"":
(right here) ——^
求大佬指导下，谢谢了

回复
1. 进哥哥说道：
  
  2022-08-02 01:09
  
  看起来是你的json文件有问题，可以的话加我微信把文件发我或者直接发我邮箱jin.wang93@outlook.com
  
  回复
tian说道：

2022-07-18 20:52

进哥哥可以发一下新版突变数据整理的教程吗？

回复
1. 进哥哥说道：
  
  2022-07-19 11:19
  
  一样的哇，就是第二步选择突变数据，而不是转录组就好，后面的数据下载整合差不多，你先试试，不行再留言
  
  回复

完整代码：

临床数据整合

miRNA数据整合

169 Replies to “新版TCGA表达mRNA/miRNA和临床数据下载及R语言整合代码”

发表评论 取消回复

发表评论取消回复