GEO下载报错

利用"getGEO"来下载

GSE Matrix没有问题,但是在下载GPL的时候,存在问题。

> gset = getGEO(GSE, GSEMatrix =TRUE, AnnotGPL=TRUE,destdir=workdir)

Found 1 file(s)

GSE58919_series_matrix.txt.gz

Using locally cached version: E:/MSC,ossu-9.1/GSE58919_series_matrix.txt.gz

Parsed with column specification:

cols(

  .default = col_double(),

  ID_REF = col_integer()

)

See spec(...) for full column specifications.

File stored at: 

E:/MSC,ossu-9.1/GPL6244.annot.gz

Warning: 1 parsing failure.

row # A tibble: 1 x 5 col     row col   expected   actual     file         expected   <int> <chr> <chr>      <chr>      <chr>        actual 1 27258 NA    21 columns 17 columns literal data file # A tibble: 1 x 5


Warning messages:

1: In download.file(myurl, destfile, mode = mode, quiet = TRUE, method = getOption("download.file.method.GEOquery")) :

  downloaded length 6733824 != reported length 7193437

2: In rbind(names(probs), probs_f) :

  number of columns of result is not a multiple of vector length (arg 2)


对于报错内容,不是看的很明白,大神讲解下。主要想知道这样对后续的分析有什么影响。

下载的平台是

GPL6244

[HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]

我发现bioconductor上面有HuGene-1_0-st的R package,那样的会不会比GPL6244下载下来快点。没找到相关的说明。

请先 登录 后评论

1 个回答

鹅子

1、运行并未报错,是warning。

2、我根据你的GSE、GPL进行了下载,没有任何问题。

3、你需要查看下载之后的几个结果是否正常即可:exprSet、pData、fData,查看网站提供的GPL,格式并不规范,故在解析注释文件的时候可能存在问题,所以其中最可能会有问题的是fData。不过我的运行结果没有任何问题,能够正常提取entrez ID (gene ID),你需要运行后续步骤并提供结果才能知道。

4、注释文件GPL6244,以GEO提供的为准,毕竟和表达矩阵是配套提供的,若选择从bioconductor下载,先确认二者内容确实一致,即可。


attachments-2018-09-UI8RCIT15b8c920ce408f.jpg

请先 登录 后评论
  • 1 关注
  • 0 收藏,8615 浏览
  • belive 提出于 2018-09-02 16:39

相似问题