agilent表达谱芯片注释信息提取

不规范的表达谱芯片注释信息提取

1、GEO数据库中  agilent表达谱芯片由与其设计往往比较个性化,涉及的芯片型号很多,使用的Cy5/Cy3的双色芯片 或者仅使用Cy3的单色芯片,数据上比较混乱,而GEO中提供的GPL信息文件格式和affymetrix  、illumina 的表达谱芯片对应的GPL格式差别较大,虽然格式整齐,并不完全规范(相对于直接利用GEOquery下载芯片注释文件而言)

2、若直接下载标准化数据的同时,利用GEOquery下载对应的GPL芯片平台信息往往出现报错,或者提取信息过程中出现提取错误,这里针对 格式相对整齐统一的这种agilent表达谱芯片GPL信息 提供一种获取的方法,在进行芯片原始数据标准化的过程中直接获得其中的注释信息:探针和基因等对应关系。

3、此处仅以单通道芯片数据为例: 案例数据GSE83902   基于limma包读取数据,并进行预处理,标准化之后,获取的结果时一个EList对象,这个对象中包含了探针和基因之间的对应关系,先对芯片中重复的探针检测值取均值之后(https://www.omicsclass.com/article/629),获取的还是一个EList(此处用averEList向量表示取均值后的返回结果):

查看averEList 中对应的genes信息,这个矩阵中包括了每一列信息如下 涉及探针ProbeName 和GeneName以及描述信息,之后提取保存即可

> colnames(averEList$genes)
 [1"Row"            "Col"            "Start"          "Sequence"       "ProbeUID"      
 [6"ControlType"    "ProbeName"      "GeneName"       "SystematicName" "Description"   
> Probe=averEList$genes[,c("ProbeName","GeneName","SystematicName","Description")]
> head(Probe,5)
        ProbeName        GeneName  SystematicName
1 GE_BrightCorner GE_BrightCorner GE_BrightCorner
2      DarkCorner      DarkCorner      DarkCorner
4    A_23_P117082           HEBP1       NM_015987
5   A_33_P3246448           KCNE4       NM_080671
6   A_33_P3318220          BPIFA3       NM_178466
                                                                                               Description
1                                                                                                         
2                                                                                                         
4                                        ref|Homo sapiens heme binding protein 1 (HEBP1), mRNA [NM_015987]
5 ref|Homo sapiens potassium voltage-gated channel, Isk-related family, member 4 (KCNE4), mRNA [NM_080671]
6 ref|Homo sapiens BPI fold containing family A, member 3 (BPIFA3), transcript variant 1, mRNA [NM_178466]



注意: 不同芯片获取的EList结果中可以EList$genes 获取的矩阵涉及的列名不一致,具体情况具体对待


相关课程:GEO芯片数据挖掘GEO芯片数据标准化


更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课:linux系统使用perl入门到精通perl语言高级R语言入门R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析GEO芯片数据挖掘GEO芯片数据标准化GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他,二代测序转录组数据自主分析NCBI数据上传二代测序数据解读


  • 发表于 2019-02-15 17:29
  • 阅读 ( 7913 )
  • 分类:R

0 条评论

请先 登录 后评论
Daitoue
Daitoue

167 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章