1、GEO数据库中 agilent表达谱芯片由与其设计往往比较个性化,涉及的芯片型号很多,使用的Cy5/Cy3的双色芯片 或者仅使用Cy3的单色芯片,数据上比较混乱,而GEO中提供的GPL信息文件格式和affymetrix 、illumina 的表达谱芯片对应的GPL格式差别较大,虽然格式整齐,并不完全规范(相对于直接利用GEOquery下载芯片注释文件而言)。
2、若直接下载标准化数据的同时,利用GEOquery下载对应的GPL芯片平台信息往往出现报错,或者提取信息过程中出现提取错误,这里针对 格式相对整齐统一的这种agilent表达谱芯片GPL信息 提供一种获取的方法,在进行芯片原始数据标准化的过程中直接获得其中的注释信息:探针和基因等对应关系。
3、此处仅以单通道芯片数据为例: 案例数据GSE83902 基于limma包读取数据,并进行预处理,标准化之后,获取的结果时一个EList对象,这个对象中包含了探针和基因之间的对应关系,先对芯片中重复的探针检测值取均值之后(https://www.omicsclass.com/article/629),获取的还是一个EList(此处用averEList向量表示取均值后的返回结果):
查看averEList 中对应的genes信息,这个矩阵中包括了每一列信息如下 涉及探针ProbeName 和GeneName以及描述信息,之后提取保存即可:
> colnames(averEList$genes)
[1] "Row" "Col" "Start" "Sequence" "ProbeUID"
[6] "ControlType" "ProbeName" "GeneName" "SystematicName" "Description"
> Probe=averEList$genes[,c("ProbeName","GeneName","SystematicName","Description")]
> head(Probe,5)
ProbeName GeneName SystematicName
1 GE_BrightCorner GE_BrightCorner GE_BrightCorner
2 DarkCorner DarkCorner DarkCorner
4 A_23_P117082 HEBP1 NM_015987
5 A_33_P3246448 KCNE4 NM_080671
6 A_33_P3318220 BPIFA3 NM_178466
Description
1
2
4 ref|Homo sapiens heme binding protein 1 (HEBP1), mRNA [NM_015987]
5 ref|Homo sapiens potassium voltage-gated channel, Isk-related family, member 4 (KCNE4), mRNA [NM_080671]
6 ref|Homo sapiens BPI fold containing family A, member 3 (BPIFA3), transcript variant 1, mRNA [NM_178466]
注意: 不同芯片获取的EList结果中可以EList$genes 获取的矩阵涉及的列名不一致,具体情况具体对待
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、perl入门到精通、perl语言高级、R语言入门、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、GEO芯片数据标准化、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!