在作GSEA分析时,有时候我们会使用GEO数据库中的芯片数据,使用芯片数据分析就必须要有芯片注释文件,下面就跟大家分享如何将GEO数据库中的注释文件整理成GSEA软件可以使用的芯片注释文件。
下图是GSEA分析需要的芯片注释文件格式:
由上图我们可知,芯片注释文件需要三列,第一列是Probs Set ID(探针ID),第二列是Gene Symbol ,第三列是Gene Title ,还需要文件(文本文件)的后缀是*.chip,每行内容不能是空的,这些就是GSEA分析需要的芯片注释文件的特点。
下面是GEO数据库注释文件格式(是文本文件,由于是由tab分隔符分割所以可以用excel打开):
文件的前几行是注释信息,仔细看还是有很多信息的,这里就不详细说明了,这个文件的前三列就是我们需要的内容,只不过第二列是Gene Title ,第三列是Gene Symbol ,制作芯片注释文件时只需要复制前三列内容,第一步删除注释信息,第二步将第二列和第三列换一下前后顺序,修改第一列的列名改为Probs Set ID。
最后,这个GEO数据库注释文件有的探针没有对应的Gene Title和Gene Symbol ,内容就为空,但是芯片注释文件要求内容不能为空,所以我们就是用数据筛选不选择空的内容如下图所示。
按照下图红色箭头所示,选择数据筛选:
一般情况下如果是空值第二列和第三列情况一致(空都空,非空都非空),选择第二列筛选,取消空白出的对勾,点击确定,筛选非空数据,将筛选过的数据复制粘贴到一个新的文本中,保存即可,命名时后缀不要忘了是chip,这样在作芯片表达数据分析时就可以使用自己制作的芯片注释文件了。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!