GEO数据挖掘生物信息文章解读（拟南芥重金属）

GEO数据挖掘生物信息文章解读，动植物也可以发生信文章。

前面我们介绍了GEO数据挖掘的文章（更多见文末链接），大多数都为人类癌症相关的数据挖掘，其实GEO数据库中也有很多动植物相关的数据，也可以用于数据挖掘然后发表SCI论文，这里给大家介绍一篇利用GEO数据库当中的公开数据，挖掘拟南芥中与重金属响应相关基因的文章。
2019年发表在PeerJ杂志上，IF=2.353，虽然分数不高但是非常有借鉴意义。

1.数据来源

作者在GEO数据库当中找到了11组和重金属（As, Au, Cd, Pb and Cu）相关的基因芯片表达数据用于查找拟南芥当中与重金属响应相关的关键基因。

2.关键差异基因筛选分析

分别对这11组数据用limma包做差异表达分析，筛选条件为：corrected P-value < 0.05 and |log2FC| > 1。11组数据筛选了很多差异基因，这里就不再赘述分别是多少了。

查找共同的关键基因：作者用了一个RRA的分析方法用于查找11组数据中差异基因中关键的基因。该方法简单介绍：每个基因在每个实验中按照表达量进行秩次排序，如果不是关键基因理论上应该是随机排序，但是，如果一个基因在所有实验中排名都很高，则该基因差异表达的与重金属相关的可能性越大。根据这个筛选方法，作者共筛选到168 DEGs comprising 109 down-regulated and 59 up-regulated。其中差异表达最大的上调top20基因：AT3G46270, ATCSLB05, AT3G19030, COL9, BCAT4, ELF4,CYP83A1, AT1G76800, AT1G61740, CLE6, AT4G01440, AT1G72200, MOT1, AT5G52790,AT4G40070, AT4G25250, EXGE-A1, NR1, AT5G19970 and CYP735A2；下调top20基因：DIN2, WRKY75,AT4G15120, CYP81F2, AT1G73480, AT1G72900, PGPS1, AT5G06730, AT1G35910,CYP81D8, AT3G12320, ATERF6, AT1G12200, AT5G25450, AT4G28460, NILR1, HSP70,APRR9, Fes1A and AT3G02800。这些基因在不同数据中的表达热图如下：