阿兹海默病(俗称老年痴呆症),是一种起病隐匿的进行性发展的神经系统退化性疾病。临床上以记忆障碍、失语、失用、失认等全面性痴呆表现为特征。该病症从首次被发现,至今已有一百多年的历史,其病因被认为是跟β淀粉样蛋白相关,这都已经写进了大学的教课书,但是最近神经领域权威杂志《Neuron》上的一篇大数据分析文章发现,其实老年痴呆很可能与病毒感染有关,这将完全颠覆我们的认知,同时这也突显了生物信息数据挖掘在生命医学中的重要性。下面我们来简单看看这篇文章是如何做的。
作者选取了944个大脑样本进行了分析,其中622个样本来自阿兹海默病患者,322个样本来自健康捐献者,分别从基因组,转录组,蛋白质组等不同的层面进行了研究。首先发现两组病人间的转录组有很大的差别,这是符合预期的,毕竟一组是病理样本,一组是正常样本。 之后作者将这种差别跟基因组上的变异位点相关联,再与病毒丰度进行了关联(Viral QTL),发现人疱疹病毒HHV-6A诱导老年痴呆症相关的APBB2,APPBP2,BIN1,BACE1,CLU,PICALM和PSEN1基因的表达,从而证明了老年痴呆症可能和病毒感染有关。
样本多: 本文中采集了包括健康人群和病人的944个大脑样本,这么多的样本,那是以前从未有过的规模。
数据量大:针对每个样本分别从基因组,转录组,蛋白质组,临床信息等方面进行了数据的采集,只有这样的大数据,才能挖掘出不同层面的相关性。
分析方法好:大的数据,进行关联研究,当然需要好的计算方法才能挖掘有价值的信息。
点子好: 最大的亮度应该是“能突破已有的生物学认识”,作者能跳出教科书上的生物学认识,将病因跟病毒感染进行关联,通过大数据分析进行验证,这是以前的科学家没有想到的
最近几年,生物大数据爆发,数据产生的速度远远快于数据分析挖掘的速度。目前NCBI的公开数据库SRA上积累了14P 的高通量数据,这些数据利用度极低,正静静地等待着被科研人员进一步挖掘。
数据和样本都是已经存在的,假如你有好的idea,那就快行动起来吧!挑战人类认知;冲破现有知识桎梏束缚;推动人类文明进步的重任非你莫属了!
假如你目前还不擅长利用大数据来进行科学研究,没关系!现在学习还来得及!目前组学大讲堂已经开设了多门数据挖掘课程,特别是针对TCGA数据库、GEO数据库、GSEA分析 等,录制了专门的数据挖掘教学视频,手把手教您利用大数据来实现的您的idea。
《GSEA富集分析》
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!