微生物生态(MicrobialEcology),又名环境微生物(Environmental Microbiology),是研究微生物之间及其与环境之间相互关系的学科。从生物角度,其研究对象主要有真核微生物(Eukaryotes,如原生生物、真菌等)、原核微生物(Prokaryotes,细菌和古菌)和病毒(Viruses)[1]。
随着高通量测序的发展,我们可以很容易地从环境中获得大量微生物marker基因序列,如原核的16S rDNA序列,真核的18S rDNA序列、ITS(ribosomalinternal transcribed spacer)序列等。拿到序列后,面临的一个重要问题就是:选择什么数据库进行比对才能得到较好的分类鉴定结果呢?其实针对每一类生物的主要marker序列都有相应的数据库以方便比对鉴定。今天卢瑟菌就和大家简单聊一下微生物生态研究中那些个常用的marker基因序列数据库。
rRNA基因数据库
1. RDP
简介:
RDP数据库全称“RibosomalDatabase Project”,该数据库提供质控、比对、注释的细菌、古菌16S rRNA基因和真菌28S rRNA基因序列。目前其数据库最新版本为RDP Release 11.5,于2016年9月30日更新。更新后的数据库包含3,356,809条比对、注释的原核16S rRNA基因序列和125,525条真菌28S rRNA基因序列。
RDP是目前较常用的rRNA基因高通量测序后作为比对、注释的参考数据库。此外,还可用于平时菌种鉴定时,对少量rRNA基因测序后的物种进行分类鉴定,此时主要用其Classifier功能(http://rdp.cme.msu.edu/classifier/classifier.jsp),可非常方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各水平相应的置信度。
主页:
http://rdp.cme.msu.edu/index.jsp
2. SILVA
简介:
SILVA一词起源于拉丁文silva(意为forest),它是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库,其数据库涵盖了原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)和大亚基rRNA基因序列(简称LSU,即23S和28SrRNA)。目前其最新数据库版本为SILVA SSU andLSU databases 128,更新时间为2016年9月29日,最新版本数据库包含的数据信息见下表1所示。
表1 SILVA SSU andLSU databases 128数据库基本参数信息
SSU参考序列 | SSU非冗余参考序列 | LSU总序列 | LSU参考序列 | |
版本 | 128 | 128 | 128 | 128 |
总序列 | 1,922,213 | 645,151 | 735,238 | 154,297 |
细菌 | 1,719,541 | 552,377 | 176,194 | 130,965 |
古菌 | 64,390 | 24,315 | 1528 | 1271 |
真核 | 140,020 | 68,996 | 557,769 | 22,105 |
可培养 | 36,747 | 36,747 | 24,664 | 8232 |
模式株 | 22,334 | 22,334 | 5809 | 4675 |
因为SILVA数据库更新比较及时,因此是目前rRNA基因高通量测序后最常选用的参考数据库之一。此外,与RDP类似,SILVA也可被用于平时菌种鉴定时,对少量rRNA基因测序后的物种进行分类鉴定,此时主要用其SINA Alignment Service功能(https://www.arb-silva.de/aligner/),可非常方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各分类水平相应的置信度。
主页:
https://www.arb-silva.de/
3. Greengenes
简介:
Greengenes是专门针对细菌、古菌16S rRNA基因的数据库,相比前面提到的RDP和SILVA数据库,该数据库更新速度较慢,目前更新停留在2013年5月更新的gg_13_5版本(可在该网址下载:http://greengenes.secondgenome.com/downloads/database/13_5),目前较常用于16S rRNA基因高通量测序后进行嵌合体去除的参比数据库。目前,比较火的一个分析——PICRUST,即根据16S rRNA高通量测序结果预测微生物群落功能的分析,也是基于gg_13_5数据库开发的,因此,想做PICRUST分析也必须依托Greengenes的gg_13_5数据库进行比对。
主页:http://greengenes.lbl.gov/
4. EzBioCloud
EzBioCloud是与Greengenes数据库类似,也是专门针对细菌、古菌16SrRNA基因的数据库,但其特点是以可培养的细菌、古菌16S rRNA基因序列为主。该数据库对与2016年10月1日进行了网站更新,其中最常用的功能是通过与该数据库比对,确定某16S rRNA基因序列对应物种在数据库中的近缘可培养/模式种,此时用到的是数据库的Identify功能(http://www.ezbiocloud.net/identify),网站要求应用该功能时需要先通过邮箱注册后方可使用。相比上面提到的RDP、SILVA和Greengenes来说,该数据库较少用于16S高通量测序后的参比数据库。
主页:
http://www.ezbiocloud.net/dashboard
5. PR2
简介:
PR2(ProtistRibosomal Reference database)数据库是专门针对真核微生物小亚基SSU rRNA(即18SrRNA)基因的数据库。该数据库主要由核编码的原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列。内含子和嵌合体序列已被去除。现PR2主页因技术故障无法登陆,但是数据库一直在更新,最新数据可在https://figshare.com/articles/PR2_rRNA_gene_database/3803709下载。
表3 PR2数据库(v.1)中在Super-Group物种分类水平上注释的18S rRNA基因序列数
6. PhytoREF
简介:
PhytoREF数据库是专门针对质体(plastid)中16SrRNA基因的数据库。所有陆地、淡水、海洋中的含质体生物16S rRNA基因序列都囊括在该数据库内,包括陆地植物、海洋和淡水大型和微型藻类等的质体。
主页:
http://phytoref.sb-roscoff.fr/(网友盐酸普鲁卡因修改)
7. PFR²
简介:
浮游有孔虫界(planktonic Foraminifera /Rhizaria)是一类在海洋中广泛存在的浮游原生生物,其在海洋碳循环中起重要作用,且其化石可用以生物年代地层和古气候重建。PFR2是专门针对浮游有孔虫界18SrRNA基因的数据库。目前更新版本为1.0,于2015年1月20日释放,包含3322条高质量的浮游有孔虫界18S rRNA基因序列。
主页:
http://pfr2.sb-roscoff.fr/
ITS序列数据库
1. UNITE
简介:
ITS(ribosomalinternal transcribed spacer核糖体基因内转录间隔区)是最常用的真菌鉴定及多样性检测的marker基因,UNITE数据库就是专门针对真菌ITS序列的数据库。UNITE常被用于ITS序列高通量测序后对真菌进行分类注释的比对数据库,目前数据库已经更新至版本7.1,更新时间为2016年11月20日,包含8180条高质量ITS参考序列,下载地址为:https://unite.ut.ee/repository.php。当然,UNITE网站也可对单挑ITS序列进行进行在线分类鉴定(https://unite.ut.ee/analysis.php)。
主页:
https://unite.ut.ee/
2. ITS2
简介:
位于真核生物5.8S和28S rRNA基因之间的ITS2基因常被用于鉴定真核微生物的marker序列。ITS2数据库就是专门针对真核微生物ITS2序列的数据库。
主页:
http://its2.bioapps.biozentrum.uni-wuerzburg.de/
功能基因数据库
FunGene
简介:
FunGene(Functional Gene)是RDP延伸的一个针对微生物功能基因序列的数据库。其按照功能分为抗生素抗性(Antibiotic resistances)、植物致病基因(Plant Pathogenicity)、生物地球化学循环(Biogeochemical cycles)、系统进化marker(Phylogenetic markers)、生物降解(Biodegradation)、金属循环(Metal Cycling)及其他(Other)等七类功能基因。每类都包含几到上百种功能marker基因,可被用于功能marker基因高通量测序后的比对及功能基因引物设计等。
主页:
http://fungene.cme.msu.edu/
上述只是几个比较常用的数据库,除此之外还有很多新出的,好用的数据库(当然还有我们的最爱NCBI Blast)
其实上面提到的每个数据库网站功能都很多样化,今天卢瑟菌只是比较简单地给大家介绍了一下微生物生态研究中常用的数据库有哪些,如果想知道具体每个数据库的强大功能以及使用方法,大家可以给我们留言喔。
参考文献
[1]https://en.wikipedia.org/wiki/Microbial_ecology#cite_note-BartonNorthup2011-2
[2]Cole J R, Wang Q, Fish J A, et al. Ribosomal Database Project: data andtools for high throughput rRNA analysis[J]. Nucleic acids research, 2013:gkt1244.
[3]Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene databaseproject: improved data processing and web-based tools[J]. Nucleic acidsresearch, 2013, 41(D1): D590-D596.
[4]Kim O S, Cho Y J, Lee K, et al. Introducing EzTaxon-e: a prokaryotic 16S rRNAgene sequence database with phylotypes that represent uncultured species[J].International journal of systematic and evolutionary microbiology, 2012, 62(3):716-721.
[5]DeSantis T Z, Hugenholtz P, Larsen N, et al. Greengenes, a chimera-checked 16SrRNA gene database and workbench compatible with ARB[J]. Applied andenvironmental microbiology, 2006, 72(7): 5069-5072.
[6]Kõljalg U, Nilsson R H, Abarenkov K, et al. Towards a unified paradigm forsequence‐basedidentification of fungi[J]. Molecular ecology, 2013, 22(21): 5271-5277.
[7]Guillou L, Bachar D, Audic S, et al. The Protist Ribosomal Reference database(PR2): a catalog of unicellular eukaryote small sub-unit rRNA sequences withcurated taxonomy[J]. Nucleic acids research, 2012: gks1160.
[8]Koetschan C, Hackl T, Müller T, et al. ITS2 database IV: interactive taxonsampling for internal transcribed spacer 2 based phylogenies[J]. MolecularPhylogenetics and Evolution, 2012, 63(3): 585-588.
[9]Decelle J, Romac S, Stern R F, et al. PhytoREF: a reference database of theplastidial 16S rRNA gene of photosynthetic eukaryotes with curated taxonomy[J].Molecular ecology resources, 2015, 15(6): 1435-1445.
[10]Morard R, Darling K F, Mahé F, et al. PFR2: a curated database of planktonicforaminifera 18S ribosomal DNA as a resource for studies of plankton ecology,biogeography and evolution[J]. Molecular ecology resources, 2015, 15(6):1472-1485.
[11]Hulo C, De Castro E, Masson P, et al. ViralZone: a knowledge resource tounderstand virus diversity[J]. Nucleic acids research, 2011, 39(suppl 1):D576-D582.
[12]Fish J A, Chai B, Wang Q, et al. FunGene: the functional gene pipeline andrepository[J]. Frontiers in microbiology, 2013, 4: 291.
转自:https://www.cnblogs.com/nkwy2012/p/6396435.html
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!