ANNOVAR支持三种不同形式的注释: gene-based,region-based 和filter-based。这三种注释分别针对于每一个variant的不同方面:
基于基因的注释(gene-based annotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响。
基于区域的注释(region-based annotation)揭示variant 与不同基因组特定段的关系,例如:它是否落在已知的保守基因组区域。
基于过滤子的注释( filter-based annotation)则给出这个variant的一系列信息,如: population frequency in different populations 和various types of variant-deleteriousness prediction scores,这些可被用来过滤掉一些公共的及 probably(大概,肯定的成分较大,,是most likely)nondeleterious variants。
一、基于基因的注释(gene-based annotation)
人类基因组上的基因注释来源有三个数据库,可任选其一进行注释,从而可以知道变异与基因的关系:
refGene NCBI RefSeq Gene
knownGene UCSC Known Gene
ensGene ENSEMBL Gene
二、基于区域的注释(region-based annotation)
‘cytoBand’ 是染色体坐标信息,染色体经过处理后染色,使染色体有深有浅或明或暗的区别带,更多参考:基因座。,文件每一行表示一条带,其5个字段分别是:染色体编号(chrom)、在染色体中的起始位置(chromStart)、终止位置(chromEnd)、名称(name)、染色标识(gieStain)
‘1000g2015aug’ for alternative allele frequency in the 1000 Genomes Project 。1000基因组项目(和ExAV 外显子集合联合一样,是公开、开放的数据库)里面供选择的等位基因频率信息。
‘exac03’for the variants reported in the Exome Aggregation Consortium(version 0.3)。是0.3版外显子集合联合中报道过的variants。
‘ljb26_all’ for various functional deleteriousness prediction scores from the dbNSFP database(version 2.6)。dbNSFP: A Lightweight Database of HumanNonsynonymousSNPs and TheirFunctionalPredictions on ResearchGate。
‘clinvar_20180603’ for the variants reported in the ClinVar database(version 20180603)。ClinVar是美国国家生物技术信息中心(NCBI)于2012年11月宣布、2013年4月正式启动的公共、免费数据库。作为核心数据库,ClinVar数据库整合了十多个不同类型数据库、通过标准的命名法来描述疾病,同时支持科研人员将数据下载到本地中,开展更为个性化的研究。
‘snp142’ for the dbSNP database(version 142)。注意:a、第一个命令中不包含 ‘--webfrom annovar’ 选项, 因此是从the UCSC Genome Browser annotation database下载文件的; b、 ‘--buildver hg19’ 选项是针对hg19这一版的基因组的;c、运行上面命令后,在 ‘humandb/’ 目录下会多几个以 ‘hg19’为前缀的文件。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!