关于VCF文件结构说明可参考:https://www.omicsclass.com/article/6
经过外显子测序或者全基因组重测序,之后进行变异检测,得到很多的变异信息,那么要知道这些变异是有害的或者是否与疾病相关,就要对这些变异进行注释,ANNOVAR利用 ANNOVAR(http://www.openbioinformatics.org/annovar/)(Wang K et al.2010)软件对 SNP 进行注释,其中包括 dbSNP 数据库、千人基因组计划和其他已有的数据库的注释信息,注释内容涵盖变异的位置信息,类型,保守型预测等。
注释之后会得到一个表格文件解释如下,更多数据库解释说明https://www.omicsclass.com/article/464:
注:
CHROM:染色体
POS:变异位点在染色体上的绝对位置
ID:dbSNP 注释 ID
REF:参考基因组碱基型
ALT:样本基因组碱基型
QAUL:变异的质量值
FILTER:过滤 TAG,如果该位点满足所有过滤条件,则标记为 PASS(过滤条件采用的是国际惯用的过滤标准)
GeneName:基因名称注释,列出该变异相关的基因
Func:对变异位点所在的区域进行注释(exonic, splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3, ncRNA_UTR5, ncRNA _splicing, upstream, downstream, intergenic)。说明:1、exonic 应该包括 coding exonic portion、UTR3 和 UTR5,但 ANNOVAR 注释结果中 exonic 只代表 coding exonic portion。2、当一个变异位点位于多个基因或转录本,且功能不同,这些功能按照优先级排序,该列输出优先级最高的功能类型:Exonic = splicing > ncRNA> > UTR5/UTR3 > intron > upstream/downstream > intergenic。当一个变异既位于一个基因的 UTR3,又位于另一个基因的 UTR5时,该列输出"UTR5,UTR3"。当一个变异既位于一个基因的 downstream,又位于另一个基因的 upstream 时,该列输出" upstream,downstream "
Gene:列出该变异位点相关的转录本(只有功能符合 Func 列的转录本才列出)。如果 Func 为 intergenic,此处列出两侧的基因名
GeneDetail:描述UTR、splicing、ncRNA_splicing 或intergenic 区域的变异情况。当Func 列的值为exonic、ncRNA_exonic、intronic、ncRNA_intronic、upstream、downstream、upstream;downstream、ncRNA_UTR3、ncRNA_UTR5 时,该列为空;当 Func 列的值为 exonic;splicing 时,表示该位点位于某些转录本的 exonic 区,另一些转录本的 splicing 区,这种情况下,GeneDetail 会给出该位点对于转录本 splicing 的影响,例如,NM_172210:exon6:c.1090+5C>A,表示该变异位于转录本NM_172210 上,exon6 表示第 6 个人外显子,c.1090+5C>A 表示 cDNA 的 1090bp 下游 5bp 处发生由 C 到 A 的突变;当Func 列的值为 intergenic 时,该列格式为 dist=1366;dist=22344,表示该变异位点距离两侧基因的距离
ExonicFunc:外显子区的 SNV or InDel 变异类型(SNV 的变异类型包括 synonymous_SNV, missense_SNV, stopgain_SNV, stopgloss_SNV 和 unknown;Indel 的变异类型包括 frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion 和 unknown)
AAChange:氨基酸改变,只有当 Func 列为 exonic 或 exonic;splicing 时,该列才有结果。按照每个转录本进行注释(例如,AIM1L:NM_001039775:exon2:c.C2768T:p.P923L,其中,AIM1L 表示该变异所在的基因名称,NM_001039775 表示该变异所在的转录本 ID,exon2 表示该变异位于转录本的第二个外显子上,c.C2768T 表示该变异引起 cDNA 在第 2768 位上由 C 突变为 T,p.P923L 表示该变异引起蛋白序列在第 923 位上的氨基酸由 Pro 变为 Leu)
Gencode:Gencode 注释的基因名称
cpgIslandExt: CpG 岛预测结果,注释结果为 CpG 岛名称,如 CpG: 116(116 是该 CpG 岛中 CG 二核苷酸的数目),CpG 岛是指在基因组的某些区段,CpG 保持或高于正常概率,与甲基化修饰及基因表达调控相关
cytoband:该变异位点所处的染色体区段(利用 Giemas 染色观察得到的),如果变异位点跨过多个区段,用短横线连接
wgRna:基于 miRBase 和 snoRNABase,对变异位点相关的 microRNA 和 snoRNA 进行注释,给出 microRNA 和 snoRNA的基因名称
targetScanS:UCSC 提供TargetScanS 注释数据库,库中包含在3’UTR 中保守的microRNA 结合位点。此项给出microRNA靶点的信息,一是 score ,是该靶点的分值,有分值即认为此位点在人中保守;二是 Name,是作用于该靶点的 microRNA名称。例如,Score=62;Name=KRAS:miR-181:1,表示该靶点的分值是 62,其位于 KRAS 基因的 3’UTR 中,受到该变异位点影响的 microRNA 是 miR-181:1
phastConsElements46way:给出该变异位点是否位于保守区域中;如果在保守区域中,给出该区域的分值。保守区域是由 phastCons 程序基于脊椎动物全基因组比对预测得到的,46way 是指使用的物种数目为 46 个。有两个值,一是 score,是该保守区域的分值(transformed log-odds scores),取值为 0-1000,有分值即认为此位点在人中保守;二是 name,是ANNOVAR 给该保守区域的名称(实际这些区域并没有名称,ANNOVAR 用 raw log-odds scores 作为名称,即 lod=x)
tfbsConsSites:基于 transfac 矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值,当结合位点的分值达到阈值时,认为该位点在人/小鼠/大鼠中保守。该列给出的是该变异位点所在的保守转录因子结合位点的位置和分值,即 Name 和 Score。Name 是结合位点处的 motif 名称,这些 motif 能够被转录因子识别,例如 V$CDPCR3_01,利用一些在线服务器(如 MSigDB)能够查询这个 motif 能够被哪些转录因子识别;Score 是该结合位点的保守分值
genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。重复区域中检测到的遗传变异大多数是由于序列比对错误造成的,所以被注释到 segmental duplications 的变异需要谨慎对待,很可能是假阳性位点。结果给出两个值,一是 Name,表示基因组中与该变异位点所在区域相似的片段的位置;二是 Score,表示两个相似片段的序列一致性。例如,Score=0.994828;Name=chr19:60000,表示 chr19:60000 所在片段跟该变异位点所在片段相似,序列一致性(sequence identity)为 0.994828,范围 0~1
dgvMerged:将变异位点与基因组变异数据库(Database of Genomic Variants,简称 DGV)中的 SV 进行比较,输出该变异位点处已经被报导的 SV
gwasCatalog:检测变异位点是否在以往的 GWAS 研究中被报导,表示该变异位点与哪些疾病相关联,“.”表示没有
GWAS 报导
Repeat:重复序列注释信息,重复序列来源于 RepeatMasker 注释
encodeGm12878:变异位点所在基因组中区域的功能注释。利用 ChromHMM 程序整合 ENCODE 中 Gm12878 细胞系的 ChIP-seq、DNase-seq、FAIRE-seq 数据,根据可能的功能(共 25 种功能,如 Tss、TssF 等),将 Gm12878 细胞的基因组进行分区。然后对这些功能分组,突出基因组上可能的功能元件。(该列取值与其代表的功能元件之间的对应关系为:Tss, TssF——Active Promoter;PromF——Promoter Flanking;PromP——Inactive Promoter;Enh, EnhF——Candidate Strong enhancer;EnhWF, EnhW, DNaseU, DNaseD, FaireW——Candidate Weak enhancer/DNase;CtrcfO, Ctcf——Distal CTCF/Candidate Insulator;Gen5', Elon, ElonW, Gen3', Pol2, H4K20——Transcription associated;Low——Low activity proximal
to active states;ReprD, Repr, ReprW——Polycob repressed;Quies, Art——Heterochromatin/Repetitive/Copy Number Variation)
encodeH1hesc:变异位点所在基因组中区域的功能注释。同上,只是细胞系为 H1-hESC
encodeHelas3:变异位点所在基因组中区域的功能注释。同上,只是细胞系为 HeLa-S3
encodeHepg2:变异位点所在基因组中区域的功能注释。同上,只是细胞系为 HepG2
encodeHuvec:变异位点所在基因组中区域的功能注释。同上,只是细胞系为 HUVEC
encodeK562:变异位点所在基因组中区域的功能注释。同上,只是细胞系为 K562
snp138:该变异在 dbSNP(版本 138)中的 ID
snp138NonFlagged:dbSNP 数据库(版本 138)中 MAF>1%的突变位点和与临床不相关的突变位点(dbSNP 中将满足下列条件的 SNPs 进行标记: < 1% minor allele frequency (MAF) (or unknown), mapping only once to reference assembly, flagged in dbSnp as 'clinically associated'. snp138NonFlagged 是 dbSNP 中所有的未被标记的 SNPs)
1000g2012apr_eur:给出千人基因组计划数据(2012 年 4 月公布的版本)的欧洲人群中,该变异位点上突变碱基的等位基因频率
1000g2012apr_asn:给出千人基因组计划数据(2012 年 4 月公布的版本)的亚洲人群中,该变异位点上突变碱基的等位基因频率
1000g2012apr_afr:给出千人基因组计划数据(2012 年 4 月公布的版本)的非洲人群中,该变异位点上突变碱基的等位基因频率
1000g2012apr_amr:给出千人基因组计划数据(2012 年 4 月公布的版本)的美洲人群中,该变异位点上突变碱基的等位基因频率
1000g2012apr_all:给出千人基因组计划数据(2012 年 4 月公布的版本)的所有人群中,该变异位点上突变碱基的等位基因频率
hapmapCHB_allele:HapMap 计划汉族人群等位基因频率
hapmapCHB_genotype:HapMap 计划汉族人群基因型频率
esp6500si_all:国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all 数据库中包含 SNP 变异、Indel 变异和 Y 染色体上的变异)的所有个体中,突变碱基的等位基因频率(alternative allele frequency),此数据库为欧洲人群体,人群分层的情况需要考虑
ljb23_sift:SIFT 分值(version 2.3),表示该变异对蛋白序列的影响,包含三个值,一是 SIFT 初始分值,二是转换后的值(1-SIFT),三是 T 或者 D。当该变异同时影响多个蛋白序列时,对每条蛋白序列有一个 SIFT 值,取最小值。SIFT 分值越小越“有害”,表明该 SNP 导致蛋白结构或功能改变的可能性大;D: Deleterious (sift<=0.05); T: tolerated (sift>0.05))
ljb23_pp2hvar:利用 PolyPhen2 基于 HumanVar 数据库预测该变异对蛋白序列的影响,用于单基因遗传病。该列包含两个值,第一个是 PolyPhen 2 分值,数值越大越“有害”,表明该 SNP 导致蛋白结构或功能改变的可能性大;第二个是 D或 P 或 B(D: Probably damaging (>=0.909), P: possibly damaging (0.447<=pp2_hvar<=0.909); B: benign (pp2_hvar<=0.446))
ljb23_pp2hdiv:利用 PolyPhen2 基于 HumanDiv 数据库预测该变异对蛋白序列的影响,用于复杂疾病。该列包含两个值,第一个是 PolyPhen 2 分值,数值越大越“有害”,表明该 SNP 导致蛋白结构或功能改变的可能性大;第二个是 D 或 P或 B(D: Probably damaging (>=0.957), P: possibly damaging (0.453<=pp2_hdiv<=0.956); B: benign (pp2_hdiv<=0.452))
ljb23_mt:MutationTaster 分值(version 2.3),表示该变异对蛋白序列的影响,包含三个值,一是 MutationTaster 初始分值,二是转换后的值,三是 A、D、N 或者 P。第二个值越大越“有害”,表明该 SNP 导致蛋白结构或功能改变的可能性大。"A" ("disease_causing_automatic"); "D" ("disease_causing"); "N" ("polymorphism"); "P" ("polymorphism_automatic"
ljb23_lrt:LRT 分值(version 2.3),表示该变异对蛋白序列的影响,包含三个值,一是 LRT 初始分值,二是转换后的值,三是 D、N 或者 U(D: Deleterious; N: Neutral; U: Unknown)。第二个值越大越“有害”,表明该 SNP 导致蛋白结构或功能改变的可能性大。
ljb23_metalr:MetaLR 分值(version 2.3),表示该变异对蛋白序列的影响,包含两个值,一是 MetaLR 初始分值,二是
D 或者 T(D: Deleterious; T: Tolerated)
INFO:变异软件检测的变异位点信息
FORMAT:用“:”分隔了若干个字段:
GT: 该位点基因型(Genotype)。0 代表 Allele 和 ref 相同,1、2、3 等代表 Allele 和 ref 不同;纯合:0/0,1/1;杂合:0/1 ,PL: 标准化基因型似然值(对应格式 0/0,0/1,1/1 三种基因型,值越小越好)
DP: 该位点测序深度(估计值,过滤了 MQ 值为 255 或者错误的成对数据,即高质量碱基)DV: 高质量的非参考碱基类型
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!