clinvar数据库人类疾病数据库ANNOVAR数据库使用

clinvar数据库

clinvar是一个开放的数据库,每个研究机构都可以向其提交数据,对于提交的信息,会有专家团队进行审核评级。对于数据库中的位点,根据注释信息的可靠性,分成了1到4个不同的星级,星级越高,可信度越高。


数据库地址:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/

安装了ANNOVAR就可以直接下载:

perl  annotate_variation.pl --downdb --buildver hg19  -downdb -webfrom annovar clinvar_20180603 ./

下载之后,得到一些注释信息,其中ANNOVAR包含5个注释信息CLNALLELEID, CLNDN, CLNDISDB, CLNREVSTAT, CLNSIG

ALLELEID ="the ClinVar Allele ID"
CLNDN ="ClinVar's preferred disease name for the concept specified by disease identifiers in CLNDISDB"
CLNDNINCL ="For included Variant : ClinVar's preferred disease name for the concept specified by disease identifiers in CLNDISDB"
CLNDISDB ="Tag-value pairs of disease database name and identifier, e.g. OMIM:NNNNNN"
CLNDISDBINCL ="For included Variant: Tag-value pairs of disease database name and identifier, e.g. OMIM:NNNNNN"
CLNHGVS ="Top-level (primary assembly, alt, or patch) HGVS expression."
CLNREVSTAT ="ClinVar review status for the Variation ID"
CLNSIG ="Clinical significance for this single variant"

其中CLNDSDB指该记录来源的数据库。

最新数据库更新:


有时候clinvar数据库更新比较快,而ANNOVAR官方提供的注释文件可能不及时,我们可以自行下载数据,利用ANNOVAR提供的脚本制作clinvar的注释文件:
准备工作:

命令行如下:

export PATH=/share/work/biosoft/annovar/2018Apr16/annovar:/share/work/biosoft/vt/vt-0.57721/:$PATH
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20180805.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/clinvar_20180805.vcf.gz.tbi
vt decompose clinvar_20180805.vcf.gz -o temp.split.vcf
prepare_annovar_user.pl   -dbtype clinvar_preprocess2 temp.split.vcf -out temp.split2.vcf
vt normalize temp.split2.vcf -r ../../GRCH37/Homo_sapiens.GRCh37.dna.toplevel.fa -o temp.norm.vcf -w 2000000
prepare_annovar_user.pl -dbtype clinvar2 temp.norm.vcf -out hg19_clinvar_20180805.txt
#index_annovar.pl hg19_clinvar_20180805_raw.txt -out hg19_clinvar_20180805.txt -comment comment_20180805.txt
最后:index_annovar.pl 脚本没有找到,其实文件不大,也可以不建立索引。
  • 发表于 2018-09-26 18:26
  • 阅读 ( 9762 )
  • 分类:基础知识

你可能感兴趣的文章

相关问题

1 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章