BLAST (Basic Local Alignment Search Tool) 是我们常用的短序列比对工具,直接输入fasta格式的序列文件就可进行比对。
## 下载Blast
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.0+-x64-linux.tar.gz
## 解压
tar -xvzf ncbi-blast-2.10.0+-x64-linux.tar.gz
1.建库
makeblastdb -in genome.fasta -dbtype nucl -parse_seqids -out ./index
-in:构建数据库所用的序列文件。
-dbtype:数据库类型。构建的数据库是核苷酸数据库时,dbtype设置为nucl,数据库是氨基酸数据库时,dbtype设置为prot。
-out:数据库名称。
2.序列比对
构建好数据库就可进行序列比对。blastn是将核苷酸序列比对至核苷酸数据库。
query_id refer_id identity alignment_length mismatches gap_openings q.start q.end s.start s.end e-value bit_score BA000030.4 CP023202.1 78.25 1209 226 26 15813 17004 7017078 7018266 0 741 BA000030.4 CP016438.1 75.15 4363 967 102 26097 30398 6410499 6414805 0 1943 BA000030.4 CP023692.1 71.89 3163 704 141 26098 29169 4386693 4389761 0 745 BA000030.4 CP033073.1 76.29 3108 642 77 26105 29169 2959523 2956468 0 1568 BA000030.4 CP060828.1 74.8 2936 661 63 26157 29058 5940668 5937778 0 1249 BA000030.4 CP016279.1 76.88 3032 631 63 26168 29170 9144413 9147403 0 1652 BA000030.4 CP034539.1 73.95 2349 521 77 26241 28542 2852251 2849947 0 863 BA000030.4 CP033073.1 84.84 2164 307 16 29270 31427 3675813 3677961 0 2159
总共对应12列结果,每一列的含义如下:
query id:查询序列ID标识;
refer id:参考序列ID标识;
identity (%):序列比对的一致性百分比;
alignment length:符合比对的比对区域的长度;
mismatches:比对区域的错配数;
gap openings:比对区域的gap数目;
q.start:比对区域在查询序列(query id)上的起始位点;
q.end:比对区域在查询序列(query id)上的终止位点;
s.start:比对区域在参考序列(refer id)上的起始位点;
s.end:比对区域在参考序列(refer id)上的终止位点;
e-value:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;
bit score:比对结果的bit score值;
参考:https://zhuanlan.zhihu.com/p/107894498
https://blog.csdn.net/hac_kill_you/article/details/125961236
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!