1. 建库
makeblastdb -in xxx.fa -dbtype nucl
2. 进行序列比对
blastn -query yyy.fa -db xxx.fa -out out.txt -evalue 1e-5 -outfmt 6
-db: 指定blast搜索用的数据库,同建库步骤的序列
-query:用来查询的输入序列,fasta格式
-out:输出结果文件
-evalue: 设置e值cutoff,e值越小,相似度越高
-outfmt format:设置输出格式, 6是tab格式,7是有注释行的tab格式
还有其他的参数
-max_target_seqs:设置最多的目标序列匹配数
-num_threads:线程数,指定多少个cpu运行任务
等等
另一种情况,序列本身进行比对,也就是序列自己和自己比,可以发现内部的一些重复
blastn -query aaa.fasta -subject aaa.fasta -out out -evalue 1e-5 -outfmt 6
1. 比对结果输出
query_id refer_id identity alignment_length mismatches gap_openings q.start q.end s.start s.end e-value bit_score
BA000030.4 CP023202.1 78.25 1209 226 26 15813 17004 7017078 7018266 0 741
BA000030.4 CP016438.1 75.15 4363 967 102 26097 30398 6410499 6414805 0 1943
BA000030.4 CP023692.1 71.89 3163 704 141 26098 29169 4386693 4389761 0 745
BA000030.4 CP033073.1 76.29 3108 642 77 26105 29169 2959523 2956468 0 1568
BA000030.4 CP060828.1 74.8 2936 661 63 26157 29058 5940668 5937778 0 1249
BA000030.4 CP016279.1 76.88 3032 631 63 26168 29170 9144413 9147403 0 1652
BA000030.4 CP034539.1 73.95 2349 521 77 26241 28542 2852251 2849947 0 863
BA000030.4 CP033073.1 84.84 2164 307 16 29270 31427 3675813 3677961 0 2159
2. 结果详解
总共对应12列结果,每一列的含义如下:
query id:查询序列ID标识;
refer id:参考序列ID标识;
identity (%):序列比对的一致性百分比;
alignment length:符合比对的比对区域的长度;
mismatches:比对区域的错配数;
gap openings:比对区域的gap数目;
q.start:比对区域在查询序列(query id)上的起始位点;
q.end:比对区域在查询序列(query id)上的终止位点;
s.start:比对区域在参考序列(refer id)上的起始位点;
s.end:比对区域在参考序列(refer id)上的终止位点;
e-value:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;
bit score:比对结果的bit score值;
————————————————
参考:https://blog.csdn.net/hac_kill_you/article/details/125961236
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!