blast包含核酸序列比对,蛋白序列比对等。
主要有两个步骤:
建库 (makeblastdb)
比对 (blast)
blastall的常用参数
-p:执行的程序名称
-d:检索的数据库名称
i:要查询(要研究的物种序列)的序列文件名(Query File),fasta格式
-e(数学):期望值(Expectation value),E值是个统计阈值,缺省值10,意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠
-o:查询结果输出文件名
-m:比对结果显示格式选项,缺省值为0,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
I:在描述行中显示gi号I/F,缺省值F
-v:单行描述 (one-line description) 的最大数目,缺省值500
-b:显示的比对结果的最大数目,缺省值250
-F:对于要查询的序列做低复杂度区域(ow complexity regions, LCR)的过滤I/F1,缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。
所谓"低复杂度区域〞是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对于高等哺乳动物的基因序列,可以先使用RepeatMask程序遮蔽重复元件。在输出结果中,对
LCR区的序列核酸用“N” 代替,蛋白质序列用 “X” 代替。
-a:运行BLAST程序所使用的处理器的数目,缺省值1
-S:在数据库中搜索时所使用的核酸链 (strand),只对blastn、 blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3
-T:产生HTML格式的输出I/F],缺省值F
-n:使用MegaBlast搜索(T/F],缺省值F
-G:打开一个gap的罚分 (0表示使用缺省设置值),默认0
-E:扩展一个gap的罚分 (0表示使用缺省设置值),默认O
-q: 个核酸碱基的错配(mismatch)的罚分 (只对blastn有效),缺省值-3
-r:一个核酸碱基的正确匹配(match)的奖分 (只对blastn有效),缺省值1
-M:所使用的打分矩阵,缺省值BLOSUM62
命令举例:
blastall -p blastn -i U00096.ffn -d ecoli -o U00096 Vs ecoli blastn.out -e 1e-5 -m 0
blastall -p blasto -i U00096 faa -d mr -o U00096 Vs NR blastp.htm -e 0.01 -b 1 -V 1 -T T
blastall -p blastx -i uo0ogG.ffn -d nr -o Uo0o96 Vs NR blastx.htm-e 1e-5 -b 1-v1(特别是准备做blast2g0分析的时候,格式要xml, 最好加上-b、-V参数,要不然时间运行非常长