linux中的awk命令可以非常简单的实现搜索基因组指定区域的所有基因。具体方法如下。
首先要准备基因组gff文件,如下:
然后运行如下命令:
awk '$1 == "1" && $3 == "gene" && $4 >= 10000 && $5 <= 200000 {print $0} ' Arabidopsis_thaliana.TAIR10.31.gff3 > out.gff
命令会搜索 1 号染色体上10000到20000之间的所有基因。
其中 $1 == "1" 指定染色体,只需修改引号内染色体ID即可;
$4 >= 10000 指定区域的起始位置;
$5 <= 200000 指定区域的结束位置;
Arabidopsis_thaliana.TAIR10.31.gff3 是基因组gff文件。
out.gff 为最后的输出文件。
搜索结果如下:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!