一条命令筛选基因组指定区域内的所有基因

一条命令筛选基因组指定区域内的所有基因

linux中的awk命令可以非常简单的实现搜索基因组指定区域的所有基因。具体方法如下。

首先要准备基因组gff文件,如下:

attachments-2018-12-iSdpOpvP5c1355946d3da.jpg


然后运行如下命令:

awk '$1 == "1" && $3 == "gene" && $4 >= 10000 && $5 <= 200000 {print $0} ' Arabidopsis_thaliana.TAIR10.31.gff3 > out.gff

命令会搜索 1 号染色体上10000到20000之间的所有基因。

其中 $1 == "1"  指定染色体,只需修改引号内染色体ID即可;

$4 >= 10000  指定区域的起始位置;

$5 <= 200000  指定区域的结束位置;

Arabidopsis_thaliana.TAIR10.31.gff3 是基因组gff文件。

out.gff   为最后的输出文件。


搜索结果如下:

attachments-2018-12-t6B1qYXN5c13588b9f4f8.jpg


  • 发表于 2018-12-14 15:15
  • 阅读 ( 5430 )
  • 分类:linux

0 条评论

请先 登录 后评论
安生水
安生水

351 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章