如何鉴定测序文库是不是链特异性

如何鉴定测序文库是不是链特异性
从测序公司拿到数据,或者从NCBI上下载了一些公开的数据,如何判断该数据的测序文库是不是采用了连特异性的建库方法?一般有如下几种方法:

1. 测序数据的GC含量分布

如果是普通的转录组测序文库,那么就会存在Read1, Read2 以相等的概率来之基因的正反链。这就导致Read1, Read2 上的GC分布倾向于等比例。而如果是链特异性的,那么Read1, Read2 会存在一定比例的GC偏离。 但是这也不是绝对的,有时候这个比例不是那么的明显。这就要采用更加准确的方法去统计Reads在基因的正反向的分布情况

2. Reads在基因正反向上的分布

要统计Reads在基因上的分布情况,需要将原始的测序数据比对到参考基因组上,之后才能进行统计。统计工作可以采用RSeQC软件包中的infer_experiment.py来完成。具体步骤如下:
    2.1    采用tophat将原始数据同参考基因组进行比对
    2.2    将GTF格式的参考基因注释文件转换成BED格式,可以采用gtf2bed脚本完成
    2.3    运行infer_experiment.py 进行数据统计
    2.4    统计结果中,如果read1和read2 比例比较接近,则为普通的问题,如果两者的比例差别比较大,则为链特异性文库,一般文库的链特异性达到90% 可以认为文库是合格的。

如果您对转录组的数据分析感兴趣,可以学习我的两门课程:

  • 发表于 2018-07-19 13:55
  • 阅读 ( 7631 )
  • 分类:转录组

你可能感兴趣的文章

0 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章