如何鉴定测序文库是不是链特异性

从测序公司拿到数据，或者从NCBI上下载了一些公开的数据，如何判断该数据的测序文库是不是采用了连特异性的建库方法？一般有如下几种方法：

1. 测序数据的GC含量分布

如果是普通的转录组测序文库，那么就会存在Read1, Read2 以相等的概率来之基因的正反链。这就导致Read1, Read2 上的GC分布倾向于等比例。而如果是链特异性的，那么Read1， Read2 会存在一定比例的GC偏离。但是这也不是绝对的，有时候这个比例不是那么的明显。这就要采用更加准确的方法去统计Reads在基因的正反向的分布情况

2. Reads在基因正反向上的分布

要统计Reads在基因上的分布情况，需要将原始的测序数据比对到参考基因组上，之后才能进行统计。统计工作可以采用RSeQC软件包中的infer_experiment.py来完成。具体步骤如下：

2.1 采用tophat将原始数据同参考基因组进行比对

2.2 将GTF格式的参考基因注释文件转换成BED格式，可以采用gtf2bed脚本完成

2.3 运行infer_experiment.py 进行数据统计

2.4 统计结果中，如果read1和read2 比例比较接近，则为普通的问题，如果两者的比例差别比较大，则为链特异性文库，一般文库的链特异性达到90% 可以认为文库是合格的。

如果您对转录组的数据分析感兴趣，可以学习我的两门课程：

《RNAseq有参转录组数据分析》

《转录组数据挖掘》

发表于 2018-07-19 13:55
阅读 ( 8751 )
分类：转录组