从测序公司拿到数据,或者从NCBI上下载了一些公开的数据,如何判断该数据的测序文库是不是采用了连特异性的建库方法?一般有如下几种方法:
1. 测序数据的GC含量分布
如果是普通的转录组测序文库,那么就会存在Read1, Read2 以相等的概率来之基因的正反链。这就导致Read1, Read2 上的GC分布倾向于等比例。而如果是链特异性的,那么Read1, Read2 会存在一定比例的GC偏离。 但是这也不是绝对的,有时候这个比例不是那么的明显。这就要采用更加准确的方法去统计Reads在基因的正反向的分布情况
2. Reads在基因正反向上的分布
要统计Reads在基因上的分布情况,需要将原始的测序数据比对到参考基因组上,之后才能进行统计。统计工作可以采用
RSeQC软件包中的infer_experiment.py来完成。具体步骤如下:
2.1 采用tophat将原始数据同参考基因组进行比对
2.2 将GTF格式的参考基因注释文件转换成BED格式,可以采用
gtf2bed脚本完成
2.3 运行infer_experiment.py 进行数据统计
2.4 统计结果中,如果read1和read2 比例比较接近,则为普通的问题,如果两者的比例差别比较大,则为链特异性文库,一般文库的链特异性达到90% 可以认为文库是合格的。
如果您对转录组的数据分析感兴趣,可以学习我的两门课程: