为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控。fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。
fastq文件了解,可观看课程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058
Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号
Total Sequences: total reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。
所有reads碱基的测序质量统计结果。箱线图中红色线表示中位数,黄色是25%-75%区间,延伸线是10%-90%区间,蓝线是平均数曲线。若任一位置碱基的下四分位数低于10或中位数低于25,报"WARN";若任一位置的下四分位数低于5或中位数低于20,报"FAIL"。
流通池中不同芯片(tile)的碱基测序质量平均值对比,显示了测序仪的系统差错。热图中蓝色部分是质量较好的点,红色越明显则是测序质量越低。纵坐标为tile编号,如果某tile的测序质量很低,可以考虑去除该tile的序列数据。
每条read的碱基质量均值的统计结果。横轴为测序质量quality,纵轴是read数目。从图中可以容易得看出不同质量范围内的read数量。其中当峰值也即最大read质量小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。
对所有reads的每一个位置,统计ATCG四种碱基(正常情况)比例的分布情况。横轴为碱基位置,纵轴为百分比。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresentedsequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias(建库过程或本身特点),或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
统计reads的平均GC含量的分布。横轴为GC比例,纵轴为reads数量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresentedreads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“凸起”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。
统计reads长度的分布。横轴为片段长度,纵轴为read数量。当reads长度不一致时报"WARN";当有长度为0的read时报"FAIL"。
统计序列的重复度(duplication level,也即一个文库中某条序列的copy数),理论上大部分序列都只出现一次,低的重复度意味着高的基因组覆盖率。测序深度越高,越容易产生一定程度的重复,这是正常的现象;但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。可以想象,如果原始数据很大(事实往往如此),对所有序列的比较将会需要很大内存,所以FastQC只用前100,000条reads来进行统计,以反映全部数据中序列重复度情况。而且,大于75bp的reads只取前50bp进行比较,由于reads越长越不容易完全相同(由测序错误导致),所以这样做使得重复度的统计更加严格。序列duplication level分布图将会展示文库中不同重复度的序列所占比例,其中横坐标是duplication levels,纵坐标是duplicated reads的比例。图中蓝色线展示了全部序列中不同重复度序列的百分比,红线显示的是有重复序列中不同重复度序列的百分比(所有序列的重复度减去1)。
由于展示范围的限制,重复数目大于等于10的reads会被按照区间合并统计,造成在duplicationlevel为10的时候曲线突然凸起,结果如下所示:
当非unique(也即duplication level大于1)的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL"。
如果有某个序列大量出现,就叫做over-represented。FastQC的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fastq数据的前100,000条reads进行统计,所以有可能over-represented reads不全在里面。而且大于75bp的reads也是只取50bp。统计结果以列表形式展示,当发现超过总reads数0.1%的reads时报"WARN",当发现超过总reads数1%的reads时报"FAIL"。
统计接头序列的含量。一般测序仪自带软件会切去接头序列,所以下机数据并没有接头序列。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!