fastqc质控报告查看

fastqc质控报告查看

1.Summary

为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。

fastq文件了解,可观看课程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058

attachments-2020-04-GZgs7tCJ5e96b26bc7771.png

2.Basic Statistics

attachments-2020-04-eWxRwgm55e96b2e18bf7d.png

Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号

Total Sequences: total reads的数量

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

3.Per base sequence quality:碱基质量统计

attachments-2020-04-kOnWpjHf5e96b485833d3.png

所有reads碱基的测序质量统计结果。箱线图中红色线表示中位数,黄色是25%-75%区间,延伸线是10%-90%区间,蓝线是平均数曲线。若任一位置碱基的下四分位数低于10或中位数低于25,报"WARN"若任一位置的下四分位数低于5或中位数低于20,报"FAIL"

4.Per tile sequence quality


attachments-2020-04-VLotW3AN5e96b4fb080cf.png流通池中不同芯片(tile)的碱基测序质量平均值对比,显示了测序仪的系统差错。热图中蓝色部分是质量较好的点,红色越明显则是测序质量越低。纵坐标为tile编号,如果某tile的测序质量很低,可以考虑去除该tile的序列数据。

5.Per sequence quality scores

attachments-2020-04-g6ecaSyI5e96b55e55a9e.png每条read的碱基质量均值的统计结果。横轴为测序质量quality,纵轴是read数目。从图中可以容易得看出不同质量范围内的read数量。其中当峰值也即最大read质量小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"

6.Per base sequence content

attachments-2020-04-Y4JlBFg15e96b5ac65d6d.png对所有reads的每一个位置,统计ATCG四种碱基(正常情况)比例的分布情况。横轴为碱基位置,纵轴为百分比。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresentedsequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias(建库过程或本身特点),或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN"当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"

7.Per sequence GC content


attachments-2020-04-l7VJ96P95e96b64599113.png统计reads的平均GC含量的分布。横轴为GC比例,纵轴为reads数量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresentedreads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时,报"WARN"偏离理论分布的reads超过30%时,报"FAIL"

8.Per base N content

attachments-2020-04-1cbUqzro5e96b6a136c7d.png正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。Y轴在0%-100%的范围内也能看到凸起时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN"当任意位置的N的比例超过20%,报"FAIL"

9.Sequence Length Distribution

attachments-2020-04-h9Jw52T55e96b6cf07309.png统计reads长度的分布。横轴为片段长度,纵轴为read数量。reads长度不一致时报"WARN"当有长度为0read时报"FAIL"

10.Sequence Duplication Levels

统计序列的重复度(duplication level,也即一个文库中某条序列的copy数),理论上大部分序列都只出现一次,低的重复度意味着高的基因组覆盖率。测序深度越高,越容易产生一定程度的重复,这是正常的现象;但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。可以想象,如果原始数据很大(事实往往如此),对所有序列的比较将会需要很大内存,所以FastQC只用前100,000reads来进行统计,以反映全部数据中序列重复度情况。而且,大于75bpreads只取前50bp进行比较,由于reads越长越不容易完全相同(由测序错误导致),所以这样做使得重复度的统计更加严格。序列duplication level分布图将会展示文库中不同重复度的序列所占比例,其中横坐标是duplication levels,纵坐标是duplicated reads的比例。图中蓝色线展示了全部序列中不同重复度序列的百分比,红线显示的是有重复序列中不同重复度序列的百分比(所有序列的重复度减去1)。

由于展示范围的限制,重复数目大于等于10reads会被按照区间合并统计,造成在duplicationlevel10的时候曲线突然凸起,结果如下所示:


attachments-2020-04-fS8gB3gQ5e96b78b72507.png

当非unique(也即duplication level大于1)的reads占总数的比例大于20%时,报"WARN"当非uniquereads占总数的比例大于50%时,报"FAIL"

11.Overrepresented sequences


如果有某个序列大量出现,就叫做over-representedFastQC的标准是占全部reads0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fastq数据的前100,000reads进行统计,所以有可能over-represented reads不全在里面。而且大于75bpreads也是只取50bp统计结果以列表形式展示,当发现超过总reads0.1%reads时报"WARN",当发现超过总reads1%reads时报"FAIL"

attachments-2020-04-ksmj39ba5e96b7fd22dae.png

12.Adapter Content

统计接头序列的含量。一般测序仪自带软件会切去接头序列,所以下机数据并没有接头序列。
attachments-2020-04-5DUDIPLf5e96b8299376e.png

测序数据分析相关课程:转录组数据分析重测序数据分析

  • 发表于 2020-04-15 15:31
  • 阅读 ( 10597 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章