是由测序过程中化学试剂的消耗导致的,为Illumina高通量测序平台所具有的特征。前6个碱基测序错误率较高是因为RNA-seq建库过程中反转录所需的随机引物RNA模版的不完全结合。会进行严格的数据质量把控。一般情况下,单个碱基位置的测序错误率应该低于1%。
回答于 2018-07-06 16:33
一般的测序为双端测序,从cDNA片段的两端分别测一定的长度(如分别测150bp),其中一条称为Read1,另一条称为Read2,双端测序增加了测序的长度。 更多关于测序数据的解读见视频课程:《二代测序原理及fastq数据》
回答于 2018-07-06 16:31
TopHat比对时,默认为2个mismatch,即:reads和reference在2mismatch之内,就算mapping到了。当mappingrate较低时主要可能有2个原因:(1)由于reference组装不好,或者所测物种与reference的亲缘关系较远;(2)由于样品的特殊前处理或者相对于参考基因组此样品本身的变异太大,导致mapping rate相对较低。
回答于 2018-07-06 16:30
GO分类是将每个基因与其对应的GO功能联系起来,以获取基因的GO注释信息,而GO富集分析则是将GO功能相似的基因集通过统计学检验算法富集到一起,从而方便研究具有某一类GO功能的基因。 GO分为分子功能(Molecular Function)、生物过程(Biological Process)、和细胞组成(Cellular Component)三个部分。基因或蛋白质可以...
回答于 2018-07-06 16:28
基因加倍:tandem duplication和segmental duplication的区别与联系: Gene duplications are considered to be one of the primary driving forces in the evolution of genomes and genetic systems [22]. Duplicated genes provide raw material for the generation of new genes, which, in turn, facilitate the g...
回答于 2018-06-11 09:23