1. 数据分组:数据分成training 和 testing ,training 用于训练,testing 用于测试,验证分类效果2. 分组的意义:是为了防止算法“过拟合”, 也就是在你的实验数据上拟合的非常的好,但是在其他的数据上就不行
回答于 2018-07-29 17:28
安装AnnotationDbi 这个有点问题,你可以单独安装试一下,可以参考这个包的安装说明。
回答于 2018-07-27 10:19
数据标准化的意义主要有以下几点: 1. 更加真实的反应表达的状态:降低外部因素的影响,比如测序量 2. 让实验具有重复性:标准化处理,使得多次分析的数据都有统一基准 反过来想,以qPCR为例,为什么qPCR 一般要做三次重复呢? 做一次也肯定有结果的。
回答于 2018-07-26 09:24
整体的比对效率还是挺高的,达到了94.06 %,但多比对的比例比较高,占了26.78% 。 原因可能有: 1. 基因组为多倍体,一条序列能比对到多个染色体位置 2. 同源,重复序列较多 3. 高表达的基因存在多个位置
回答于 2018-07-24 10:48
1. 为了防止数据中出现NA, 可以采用log2(count +1) 。 2. 数据中不能存在NA 您可以学习一下我的TCGA系列课程: 《TCGA-生存分析》
回答于 2018-07-24 09:48
我看了一下这个芯片的,由于是定制化的,注释不详细,但是有GeneBank 的登录号 GB_ACC ,这个你需要想办法转换一下。
回答于 2018-07-24 09:40
TSS(转录起始位点):一个基因有不同的转录本,可能有多个转录起始位点,这些位点都是通过实验确定了转录本的转录起始而获得的。 1. 获取单个基因TSS,可以采用5‘RACE, 确定转录本的起始位置 2. 获取批量基因TSS,可以采用转录组测序,
回答于 2018-07-18 16:46