1. NR 那一列的ID都一样,说明你的那些基因的序列都跟该基因序列相似 2. 序列相似,不一定来自同一个基因,一个物种中存在很多同源基因。看你的基因的id,好像是无参组装的结果,你可以去掉低表达的转录本, 再将这些转录本按照一定的相似度进行聚类,聚成一类,算是一个基因。
回答于 2018-11-23 13:01
barcode 是特定的,测序建库时用什么barcode, 分析时就得用什么barcode。 1. 如果你对数据是测序公司提供的,他们应该会提供barcode序列给你。 2. 当然你也可以通过samtools 打开测序的文件(bam格式),比较一下序列,发现TTTTTTTTTTTTTTT附近多次出现的序列就是barcode 。
回答于 2018-11-23 09:25
转录组数据,中基因的表达量有多种表现形式,比如count数, FPKM等。 如果对FPKM值进行log 转换之后,那些表达量小于1的基因,其表达量的表示值就是小于0的。
回答于 2018-11-16 13:49
1. 从你的描述来看,你研究的应该是“无参考基因组”的物种,需要将测序数据组装成Unigene 。 2. 无参考物种的组装,一般采用Trinity 软件. 3. 如果数据比较多,建议选择数据格式比较统一的数据,双端优先于单端, 长读长优先于短读长 。 4. 尽量保证样本的多样性,比如将各种处理条件的数据放在一起, 但是也要考虑组装的...
回答于 2018-11-13 13:10
性状数据分两种: 1. 数量数据:如基因的表达量,这个就采用基因的表达量即可,不需要改变 2. 类别数据: 这个数据需要转换成0,1 编码
回答于 2018-11-04 10:42
首先我们来看一下Cox 回归模型: 公式(1)可以转化为: 你所采用的Risk Score 是等式的右边,而我课程中使用的是RR, 两者应该是一个对数关系。
回答于 2018-11-01 17:48
1. 剪切异构体,这个在TCGA的数据中是没有提供的。有可能其他的数据库 2. 基因的甲基化状态可以将TCGA的甲基化数据下载下来进行分析
回答于 2018-10-28 11:21
1. 如果需要分析启动子序列,需要采用参考基因组,请采用核桃的基因组,提取启动子序列。 2. 以预测的miRNA的成熟体序列在参考基因组上找到对应的区域,如果找到的位置比较多,需要结合miRNA的前体序列,找到准确位置。
回答于 2018-10-28 11:08