1. 可以提取更长的promoter序列,我们课程中是提取500bp吧,你可以提取1000,甚至2000. 采用《TCGA-转录因子调控》课程中提供的“get_promoter.py” 脚本。 2. 差异表达分析可以放宽一些筛选条件,使得差异的TF更多一些,lncRNA更多一些,这样才能有更多的结果。
回答于 2018-12-24 09:34
这个需要见你输入的GTF文件的格式,一般来说是GTF或GFF文件中注释信息不规范。 提供一个规范的格式供你参考:
回答于 2018-12-21 13:02
这个的主要原因是有个包没有加载,请以参考资料中的“hisat2_pipline.sh” 文件为模板,去分析数据。里面有一步“export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$SOFTWARE_DIR/flexbar_v2.5_linux64/” 就是解决这个问题的。
回答于 2018-12-21 07:38
有了KEGG,GO的注释信息,其实做富集比较简单。 1. 可以 采用超几何检验,针对不同的pathway和GO term 进行富集分析。 2. 具体操作的话,就需要自己去写富集分析的代码了。
回答于 2018-12-19 14:45
从错误信息来看,应该是你取 varnames 有问题(基因名称),跟单因素分析中用的表达量矩阵中的基因ID不一致。导致公式报错。
回答于 2018-12-03 12:52
这个不好判断,需要看具体的情况 1. 先检查一下第一步ccs 生成的文件,里面有个report 文件吧,看看统计信息。 2. 再检查一下第二步lima 里面有个summary 文件。 可以截个图过来看看。
回答于 2018-11-28 09:45
1. 一般传到SRA的数据都是去接头的 clean data,方便共享给其他科研人员。 但是也有一些科研人员,乱传数据。 2. 向作者咨询: 你可以发邮件给作者,询问数据的接头序列 3. 从建库信息着手: 这个稍微麻烦一些,你首先需要知道序列是什么机器测序的,大概是什么建库,因为如果采用的是建库试剂盒的话,接头序列可以在对...
回答于 2018-11-25 09:08