复杂网络(可参考维基百科Complex network、Network theory)由多个基本单元( 或节点) 与它们之间的相互作用( 即连线) 组成,典型的例子有互联网、神经网络和各类生物网络(包括代谢网络、基因调控网络等等)。
(图片来源于网络)
而利用Cytoscape绘制网络图的过程也就是基于这些基本单元及其联系去建立网络图片的过程。
那么软件绘图过程所识别的数据格式是什么样的呢?
向Cytoscape提交的基本数据其实就是——两个对象(也就是两个点),以及这两个对象存在关系(连线),我们只需要告诉软件这个信息就可以了。譬如在整个网络里面A 和B 是关联的(下图),我们就要提交一个数据告诉软件A和B在网络图片里面应该有一条连线。
所以我们会整理出一个最基本的数据 :一行两列:
Node1 |
Node2 |
A |
B |
提交的数据中这一内容,告诉Cytoscape软件:网络有两个对象(点)是A和B, 这两个对象之间是相互作用的,画出来的网络图就必定包含这两个点并且点之间以线连接。
把整个网络都可以这样进行拆分,取出所有点之间的连接关系,也就要求我们提供整个网络中所有点之间的数据了。
那就把所有的数据按照这样的结构整理,A、B、C、D…… (所有点之间的联系)
Node1 |
Node2 |
A |
B |
C |
D |
…… |
|
这样的数据就能告诉软件整个网络图里面哪些点之间是相互连接的了,它说明了所有的对象之间的相互关系。一行对应一对关系,并表明了所涉及的两个对象。
这个是Cytoscape绘制网络图所识别的基础数据格式。至于涉及点的一些属性或者线的属性信息则在这种基础数据格式的基础上增加新的列(以描述这些属性),此处不进行介绍。
补充:如果网络中涉及独立的点(上图),与网络中其他的点不存在相互作用,可以直接在其中的一列中添加改点的名称,而与具有联系的点内容部分以空(不填)表示,Cytoscape也能正常读取数据,并在绘图结果中出现该独立了点。
Node1 |
Node2 |
A |
B |
C |
D |
E |
(不要填写) |
…… |
|
譬如以导入Cytoscape如下数据(tab制表符分隔的文本文件):
Node1 |
Node2 |
A |
B |
C |
D |
E |
|
F |
G |
可获得基础初始网络如下(E独立出现):
如果单纯从Cytoscape识别的数据文件去理解,很多人以为这样两列格式的对应关系,显示的是一个二元关系网络?
三元关系网络甚至四元关系等多元关系网络的数据呢?毕竟可能存在对象A和B作用进而间接和C有了作用?
例如ceRNA网络中经常会有多元关系网络:lncRNA——miRNA——mRNA ,或者其他的一些分析数据显示出来的多元关系。
直接看Cytoscape数据文件格式,很多人会想:难道数据要整理成下面这样?
Node1 |
Node2 |
Node3 |
lncRNA |
miRNA |
mRNA |
这就是你没有理解网络的概念了,我们前面说过网络由多个基本单元( 或节点) 与它们之间的相互作用( 即连线) 组成,你所列举的多元关系,譬如下方的A(lncRNA)、B(miRNA)、C(mRNA):
即使它是三元关系等多元关系网络,也是拆分成这种两列多行的数据格式,譬如A作用于B,B再作用于C,完全能写成如下格式(和你去“拆分”整个大网络是一样的):
Node1 |
Node2 |
A |
B |
B |
C |
…… |
|
这种生物网络中对应的多元关系其实就是对象(点)的多元类型,告诉你这些不同类型的对象之间是直接或者间接联系而已,他们所构成的网络一样都是可以“拆”的。
完成拆分和数据整理之后再让软件去识别,毕竟软件是死的人是活的~~
所以在理解网络的真正概念之后,关于Cytoscape识别的基础数据为什么会是这种两列格式也就能轻易理解了。
如果想提升自己的绘图技能,我们推荐:Cytoscape与网络图绘制课程、R语言绘图基础(ggplot2)
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、perl入门到精通、perl语言高级、R语言入门、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、GEO芯片数据标准化、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!