WGCNA(weighted gene co-expression network analysis,权重基因共表达网络分析)能将多个样本中的上万个基因,根据它们的表达模式划分到数个至数十个模块当中,然后以模块为单位进行分析。这不仅减少了我们的运算量,也提高了分析的准确性。
在转录组数据分析里,这种适合大样本的分析方法真是越来越香了,大家也一直在询问什么时候能在线上做WGCNA。今天, Omicsmart WGCNA分析平台正式上线啦!
一种分析,我们除了要知道能得到哪些结果,更需要了解其分析的意义,这样才能知道如何利用结果去探索得到我们想要的信息。下面我们就一起来看下,究竟该如何利用WGCNA去找到那些与样本及性状最相关的基因,以及确定基因与基因之间的关联关系。
划分模块
1. Power值
WGCNA起手最关键的一步,就是要确定power值的大小。
WGCNA会对基因间的相关性取β次幂进行幂函数处理。少量强相关性的关系不受影响或影响较少;相关性弱的关系取β次幂后,相关性下降明显,那么这个β值就是power值了。接着对相关关系进行无尺度化。无尺度网络中大部分基因只和少数基因相关,少数的hub基因位于核心位置。通过这种无尺度化,更容易找到起到关键调控作用的基因。
图1 Power值曲线
在线分析的好处就是可以随意调整参数,不用再纠结于power值到底怎么定才好,可以先看结果再选择。当然,Power值也不是越高越好,相关性太高,连通性同时也会降低,所以一般是选择相关性(左图纵坐标)刚达到平台期的power值进行分析。
2. 确定模块数量
首先要找到使数据整体符合无尺度分布的power值,构建基因聚类树,并根据基因间的聚类关系进行基因模块的划分,再根据模块特征值的相似度对表达模式相近的模块进行合并。
模块特征值(module eigengene,ME)是模块中的所有基因进行PCA分析后得到的主成分1(PC1)的值。PC1相当于模块中所有基因表达量的加权,可代表该模块内基因的整体表达模式。
根据基因间的聚类关系进行基因模块的划分,是指对聚类树的分支进行剪切区分,产生不同的模块,每个颜色代表一个模块,灰色表示无法归入任何一个模块的基因, 表达模式相似的基因将被划入同一个模块。在进行初步的模块划分之后,获得初步划分的模块结果Dynamic Tree Cut,每个模块都用颜色来命名。由于有些模块非常相似,所以需要 根据模块特征值的相似度对表达模式相近的模块再进行合并,获得最终划分的模块Merged dynamic。
能划分到一个模块的基因,就代表了这些基因的表达模式是相近的。所以后续我们才能以划分好的模块为单位,对基因进行分析。
图2 模块层级聚类图
模块与样本分析
划模块不是目的,看哪些模块和样本有关,找到最相关的那些基因才是我们的目标。而将基因、模块、样本三者关联起来的方法,是依据各模块内的基因在各样本中的表达量来计算各模块在各样本中的模块特征值。
图3 模块与样本分析动态组合图
热图呈现了在各样本中各基因的表达量,柱状图表示该模块在各样本中的模块特征值。热图以基因为单位,对表达量进行z-score归一化的处理。在各样本中,默认基因如果呈现红色,说明表达量处于升高的水平,如果是绿色, 说明处于降低的水平。而柱状图表示的模块特征值也与之相对应,正值表示模块内大部分基因发生上调,负值说明大部分基因发生下调。
有了这个“组合拳”,一方面,我们能知道这个模块和重点关注的样本是呈正相关还是负相关;另一方面,我们还能具体了解到,到底是哪些基因占到了主导的地位。掌握了这些信息,我们可以根据研究目的挑选出正相关或负相关的模块,或者直接选择高表达或低表达的基因用于后续分析。
模块功能分析
WGCNA结果中还会输出模块-模块关联,模块-基因关联的分析结果。
但在挑选目标模块的时候,除了结合基因的表达量去看,另一个需要重点关注的是基因的功能。一般而言,划分到一个模块内的基因的表达模式是相近的,功能也可能是相近的。所以我们能以模块为单位,对模块内所有基因进行GO、KEGG富集分析,再去了解一下样本中大部分基因上调或下调的模块主要是有哪些功能。
图4 模块内基因富集分析
模块与表型分析
除了找和重点关注的样本最相关的模块,WGCNA在文章中被应用的最多的,就是通过输入性状数据,找到和性状最相关的模块。
性状数据就是样本的表型数据,比如身高、年龄或者性别。对于年龄这种有具体数值的数据,可以直接输入数值进行分析;如果是性别,需要转化为“0,1”数据再进行相关性计算。最终可获得模块与性状、基因与性状的相关系数。
这一步需要重点关注的数值有三个:MM,GS,K.in。
1. MM值
module membership,是计算基因的表达量和模块特征值之间的相关系数,相关性越高,说明基因和模块的关联性就越高;如果相关性都小于0.7,呈现弱相关,那么说明这个基因不属于任何一个模块。
2. GS值
gene significance,每个基因与性状的相关性。
3. K.in 值
intramodular connectivity,通过计算基因在所属模块内邻接值的总和,作为该基因在模块内的连通性。
如果GS值和MM值高度相关,则表明该基因是模块内很重要的元素,并且和性状显著相关。同时,如果MM值和K.in值高度相关,则表明这个基因比给定的模块来说,对于这个性状的意义更大。综合来讲,核心(hub)基因通常是有高GS 值,高MM 值和高K.in值,它们与其他基因高度相关,通常位于调控网络的中心,具有更重要的功能意义。
我们的Omicsmart平台,可以在线查看MM-GS相关性散点图和K.in-GS相关性散点图,觉得哪些基因重要,就圈哪里,随时随地动态查看基因信息。
图5 性状与模块MM-GS相关性
基因调控网络图
WGCNA构建了基因间的邻接矩阵,分析了他们之间的关联关系,并不是直接输出了一个网络图出来。如果我们想要获得文章中的那种网络图,则需要自行将数据导入到Cytoscape中进行绘制。而在画网络图中,点和线是两个基本要素,点是基因,线是基因和基因之间的关联。
通过WGCNA我们能得到基因与所有基因的连通性(All.k.total)和该基因在模块内的连通性(All.Kwithin),以及上面提到的GS值和MM值。根据这些信息,我们已经可以根据我们的需求,按各个值的大小去筛选出来一些基因进行图形 绘制了。
能够帮助我们筛选基因的工具有两个,一个是富集分析,另一个是转录因子注释信息。根据富集分析结果,我们可以挑选出重点关注的显著富集通路内的基因去画图,而转录因子通常是调控网络中的核心基因,如果有“明星基因”,那么我们可以直接依据这个信息去绘图。
确定了画图的点后,如果把和这些点全部相关的基因都画出来,那可能有上百条线,所以我们还需要进一步根据线的信息去过滤。基因和基因间除了直接地关联,还能通过别的基因迂回相关。给不同的相关程度赋予一个权重系数,最终可以得到两个基因的相关性的权重值(weight)。Weight值越高,说明两个基因越相关。之后我们可以依据Weight值挑选每个基因相关性较高的一些关系对去绘图。
Omicsmart平台可以在线挑选基因和关系对,基于Cytoscape一键生成网络图,还可以调整节点和线的大小、颜色等等多种参数,调起来像闪耀的灯球……
图6 动态基因调控网络图
自己做WGCNA分析还是比较复杂的,而Omicsmart的WGCNA分析平台,能帮你实现用最简洁的操作,找到最核心的基因!欢迎登录Omicsmart试用账户体验。
网址:www.omicsmart.com
账户:omicsmart
密码:test888888返回搜狐,查看更多