WGCNA分析流程及内容解读
时间:2024-12-06 阅读:88
文章标题:通过 WGCNA 和机器学习识别和验证与免疫和氧化应激相关的糖尿病肾病诊断标记物
发表年限:2023年
期刊:Frontiers in Immunology
影响因子:5.7
研究背景:
糖尿病肾病(DN)以蛋白尿、高血压和肾功能进行性减退为特征,是发达国家终末期肾病最常见的病因,造成了严重的社会和经济负担。研究表明,随着全球糖尿病发病率的上升,DN患者的人数也在不断增加,预计在未来20年左右的时间里,全球糖尿病发病率将从5.37亿人上升到7.83亿人。与此相反,目前的治疗方案强调肾素-血管紧张素系统阻断、血压管理和血糖控制。因此,DN诊断和治疗迫切需要新的靶点。近年来,随着生物信息学的发展,其研究技术已被积极用于探索包括DN在内的多种疾病的靶点。
研究结果:
本文中,作者使用R软件包"WGCNA"构建了WGCNA,以识别与糖尿病肾病患者免疫细胞相关性最高的模块。 具体来说,首先对样本数据进行了预处理,并剔除了异常值。随后,"WGCNA"软件包构建了相关矩阵。选择最佳软阈值将相关矩阵转换为邻接矩阵,并根据邻接矩阵创建拓扑重叠矩阵(TOM)。利用基于TOM的相异性度量,采用平均关联分层聚类将具有相似表达模式的基因归类为基因模块。与免疫细胞相关性较强的两个模块被选为关键模块,用于后续分析。
该研究中软阈值功率校准为0.85(图B)。最后,WGCNA分析显示了11个模块的总和(图C)。其中,绿色模块和品红色模块分别与T细胞CD4幼稚亚群和γ δ 亚群有很强的正相关性。由于绿色模块和品红色模块与免疫浸润细胞有重要关联,因此考虑对这两个模块进行进一步研究。
从上述文章中可以看出,WGCNA分析可用于识别高度相关的基因模块,总结模块之间的相互联系以及与外部样本性状的关联,并识别候选生物标记物或治疗靶点。
WGCNA,全称为weighted gene co-expression network analysis,即加权基因共表达网络分析。它是一种分析多个样本基因表达模式的分析方法,可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系,在研究表型性状与基因关联分析等方面的研究中被广泛应用。
1.数据输入、清洗和预处理
使用R包”WGCNA“进行分析,输入数据一般为fpkm表达量数据,推荐5组(或者15个样品)以上的数据,数据的行为基因,列为不同样本的基因表达量。
2.使用goodSamplesGenes检查缺失值和识别离群值(异常值)
如果gsg$allOK的结果为TRUE,证明没有缺失值,可以直接下一步。如果为FALSE,则需要用以下函数进行删除缺失值。
对所有样本进行聚类,观察是否有离群值或异常值,如果有离群值则要删去离群的样本。
3. 读入样本信息并进行筛选,得到表型数据与表达量数据二者共有的样本数据,并重新构建聚类树。
颜色越深,代表这个表型数据与这个样本的基因表达量关系越密切。将此步骤的数据进行保存,命名为file1。
4.对匹配后的样本基因表达量数据和表型数据进行分析,选择合适的软阈值构建网络,并绘制层次聚类树。
5. 选择合适的软阈值构建自动化网络和检测模块,使用sft$powerEstimate查看推荐的软阈值。
6.为了更清晰地反映出样本基因的聚类关系,我们将这些基因划分成了若干个模块,每个模块至少存在30个基因,每一个颜色代表一个模块,将划分后的模块和样本基因的层次聚类树一起显示,如下图所示:
保存模块信息:file2。
7.载入file1和file2,将性状信息和模块信息相关联,并绘制模块与性状之间的相关性热图。
图中红色为正相关,蓝色为负相关,颜色越深则相关性越强。
8.加权网络可视化
可视化加权网络的方法之一是制作热图。热图的每行每列代表一个基因,浅色代表低邻接;深色代表高邻接,基因之间的邻接程度低意味着基因之间的度量值较小,即他们之间之间的相似性较低,这可能表示它们在表达模式、功能或调控方面存在较大的差异。相反,邻接程度高表示基因之间的度量值较大,即它们之间的相似性较高。这可能表示它们在表达模式、功能或调控方面存在相似性。由于样本的基因数量较多,我们从中随机选取了400个基因进行绘图,图片如下所示:
9.此外,可以使用分析结果针对特定模块绘制相关性网络图,还可以将数据导入到相关软件中(如:Cytoscape)进行相关性网络的可视化。
参考文献:
[1] Xu M, Zhou H, et al. Identification and validation of immune and oxidative stress-related diagnostic markers for diabetic nephropathy by WGCNA and machine learning. Front Immunol. 2023 Feb 22;14:1084531.
[2] Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 2008 Dec 29;9:559.