WGCNA全流程

WGCNA WGCNA是最初接触到课题的时候学习的,最近要帮别的课题组做一个四组数据的WGCNA分析,去寻找每组的特征基因,趁着个机会,整理一下WGCNA的全流程 什么是WGCNA? WGCNA的全称为Weighted correlation network analysis, 基本的原理就是通过对基因的聚类将基因划分为多个模块,去分析模块和性状,包括性别,年龄,以及分组情况等的关系. WGCNA流程 导入数据 导入基因表达数据. # 数据的行为基因,列为样本 dat <- read.table( "~/project/other.data/AD_USP25_4_GT/AllSamplesGeneExpressionCount.txt" ,header= T ,stringsAsFactors= F ) sample.info <- read.table( "~/project/other.data/AD_USP25_4_GT/sample.info.txt" ,header= T ,stringsAsFactors= F ) # 将 counts 转换为 log2(counts+1),并且将数据转置 datExpr0 <- t(log2(dat+ 1 )) datExpr0[datExpr0== 0 ] <- NA 数据清洗 检查基因或者样本是否有过多的缺失值. gsg = goodSamplesGenes(datExpr0, verbose = 3 ) gsg$allOK # 如果 gsg$allOK 返回 TRUE, 所有的基因和样本都通过了检测,如果返回FALSE,我们酒需要删除那些缺失值过多的基因和样本 if (!gsg$allOK) { if (sum(!gsg$goodGenes)> 0 ) printFlush(paste( "Removing genes:" , paste(names(datExpr0)[!gsg$goodGenes], collapse = ", " ))); if (sum(!gsg$goodSamples)> 0 ) ...