mfuzz官网听说WGCNA官网崩了?那还能做基因共表达分析吗?

admin / 36 / 2025-06-19 155fun官网怎么进入 mfuzz官网

  在开始进行任何分析之前,我会首先尝试理解实验设计。对实验设计有良好的理解有助于我决定如何分析和可视化数据。

  根据metadata数据,有16个发育阶段。根据论文,发育阶段的顺序是:这里的数据比文章中的多一些,后面可以筛选一下数据

  这是一个双因素实验设计:发育阶段 * 组织。主要的变异来源是发育阶段、组织和重复样本。我通常会制作一个汇总表来指导我的下游分析:

  现在我们了解了实验设计,接下来我们将确定实验中变异的主要驱动因素。换句话说,在发育阶段和组织之间,哪个因素对实验中的变异贡献更大?这个问题的答案对于我们如何最有效地可视化数据至关重要。

  结果如下:根据论文,5个果皮组织是通过激光捕获显微切割(LM)收集的。首先需要注意的是技术差异。看来解剖方法确实是变异的主要来源,与PC1完全对应。

  现在x轴(PC2)明显区分了发育阶段:从左到右,从年轻到老年。y轴(PC3)明显区分了种子和所有其他东西。

  因此,在变异贡献方面,解剖方法 阶段 组织。我们将使用这些信息来指导下游的可视化。为了最好地区分生物学变异和技术变异,我们应该对手收集和LM样本进行单独的基因共表达分析。

  这不是一个必须的操作,只因为我们对组织-阶段组合之间的生物学变异感兴趣,而对同一处理中复制品之间的噪声不太感兴趣。(有点类似于mfuzz的时间序列分析)

  下一步是将每个基因与所有其他基因进行相关性分析。相关性的数量会随着基因数量的平方而增加。为了加速,我们可以选择只有高变异基因。背后的理念是,如果一个基因在所有样本中表达水平相似,那么它不太可能特别参与某个特定阶段或组织的生物学过程。

  选择高变异基因有多种方法和多个截止值。例如,你可以计算所有基因的logTPM的基因级方差,并取上三分位数。你可以选择在所有组织中具有一定表达水平的基因(比如说 5 tpm),然后取高变异基因。这些都是任意的。

  本次示例中,我们只取方差最高的5000个基因作为一个快速练习。在实际分析中需要包含更多的基因,但是相关性分析中的基因越多,速度就会越慢。

  检查分析中是否包含了足够多的基因,一个好方法是查看诱饵基因是否在方差最高的基因之中。前面找的两个诱饵基因为PG 、PSY1,都在数据中。

  现在我们可以将每个基因与所有其他基因进行相关性分析。这个工作流程的本质是简单的,如果你愿意,你可以使用更复杂的方法,比如GENIE3。

  并不是所有的相关性都是统计上显著的,也不是所有的相关性在生物学上都是有意义的。我们如何选择在下游分析中使用哪些相关性。我将这一步称为“边的选择”,其中每个基因是一个节点,每个相关性是一条边。我有两种方法可以做到这一点。

  随机抽取了20k条边并绘制了一个直方图。也可以绘制整个边表,当你抽样足够大时,它不会改变分布的形状。看起来在 r0.7(红线)时,分布迅速减少。因此,使用 r0.7r作为截止值。

  使用Leiden算法来检测模块,这是一种基于图的聚类方法。Leiden方法产生的聚类中,成员之间高度相互连接。在基因共表达的术语中,它寻找彼此高度相关的基因组。

  分辨率参数(resolution_parameter)控制你将获得多少个聚类。它的值越大,得到的聚类就越多。

  还可以通过折线图来对聚类进行质量控制(QC)。如果绘制所有模块的图,那会太多,所以我们只选择2个模块来查看。

  怎么说呢,感觉我个人不是很喜欢大篇幅使用tidyverse的代码,如果可以,我还是想用WGCNA吧!哈哈哈哈哈哈或。

  针对手把手10分文章WGCNA复现:小胶质细胞亚群在脑发育时髓鞘形成的作用,里面的数据集进行wgcna以及我们的提到的Simple Tidy GeneCoEx分析,然后对比这两个模块算法的结果的一致性。这些样本进行了RNASeq测序,数据在GEO可供下载:。当然我偷了个懒,该文章Supplemental material提供了整理之后的csv矩阵,大概1万3千个基因。

注意事项:

本站严格遵守《信息网络传播权保护条例》,仅分享已标注来源的公开事实信息,不复制原创内容。若权利人认为内容侵权,请于30日内联系,我们将立即核实并删除。

网站邮箱;yuzhibolangzi@gmail.com 通知邮箱谢谢!

转载请标明出处,谢谢。