Skip to content

Latest commit

 

History

History
136 lines (122 loc) · 9.68 KB

File metadata and controls

136 lines (122 loc) · 9.68 KB

如何读懂这张 GO 富集 dotplot

图表整体判断

这是一张 clusterProfiler 风格的 GO enrichment dotplot。核心变量包括 GO term、GeneRatio、Count 和 p.adjust。它的主要目的不是展示原始表达量,而是说明 neuron-up genes 在哪些 biological process 中显著富集。整体图表类型适合富集结果浏览,但对普通读者而言,点大小、颜色、显著性和基因比例容易混淆,因此适合扩展成带编号注释的解释图。

线条标记说明

  1. 标题与副标题
    • 标注位置:图顶端标题区
    • 可视化现象:标题说明这是 NSC vs neuron 中 neuron-elevated genes 的 GO enrichment dotplot。
    • 数据含义:图的研究对象是小鼠脑发育数据集 GSE207092,关注神经元上调基因的生物过程富集。
    • 统计解释:标题限定了比较方向,因此不能把结果解释为所有脑发育基因的总体规律。
    • 启示:业务或研究结论应聚焦成熟神经元相关程序,而不是泛化到全部细胞类型。
    • 误读风险:如果忽略 comparison direction,读者可能把 neuron-up 误读为 NSC-up。
    • 进一步验证:需要回查差异分析设计矩阵、contrast 方向和基因筛选阈值。
  2. Y 轴 GO term
    • 标注位置:左侧纵轴分类标签
    • 可视化现象:纵轴列出 regulation of synapse structure/activity、synapse assembly 等 GO biological process term。
    • 数据含义:每一行是一个功能集合,不是单个基因。
    • 统计解释:GO term 之间可能高度重叠,行与行并非独立样本。
    • 启示:可读为神经元相关功能模块成簇出现,而不是十几个彼此独立发现。
    • 误读风险:把多个相似 GO term 当成多个独立证据会夸大结论强度。
    • 进一步验证:需要用 term similarity、emapplot 或去冗余方法检查 term 重叠。
  3. X 轴 GeneRatio
    • 标注位置:底部横轴尺度
    • 可视化现象:点越靠右,命中该 GO term 的输入基因比例越高。
    • 数据含义:GeneRatio 反映富集集合中被观测到的基因占比。
    • 统计解释:GeneRatio 不是效应量本身,也不是表达量大小。
    • 启示:靠右的 term 更集中地覆盖 neuron-up gene list。
    • 误读风险:不能把 GeneRatio 直接解释为基因表达上调幅度。
    • 进一步验证:需要结合 fold enrichment、Count 和背景基因集定义。
  4. 点大小 Count
    • 标注位置:图例中的 Count 和各行圆点面积
    • 可视化现象:圆点面积编码命中该 term 的基因数量。
    • 数据含义:大点表示更多 neuron-up genes 落在该功能集合中。
    • 统计解释:Count 受 GO term 本身大小影响,大集合天然更容易有更多命中。
    • 启示:大点可提示广泛生物程序,但不自动代表更强显著性。
    • 误读风险:读者容易把面积大小误当成 p 值或重要性排名。
    • 进一步验证:需要同时查看 GeneRatio、BgRatio 和 p.adjust。
  5. 颜色 p.adjust
    • 标注位置:右侧 p.adjust 色标
    • 可视化现象:颜色映射多重校正后的显著性,极小 p.adjust 对应更强统计证据。
    • 数据含义:该图中顶部 synapse-related terms 的 p.adjust 达到 10^-70 到 10^-77 量级。
    • 统计解释:这是富集检验显著性,不是预测准确率或因果强度。
    • 启示:神经元上调基因与突触组织、突触结构和囊泡循环高度一致。
    • 误读风险:极小 p 值可能来自基因数量多和背景集合定义,不能单独代表生物效应大小。
    • 进一步验证:应报告输入基因数、背景基因数和多重检验方法。
  6. 顶部高显著区域
    • 标注位置:图上方密集深色/大点区域
    • 可视化现象:regulation of synapse structure/activity 等 top terms 同时具有高 Count、较高 GeneRatio 和极小 p.adjust。
    • 数据含义:主要信号集中在突触结构与突触组织。
    • 统计解释:多个指标共同指向同一功能主题,模式稳定性比单一点更强。
    • 启示:图支持 neuron-up genes 对成熟神经元连接功能的富集。
    • 误读风险:不能据此证明这些基因导致神经元成熟,只能说明统计关联。
    • 进一步验证:需要独立数据集、时间序列或功能实验验证方向性。
  7. 中部 vesicle / cognition terms
    • 标注位置:图中部功能条目
    • 可视化现象:synaptic vesicle cycle、cognition、learning or memory 等 term 位于中高 GeneRatio 区域。
    • 数据含义:除结构连接外,信号释放与神经功能相关 term 也被富集。
    • 统计解释:这是功能层级扩展,可能由相同核心基因驱动。
    • 启示:读者可理解为从结构装配延伸到通信功能。
    • 误读风险:cognition/learning 术语较宏观,容易被过度解释成人类行为结论。
    • 进一步验证:应检查贡献基因列表和物种/组织上下文。
  8. 底部较弱或较小集合
    • 标注位置:图下方相对靠左或较小点
    • 可视化现象:底部 term 通常 Count 或 GeneRatio 较低,视觉权重较小。
    • 数据含义:这些功能仍可能显著,但证据或覆盖度弱于顶部主题。
    • 统计解释:排序方式影响读者对重要性的判断;需明确是否按 p.adjust、GeneRatio 或默认 clusterProfiler 规则排序。
    • 启示:解读应聚焦主模式,不宜逐条讲所有 term。
    • 误读风险:如果分类顺序未说明,读者可能误以为从上到下就是唯一重要性排名。
    • 进一步验证:需要在图注说明排序依据。
  9. 无置信区间
    • 标注位置:所有点周围
    • 可视化现象:图中没有误差线、置信区间或 bootstrap 稳定性信息。
    • 数据含义:图展示富集检验结果,而不是估计不确定性的区间图。
    • 统计解释:p.adjust 控制多重检验,但不展示对样本扰动的稳健性。
    • 启示:适合展示探索性富集结果,不足以单独完成强验证。
    • 误读风险:读者可能把显著性当成稳定性或可重复性。
    • 进一步验证:可做重采样、leave-one-sample-out 或独立队列复现。
  10. 样本量背景
  • 标注位置:副标题或图注应出现的位置
  • 可视化现象:图中没有直接显示每组样本量、输入基因筛选阈值和背景集。
  • 数据含义:读者无法仅凭图判断差异分析基础是否稳健。
  • 统计解释:前序差异分析若样本量小,会影响进入富集分析的基因列表。
  • 启示:普通读者需要图注说明 n、阈值和数据来源。
  • 误读风险:只看 dotplot 容易忽略 upstream analysis 的不确定性。
  • 进一步验证:补充 n=2 每组、limma/eBayes、padj/logFC threshold 和背景基因集。
  1. 相关不等于因果
  • 标注位置:结论摘要区
  • 可视化现象:图显示 neuron-up genes 与突触相关 GO terms 的统计富集。
  • 数据含义:这是表达模式与功能注释的关联证据。
  • 统计解释:富集检验不能区分驱动基因、伴随变化或注释偏差。
  • 启示:可说支持神经元成熟功能特征,不可直接说某通路导致分化。
  • 误读风险:商业或研究汇报中容易把 enrichment 讲成 causal mechanism。
  • 进一步验证:需要扰动实验、时间序列或 causal model。

统计与数据洞察

  • 最强主线是突触结构、突触组织、突触装配和囊泡循环等 neuron function terms 的集中富集。
  • 顶部条目同时表现为较高 Count、较高 GeneRatio 和极小 p.adjust,说明主模式不是单一视觉编码造成的。
  • 这些 GO terms 具有语义重叠,不能把每一行都当作独立证据累加。
  • 图支持 neuron-up genes 带有成熟神经元连接与通信特征,但不直接证明因果机制。

可视化设计诊断

  • 图表类型适合富集分析结果,但需要解释图例,否则普通读者容易误解点大小和颜色。
  • X 轴使用 GeneRatio 合理,但需要补充说明它不是表达倍数。
  • 颜色映射 p.adjust 专业上合理,但极小 p 值的连续色标对非专业读者不够直观。
  • 没有明显 overplotting,因为每个 term 一行一个点;主要问题是术语长、图例抽象、缺少图注。
  • 缺少样本量、输入基因阈值、背景基因集和排序依据说明。

潜在误读与风险提示

  • 不能把 p.adjust 颜色解释为表达量大小。
  • 不能把 Count 点面积解释为显著性强弱。
  • 不能把 GeneRatio 解释为 fold change。
  • 不能把 GO enrichment 解释为因果通路证明。
  • GO term 之间重叠会导致视觉上看似多个发现,实际可能是同一基因模块的重复注释。
  • 上游差异分析样本量、阈值和背景集未显示,会影响结论稳健性。

改进建议

  • 在图内或图注补充 n、差异基因阈值、背景基因集和排序规则。
  • 增加一行普通语言解释:横轴是命中比例、点大小是基因数、颜色是校正后显著性。
  • 对相似 GO term 做去冗余或分组摘要,避免术语堆叠。
  • 对关键 term 添加贡献基因示例,例如 Snap25、Grin1、Dlg4 等。
  • 如果用于汇报,建议配套 emapplot 或 grouped bar summary 展示 term 重叠。
  • 若要支持强结论,应增加独立数据复现或扰动实验验证。

结论摘要

  • 这张图支持 neuron-up genes 显著富集于突触结构、突触组织、突触装配和囊泡循环相关功能。
  • 图更适合表达功能解释主线,而不是展示单个基因的表达强弱。
  • 目前不能直接得出因果结论,也不能仅凭 p.adjust 判断生物效应大小。
  • 普通读者需要额外解释 GeneRatio、Count、p.adjust 和 GO term 重叠,否则容易误读。