散点图中的“分裂”是否表明了什么?

机器算法验证 相关性 数据可视化 散点图 偏相关
2022-03-25 10:34:09

背景

我正在探索跨越机械、电气和物理(尺寸)属性的 7 个系统参数之间的关系。我收集了 36 个不同系统的 7 个规格,并绘制了每个参数组合,以查看存在的相关性(如果有的话)。

  • 列具有与底行中标识的相同的 x 轴参数
  • 每行具有与第一列中标识的相同的 y 轴参数

因素影响图

讨论

一些图验证了已知关系:我事先知道参数 3 和 4 是正相关的,而参数 2 和 7 是负相关的。

我也知道我有一张不完整的照片。例如,参数 1 是参数 3 和我没有数据的其他两个参数的乘积。这些未知参数中的一个(或可能两个!)会显着影响参数 2。我不知道如何,但我知道存在相关性。

问题

我很好奇某些图中的中间趋势“分裂”/分歧——例如:p5 vs p4、p5 vs p6、p7 vs p6——是否是这些未知参数的影响。

  1. 如果有的话,这些分裂表明了什么?
  2. 我可以运行哪些额外的测试来揭示更具体的信息?

PS:请告诉我如何改进我的图表!

更新

正如 Nuclear Wang 和 DWin 所建议的那样,我调查了我的子组数据。我还添加了来自另一个离散变量的数据,所以我的参数总数为 8。

参数 5 和 6(直径和长度)都是体积规格,所以我根据它们的 D/L 比划分所有点。这实际上解决了大部分“分歧”!

  • 扁平和宽系统 (D/L > 1) 为蓝色
  • 长而细的系统 (D/L <= 1) 是橙色的

亚组因子效应

2个回答

当我看到这样的情节时,我的想法立即转向样本子组。似乎您有两个不同的样本组,每个样本组都有一条明显的趋势线。您的所有样本是否都相似,或者它们之间是否存在一些分类差异?假设您的一张发散图代表硬盘驱动器的价格与容量。两个样本组可能代表不同的制造商,一组产品便宜且美元/GB 斜率低,另一组产品更昂贵且美元/GB 斜率高。

为了进一步表征这一点,您可以在其中一条发散线上标记样本,并在其他图表上绘制这些样本标签。如果您始终看到相同的样本落在多个变量的单独趋势线上,则表明存在某种类别差异,驱动了您观察到的多个变量的行为。

至少有一个离散变量 parm3 并且可能还有其他未标记的分组。我将首先重做该图形,同时使用颜色编码标记 parm3 值。十,您可以快速查看是否有一种或两种颜色落入明显的“分裂”中。

这似乎是一个“对”情节。在 R 中,您可以执行以下操作:

pairs(  data , bg= rainbow(10)[parm3], other parameters)

对彩虹函数的调用将为您提供可见光谱中的 10 种颜色。parm3 的值将被单独“绘制”。