这是聚类分析/预测吗?

数据挖掘 聚类
2021-09-26 21:31:12

我有一系列看似随机的数据,每次都滴入一个值。虽然看起来是随机的,但当分析图表显示的某些属性时,数据会形成集群。我试图避免看到不存在的模式的谬误,但在多个数据集中,数据确实似乎随着时间的推移形成了集群。我有兴趣尝试:

  • 检测我拥有的数据中蓝色方块和/或白色方块的簇
  • 忽略异常数据
  • 随着数据一次滴入一列,预测集群的未来形状。(随着时间的推移,新数据的当前集群区域位于先前集群的附近区域的集群形状似乎存在一定的动量)

它们似乎呈现出规则的半可预测形状(至少在我看来)遵循之前数据的动量。我怎么能检测到这个?

我的问题是:

  • 是这个聚类分析吗?
  • 检测白色方块和/或蓝色区域的最佳方法是什么。我猜蓝色区域最容易聚集?
  • 白色方块看起来非常接近之前的 y 值,并且可能会以某个角度向上或向下继续值。预测这一点的最佳方法是什么?

在此处输入图像描述 在此处输入图像描述 在此处输入图像描述 在此处输入图像描述

2个回答

我认为您的过程并不是真正的聚类分析问题,而是时间序列分析问题。您有一些测量值的过程(变量)在不同的时间点(X多变的)。我建议使用Shewhart 控制图或类似的东西来了解您拥有的过程。您还应该对分布进行分析以确保它是正态的,或者使用 CLT 使数据趋于正态。

首先,我将总结我对您的查询和提供的图表的理解:

  1. 这 4 个图表在 x 轴上表示时间,在 y 轴上表示随机变量的值。
  2. 您想了解底层过程是否可以分解为不稳定分量和周期性分量,并在这样做的同时能够预测下一个时间点的值。

正如 Marcus D 所指出的,这似乎是一个时间序列问题。我建议您可以尝试以下方法:

  1. 尝试使用 Holt-Winters 分解时间序列(尝试加法和乘法模型)
  2. 尝试通过取与先前值的差异、对数差异等来转换变量,这可能会产生更适合此类过滤方法的变量。

季节性和趋势组件应该让您深入了解此过程的任何可预测性。有时,特定领域的假设可以为下一步的分析提供良好的线索。