n 维曲线与其选定子集之间的相似性

数据挖掘 机器学习 聚类 时间序列
2022-02-16 12:24:06

我在这里寻求一些建议。我的目标是检测 n 维数据中的相似模式。例如(非常简单)您有两个轴:X 轴是时间(以秒为单位),Y 轴是功率(以瓦特为单位)。所以你得到具有特定模式的时间序列。我的目标是选择时间序列的一个子集并计算其他输入数据与所选子集的相似度。最后,我想定义多个模式,输出预测哪个模式最接近给定的输入数据。

  • 是否适合使用机器学习 eq 模式识别来解决该问题,还是纯粹的矫枉过正?(我得到了使用 ML 的建议;也是在我有一个通用的 n 维数据的条件下)
  • 如果 ML 适合这个问题,你能给我一些建议,我可以从哪里开始吗?我不以任何方式寻求解决方案,我只是想对我应该朝哪个方向提出一些建议,因为 ML 对我来说是一个非常新的话题,而且我没有太多实践经验。

谢谢你。

1个回答

所以让我们开始吧!

首先,请查看我对您的原始问题所做的编辑。这不仅仅是一个编辑,而是暗示了重要的概念性事物,所以我需要从它们开始:

  • 图形图形是数学中用于类网络对象的保留术语。为了清楚起见,您最好使用“绘图”一词。所以这个问题绝对不是关于图表的。
  • Time-series data:您制作的示例,即数据点的时间序列称为Time-seriesn 维数据不一定是时间序列,但是两者似乎都抑制了相同的结构,它们在概念上是不同(但不一定不相关)的数据类型,并且为它们定义了不同的算法和问题集,所以请评论此处数据是否为时间序列。
  • 曲线图:最后但并非最不重要的是,曲线图仅用于说明数据,所有数据分析算法和方法都使用该数据进行推理。所以你永远不会从情节本身推断出任何东西,而是从它所描绘的数据中推断出来。如果您有任何类似绘图的数据,但您不知道您需要使用图像处理背后的数据,我很确定这不是这个问题的主题,但在您明确询问如何进行分析时想提及情节自己。

在这些点之后,我回到你的问题。是的,您正在寻找的是模式识别,您可以使用许多机器学习方法来解决您的问题。如果您已经知道什么是不同的模式类别,则称为分类,但现在,据我了解,您不知道类别,而是想找到相似的模式在数据中寻找相似性模式称为聚类

因为我不知道您的数据是时间序列(例如下雨量与时间)还是只是结构化的 n 维数据(例如下雨量与湿度),所以我两者都尝试。

时间序列

当您有不同的时间序列片段并且您需要它们的相似性时,您可以使用相关分析动态时间规整如果时间序列是高频的,例如语音数据EEG,那么您最好将数据转换为域(或时频)域,然后从这些片段中提取特征,然后使用这些特征来确定相似度请注意,术语相似性非常广泛,它是根据数据和问题的性质定义的。您可以搜索时间序列聚类以获取更多方法。

非时间数据

拟合这些数据子集的回归模型的参数之间的相似性可能会有所帮助。另一种方法是将聚类算法应用于这些段。这些算法可以应用于原始数据子集或从中提取的一些特征。PCA这样的降算法可用于特征提取,可能有助于更好的聚类。

我匆忙写下了我的答案,因此我将不胜感激任何评论或进一步的问题。

祝你好运!