聚类和分割的区别

机器算法验证 时间序列 聚类 多元分析 术语 时间序列分割
2022-03-27 17:56:52

我已经阅读了关于分段聚合近似 (PAA)挖掘时间序列数据、滑动窗口、自上而下和自下而上的时间序列分割方法,但这些方法适用于单维时间序列。

多维时间序列分割的技术有哪些?高斯混合模型或K均值聚类可以用于分割吗?如果是这样,那么分割和聚类之间有什么区别?

  1. 分段和聚类有什么区别

  2. 如何分割运动时间序列数据以保留时间信息。

  3. 这样做的算法是什么 - 多维时间序列分割的技术是什么?

请提供链接或想法谢谢。

3个回答

分割与聚类

在控制系统工程中,可控性和可测性的思想,通过凯莱-汉密尔顿定理,是同一现象的两个方面。一个暗示另一个。

分割和聚类也是同一枚硬币的两个面。聚类成员的等概率线是分割边界。这是一个很深的话题,关于收敛性、空间性质和适当的基函数的讨论超出了这个答案的范围。

保留时间信息

如果我这样做,那么我会用集群成员来增加每个时间成员。我会同时使用集群索引和集群马氏距离。因此,如果您在每个瞬间进行一次测量,然后对数据进行聚类,您的增强时间序列在每个瞬间将具有三个值 - 聚类索引、马氏距离(有用)和测量本身。

算法

作为一种形式主义,我对时间序列做的不多,所以这一切都是亲力亲为的。当我有时间数据并且想要聚类时,我只是将时间测量用作另一个测量。

这意味着,如果您每瞬间进行一次测量,那么您将进行一次2d walk,其中时间严格增加。您可以丢弃时间并仅在测量中聚集。(这里是许多适当方法的链接:AutonLab)您可以查看两者。您可以转换为滞后坐标或时差坐标,并根据速度、加速度等进行思考。经典的醉汉步行是二维随机的,是一个扩散过程。能够设计您的数据作为这样的步行打开了这些分析工具的使用。链接链接链接链接) 扩散在许多学科中都有研究,包括遗传学、数学、材料科学、流行病学和计算机科学。

没有完美的“百事可乐”——没有能轻松解决所有问题的灵丹妙药。工具箱中有许多很好的“百事可乐”工具,其中一些在特定领域会胜过其他工具。K-means、高斯混合、径向基函数神经网络、支持向量机,甚至 Q-learning 查找——这些可能对你有用。

如果没有更清楚地描述数据的性质,以及您希望集群的内容,就很难说使用哪种工具。如果我不知道是钉子还是螺栓 - 我不能说“尝试使用扳手”或“尝试使用锤子”。我希望你能找到适合你的工具。

祝你好运。

分段和聚类有什么区别

首先,让我们定义两个术语:

  1. 将一些整体、一些对象分割成具有相似性和连续性的部分。请参阅Wikipedia,其中给出了分割(生物学)的示例,将身体计划划分为一系列重复的片段,还有Oxford

  2. 聚类 维基百科,将一组对象分组的任务是使同一组(称为集群)中的对象(在某种意义上)彼此之间比其他组(集群)中的对象更相似(在某种意义上)

这在某种意义上是密切相关的。如果我们将某个完整的 ABC 视为由许多原子组成,例如由客户组成的市场,或由身体部位组成的身体,我们可以说我们分割了 ABC,但将原子聚集在一起。但是,当整体中存在一些原子(空间)连续性的概念时,似乎更使用分割。

这种用法似乎有些混乱。这个网站上经常用到客户细分,应该是市场细分客户没有被细分(希望如此!),他们是聚集在一起的。维基百科做对了

与时间序列 结合使用 对于多个(并行)时间序列,我们可以将序列聚类为相似序列的组,而分割通常是指将单个序列划分为相似、连续的部分。看标签还有这个关于时间序列聚类的帖子列表这表明与-检测。参见维基百科

这个网站上有很多帖子.

我认为,总的来说,不同之处在于聚类并不意味着任何关于群体的先验知识,而在许多情况下,细分意味着关于群体的先验知识,包括他们的数量名称(通常用于商业,例如,客户细分) .