数据挖掘 - 聚类二维欧几里得向量 - 适当的相异性度量 - 吾爱随笔录

聚类二维欧几里得向量 - 适当的相异性度量

数据挖掘聚类 k-均值相似距离余弦距离

2022-02-12 23:05:36

我有一套大约。50 000 个二维欧几里得向量，与 20 个组相连，即每组大约有 50000 个二维欧几里得向量。2500 个二维欧几里得向量。我的数据包括端点坐标，即 $x_0, y_0, x_1, y_1$ . 现在我想对这些组中的向量进行聚类，可能使用 k-means/k-medoids 聚类（或其他具有预定义聚类数的聚类算法）。同样重要的是，我主要关注矢量的方向，长度是次要问题（但充其量仍应考虑在内）。我正在努力选择适合我的问题的差异度量。所以这是我的问题：

如何指定数据是否重要？或者，我可以计算矢量的角度和长度，并将数据指定为 $x_0, y_0, angle, length$ . 我的直觉是，如果角度明确存在，欧几里得距离应该能更好地捕捉矢量的方向。更重要的是，我可以使用一些加权，修改欧几里德距离并计算两个观测值之间的距离，例如：

$\sqrt{(x^1_0 - x^2_0)^2 + (y^1_0 - y^2_0)^2 + (angle^1-angle^2)^2 + \frac{1}{n}(length^1-length^2)^2}$

在哪里 $n$ 是一些常数。

我还认为角距离是一种差异度量。据我所知，这相当于对标准化数据点进行聚类，因此不会捕获大小（在我的情况下为长度）。但我不确定 k-means 聚类是否可以用余弦距离完成。如果是这样，R中是否有任何允许这样做的包？
执行两次聚类是一个好的且在统计上有效的想法：首先，对起点进行聚类，其次，在这些聚类中对角度和长度进行聚类？
你们知道任何关于类似问题的论文，即对二维数据点进行聚类吗？任何示例都会非常方便。

3个回答

对于这种情况，谱聚类是一种直观的解决方案。基本上，这个想法是在转换后的特征空间中执行 k-means 聚类，通过定义该空间中的内积应该是什么。

要点是给自己一个相似性度量。在您的情况下，这可能是：

S (v_{1}, v_{2}) = e x p (- \frac{(x_{0}^{(1)} - x_{0}^{(2)})^{2} + (y_{0}^{(1)} - y_{0}^{(2)})^{2}}{2 σ_{s t a r t}^{2}} - \frac{(l^{(1)} - l^{(2)})^{2}}{2 σ_{l}^{2}} - \frac{(θ^{(1)} - θ^{(2)})^{2}}{2 σ_{θ}^{2}})

$S(v_1, v_2) = exp(-\frac{(x_0^{(1)}-x_0^{(2)})^2+(y_0^{(1)}-y_0^{(2)})^2}{2\sigma_{start}^2} - \frac{(l^{(1)} - l^{(2)})^2}{2\sigma_{l}^2} - \frac{(\theta^{(1)} - \theta^{(2)})^2}{2\sigma_{\theta}^2})$

在哪里：

这 $^{(1)}$ 和 $^{(2)}$ 下标与向量 1 和 2 相关
$x_0$ 和 $y_0$ 是向量起点坐标
$l$ 表示向量长度（欧几里得范数）
$\theta$ 表示角度
$\sigma_{start}$ , $\sigma_{l}$ 和 $\sigma_{\theta}$ 是您应该调整的自定义参数，以或多或少地对向量的每个方面赋予或多或少的重要性（低 $\theta$ 值将意味着相应的特征将被处理为高灵敏度）

然后，您应该构建图拉普拉斯矩阵并获取与最低特征值相关联的特征向量，并将您的数据投影到这些特征向量上。您获得了更高维度的空间，但您的数据将很容易通过 k-means 算法分离。

关键是调整 $\sigma$ 很好地获得您需要的聚类。

请注意，如果您的数据包含太多点，这可能是计算密集型的。您可能希望使用较小的子集来找到正确的投影和聚类中心。

我希望我正确地遵循了你的问题。如果您将这些数据点作为 2D 向量保存，这意味着您拥有，比如说 $N=50,000$ 每个数据点表示为 $\left(x_i,y_i\right)$ ，对？如果您关心的是角度和长度，那么您的表述似乎是正确的。您可以转换每个数据点 $\left(x_i,y_i\right)$ 进入 $\left(\theta_i, d_i\right)$ ，它们是向量的角度和长度。这两个参数 $\left(\theta_i, d_i\right)$ 在每个样本中充当两个特征，您可以在此运行 k-means。您必须小心使用一致的角度测量（总是逆时针或顺时针）。据我所知，您的差异度量似乎非常正确。我相信你知道这个 python 包，但只是为了完成你可以使用这个或者在 MATLAB 中你可以使用这个。我不确定 R，如果这是您问题的重要部分，请原谅我。

$(x_0,y_0,x_1,y_1)$ 会表现得比，例如， $(x_0,y_0,angle,length)$ （因为角度的比例非常不同）。或者，您也可以使用 $(x_0,y_0,x_1-x_0,y_1-y_0)$ .

当你想考虑这两点时，你当然应该同时使用两者。

但如果所有向量都很短，您可能仍需要仔细缩放属性以获得最佳结果，或者聚类可能主要基于起点。

这些向量上的欧几里得距离可能很好。x 和 y 值都在欧几里得空间中，大概 x 中的差 1 与 y 中的差 1 相同，不是吗？如果您使用角度，这将不再适用！有人可能会争辩说，这两点应该被认为是独立的。可以尝试取两个距离之和 $(x_0,y_0)$ 和 $(x_1,y_1)$ . 但我不认为结果会有很大不同。但是对于k-means，我会坚持通常的平方和（它不会最小化欧几里得距离，而是平方误差）。如果您的数据噪音太大，请考虑使用更强大的算法，例如 DBSCAN。

其它你可能感兴趣的问题

上一篇R：数据检查清单下一篇带有用户反馈的稀疏 IR