LSH 初始聚类中的期望点数

数据挖掘 聚类
2022-03-06 19:36:50

我有一个非常倾斜的 10 维数据集。我的用例需要近似最近的邻居,并且我正在研究局部敏感散列。然而,在通过原点缩放和随机生成超平面并对数据点进行编码之后,由于数据的性质,我得到了非常倾斜的桶。在考虑了一会儿之后,我想出了一个想法,即从数据中获取随机点并将它们用作散列的聚类中心。每个点都将映射到最近的随机选取中心的 ID。我的问题是,对于所有其他数据点,特定点的桶的预期大小是否相同。我认为是这样,但其他人说不应该。我的理由是,更密集的区域有更多随机决定的聚类点,而异常值不会经常被挑选出来。我可以'

编辑:我确实进行了一些测试,它们似乎在一定程度上支持了我的假设,但方差相对较高,因为集群大小之间存在高度依赖性(数据点明智)

3个回答

如果您想在 10 维数据中计算(近似)最近邻,我建议使用kd treekd 树可以处理倾斜/不均匀的数据集,并自然地适应它。

更一般地,您可以查看最近邻搜索的数据结构,包括二进制空间分区树度量树但是 kd 树是一个很好的起点,它们既支持精确最近邻查询,也支持近似最近邻查询。

我希望这比局部敏感哈希(LSH)更好。

这不是证明,但我刚刚发现一篇论文凭经验声称这一点,并且对同一问题也有完全相同的想法。

http://web.kaist.ac.kr/~kyomin/2012BigLearn.pdf

如果有人碰巧有这方面的证据,我仍然很感兴趣。

维度 1 的反例:在 x 轴上取三个点:1、3 和 4。当您随机采样两个点时,每个点落入的桶的预期大小分别为 4/3、2 和 5/3。

但是对于来自一些足够好的分布(例如,球体上的均匀随机点)的数据,您的假设可能是“近似正确的”。