我有一个非常倾斜的 10 维数据集。我的用例需要近似最近的邻居,并且我正在研究局部敏感散列。然而,在通过原点缩放和随机生成超平面并对数据点进行编码之后,由于数据的性质,我得到了非常倾斜的桶。在考虑了一会儿之后,我想出了一个想法,即从数据中获取随机点并将它们用作散列的聚类中心。每个点都将映射到最近的随机选取中心的 ID。我的问题是,对于所有其他数据点,特定点的桶的预期大小是否相同。我认为是这样,但其他人说不应该。我的理由是,更密集的区域有更多随机决定的聚类点,而异常值不会经常被挑选出来。我可以'
编辑:我确实进行了一些测试,它们似乎在一定程度上支持了我的假设,但方差相对较高,因为集群大小之间存在高度依赖性(数据点明智)