我正在寻找一种分割大型、相当高维数据集的好方法,以便不仅在完整的维空间中,而且在该空间的低维子空间中执行快速 kNN 搜索。
例如,考虑3 维空间中。一方面,我想找到它最近的邻居:
但我也希望能够在\{X, Y\}子空间中有效地找到最近的邻居j,即:
在我的情况下,通常有超过 3 个维度,我希望能够在考虑这些维度的多个不同子集的情况下找到
为您提供更多背景知识,我的目标是使用 kNN 距离从连续数据中估计条件互信息,而无需对其进行离散化并计算直方图。
对我的数据进行分区的合适方法是什么?
更多信息:
- 我的维度将在 3 到 30 之间变化
- 数据点的数量可能约为 200000