我正在尝试找到最适合我的度量空间的索引数据结构:
- 一组 IP 网络相关数据(IP 地址、端口、TCP 标志,...),
- 距离函数是连续的、非欧几里得但满足非负性、对称性和三角不等式,
关于固定半径范围查询性能。我想将它用于具有数百万个元素的数据集的聚类算法(DBSCAN 或类似算法)。到目前为止,我研究过:
- 球树/VPT,
- MVPT,
- GHT,GNAT,
- AESA/LAESA,
- 覆盖树木,
以及在度量空间调查中搜索的基本上所有其他方法,但所有提到的方法都适用于变半径查询。许多相关的 SO 答案都建议将局部敏感哈希 (LSH)作为当前趋势,但我没有找到任何明确的信息,它是否利用了固定范围的优势以及它是否可用于非欧几里得指标。有什么建议/参考吗?