按与给定 SparseVector 的最近距离对 SparseVectors 进行排序

数据挖掘 阿帕奇火花
2022-03-12 06:12:22

我有一个 Spark 数据集,其中包含一列 SparseVector 类型。此外,我还有另一个 SparseVectorX这不是数据集的一部分。我想根据最近的距离(或相似度)对我的数据集进行排序X. 谁能帮我实现这个?

1个回答

看来问题已通过BucketedRandomProjectionLSH解决。fit && transformation之后,approxNearestNeighbors结果数据集包含 distCol,其中(根据LSH.scala):

@param distCol 输出列,用于存储每个结果行和键之间的距离。