我有一个 Spark 数据集,其中包含一列 SparseVector 类型。此外,我还有另一个 SparseVector这不是数据集的一部分。我想根据最近的距离(或相似度)对我的数据集进行排序. 谁能帮我实现这个?
按与给定 SparseVector 的最近距离对 SparseVectors 进行排序
数据挖掘
阿帕奇火花
2022-03-12 06:12:22
1个回答
看来问题已通过BucketedRandomProjectionLSH解决。在fit && transformation之后,approxNearestNeighbors结果数据集包含 distCol,其中(根据LSH.scala):
@param distCol 输出列,用于存储每个结果行和键之间的距离。
其它你可能感兴趣的问题