数据挖掘 - 使用 Spark 寻找与用户相似的用户？ - 吾爱随笔录

但找不到此实现的火花库。

我有柱状字符串数据集。

我有一个数据集，其中包含大约 15-2000 万用户的数据，包括他们的 show_watched、times_watched、流派、频道和更多列，我需要计算一个用户（或 10 万个用户）的相似/秒。

我如何在更短的时间内为他们找到相似的人，

我已经尝试通过在 Solr 中索引数据，然后使用 Solr MLT 来查找相似的用户，但这需要很多时间，而且它使用 TF-IDF 进行 MLT，我需要用户的 times_show_watched 接近该用户的 times_show_watched。

谁能为此推荐一种更好的方法，也许使用任何其他框架来加快处理速度？

我还尝试使用 Spark MLLIB 实现集群，然后搜索用户所属的集群，以减少搜索空间，但我无法完成这种方法。

我对任何有效的方法持开放态度。

谢谢！