我读到了 https://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html
但找不到此实现的火花库。
我有柱状字符串数据集。
我有一个数据集,其中包含大约 15-2000 万用户的数据,包括他们的 show_watched、times_watched、流派、频道和更多列,我需要计算一个用户(或 10 万个用户)的相似/秒。
我如何在更短的时间内为他们找到相似的人,
我已经尝试通过在 Solr 中索引数据,然后使用 Solr MLT 来查找相似的用户,但这需要很多时间,而且它使用 TF-IDF 进行 MLT,我需要用户的 times_show_watched 接近该用户的 times_show_watched。
谁能为此推荐一种更好的方法,也许使用任何其他框架来加快处理速度?
我还尝试使用 Spark MLLIB 实现集群,然后搜索用户所属的集群,以减少搜索空间,但我无法完成这种方法。
我对任何有效的方法持开放态度。
谢谢!