我有个问题。我有一个数据集,其中包含一些用户及其在几部电影中的评分。电影分为19 种类型。
我想根据用户的偏好(电影中的评分)对用户进行聚类。问题是,我想找到一个来进行聚类,但我不知道该怎么做,因为数据是离散的,我不能使用我知道的统计方法。阈值是两个用户必须在同一个集群中的最大距离,例如喜欢相同类型电影或品味差异不大的两个用户。
我试图使用简单的统计数据找到一个阈值。例如,对于一个用户,将他在一个类型中的所有评分相加,然后将结果除以评分数,然后在某些类型中找到一些方法,但我没有得到答案。
注意:我必须使用 BSAS