在大型数据集中查找阈值

数据挖掘 机器学习 Python
2022-03-10 10:03:31

我有个问题。我有一个数据集,其中包含一些用户及其在几部电影中的评分。电影分为19 种类型

我想根据用户的偏好(电影中的评分)对用户进行聚类。问题是,我想找到一个来进行聚类,但我不知道该怎么做,因为数据是离散的,我不能使用我知道的统计方法。阈值是两个用户必须在同一个集群中的最大距离,例如喜欢相同类型电影或品味差异不大的两个用户。threshold(θ)

我试图使用简单的统计数据找到一个阈值。例如,对于一个用户,将他在一个类型中的所有评分相加,然后将结果除以评分数,然后在某些类型中找到一些方法,但我没有得到答案。

注意:我必须使用 BSAS

1个回答

不知何故,你必须为你的电影类型想出某种数字分类系统。
我将从创建流派之间的关系树开始。例如动作片,然后是带有喜剧的动作片,然后是带有动画的喜剧动作片等。

您可以开发一整片将电影类型相互关联的树木森林。然后,您可以测试个人的流派路径以进行比较。