我希望将用户聚集在一个数据库中,每个用户都由许多性质上既离散又连续的特征表示。目的是定义少数具有特定功能集的原型“用户”。然后将所有其他用户分类为与这些原型中的一个或另一个相似。一个重要的考虑因素是我希望这些功能具有强大的依赖结构,并且我希望该方法能够有效地使这些功能显式可见。
例如,假设每个用户的功能是:
- 性别(男/女)
- 位置(10 个城市之一)
- 最喜欢的颜色(红/绿/蓝)。
假设我们有 N 个用户,最喜欢的颜色是取决于性别和城市的 RV。我们如何发现与性别和/或位置以及最喜欢的颜色之间可能存在的强相关性?有许多聚类技术,从 K-NN、k-means、矩阵分解,甚至 PCA,但许多似乎隐藏了将用户联系在一起的潜在相关性。
任何人都可以为这个无监督学习任务推荐合适的方法吗?
[大量编辑以恢复和解决]