机器算法验证 - 寻找原型或集群的推荐方法 - 吾爱随笔录

我希望将用户聚集在一个数据库中，每个用户都由许多性质上既离散又连续的特征表示。目的是定义少数具有特定功能集的原型“用户”。然后将所有其他用户分类为与这些原型中的一个或另一个相似。一个重要的考虑因素是我希望这些功能具有强大的依赖结构，并且我希望该方法能够有效地使这些功能显式可见。

例如，假设每个用户的功能是：

假设我们有 N 个用户，最喜欢的颜色是取决于性别和城市的 RV。我们如何发现与性别和/或位置以及最喜欢的颜色之间可能存在的强相关性？有许多聚类技术，从 K-NN、k-means、矩阵分解，甚至 PCA，但许多似乎隐藏了将用户联系在一起的潜在相关性。

任何人都可以为这个无监督学习任务推荐合适的方法吗？

[大量编辑以恢复和解决]