我有一个数据集,其中包含一组用户和他们阅读过的文档的历史记录,所有文档都有与之关联的元数据属性(想想主题、国家、作者)。
我想根据与他们单击的文档相关联的元数据属性之一根据他们的阅读历史对用户进行聚类。这个属性有 7 个可能的分类值,我想证明一个假设,即用户的阅读习惯有一个模式,它们可以分为七个集群。换句话说,用户通常会根据特定元数据类别中的 7 个可能值之一来阅读文档。
任何人都对如何做到这一点有任何建议,尤其是在 R 中,比如特定的包?我意识到标准的 k-means 算法在这种情况下不能很好地工作,因为数据是分类的而不是数字的。