潜在特征的含义?

机器算法验证 机器学习 数据挖掘 推荐系统
2022-02-16 17:12:12

我试图了解推荐系统的矩阵分解模型,我总是阅读“潜在特征”,但这意味着什么?我知道特征对训练数据集意味着什么,但我无法理解潜在特征的概念。我能找到的每一篇关于这个主题的论文都太浅了。

编辑:

如果您至少可以向我指出一些解释该想法的论文。

4个回答

潜在的意味着不能直接观察到。PCA 和因子分析中该术语的常见用法是将大量可直接观察到的特征的维数降低为较小的一组间接可观察到的特征。

在分解方法的上下文中,潜在特征通常是用来表征沿每个维度的项目。让我举例说明。

假设我们有一个项目-用户交互矩阵R. 矩阵分解方法中的模型假设是每个单元Rui例如,这个矩阵的puTqi— 潜在向量之间的点积pu, 描述用户u和一个潜在向量qi, 描述项目i. 直观地说,这个产品测量了这些向量的相似程度。在训练过程中,您希望找到“好的”向量,以使近似误差最小化。

有人可能认为这些潜在特征是有意义的,即用户向量中有一个特征pu像“喜欢具有属性 X 的项目”和项目向量中的相应特征qi就像“有属性 X”。不幸的是,除非以某种方式强制执行,否则很难找到可解释的潜在特征。因此,您可以以这种方式考虑潜在特征,但不要使用这些特征来推理数据。

在这里,您的数据是不同用户对不同电影的评分。正如其他人指出的那样,潜在意味着不可直接观察到。

对于一部电影,它的潜在特征决定了动作、浪漫、故事情节、著名演员等的数量。类似地,对于另一个由手写数字组成的数据集,潜在变量可能是边缘角度、倾斜等。

我会说因素比主要成分更具代表性,以了解变量的“延迟”/隐藏性。延迟是行为科学家根据多个项目/度量来测量感觉、悲伤等感知结构并为这些无法直接测量的隐藏变量得出一个数字的原因之一。