数据挖掘 - 潜在特征的含义？ - 吾爱随笔录

潜在特征的含义？

数据挖掘机器学习数据挖掘推荐系统

2021-10-08 21:35:08

我正在学习推荐系统的矩阵分解，我看到这个术语latent features出现得太频繁了，但我无法理解它的含义。我知道什么是特征，但我不理解潜在特征的概念。请问可以解释一下吗？或者至少指向我可以阅读它的文件/地方？

4个回答

以过度简化为代价，潜在特征是“隐藏”特征，以将它们与观察到的特征区分开来。潜在特征是使用矩阵分解从观察到的特征中计算出来的。一个例子是文本文档分析。从文档中提取的“单词”是特征。如果你分解词的数据，你可以找到“主题”，其中“主题”是一组具有语义相关性的词。低秩矩阵分解将几行（观察到的特征）映射到一组较小的行（潜在特征）。详细地说，该文档可能已经观察到诸如 [sail-boat, schooner, yatch, steamer, Cruiser] 之类的特征（词），这些特征（词）将“分解”为“ship”和“boat”等潜在特征（主题）。

[帆船，大篷车，游艇，轮船，巡洋舰，...] -> [船，船]

基本思想是潜在特征是观察到的特征的语义相关“聚合”。当你有大规模、高维和嘈杂的观察特征时，在潜在特征上构建分类器是有意义的。

这当然是阐明概念的简化描述。您可以阅读有关潜在狄利克雷分配 (LDA) 或概率潜在语义分析 (pLSA) 模型的详细信息，以获得准确的描述。

假设您有(MxN)稀疏矩阵，其中M-- 代表给出推荐的用户数，并且N是推荐的项目数。这 $x_{ij}$ 矩阵的元素是给定的建议，缺少一些元素，即要预测。

然后可以通过引入K“潜在因素”来“分解”您的矩阵，这样您就有两个矩阵，而不是一个矩阵： --for (MxK)users，和--for (KxN)items，其矩阵乘法产生原始矩阵。

最后，对于您的问题：矩阵分解中的潜在特征是什么？它们是K用户品味和推荐项目中的未知特征（），因此当这两个矩阵相乘时，它们会产生已知推荐矩阵。通过所谓的交替最小二乘算法定义特定权重（用户对特定特征的偏好和特定项目中特征的数量），您可以在此处阅读更多信息

另一个例子，考虑用户对电影评分矩阵的情况，如 Netflix 设置。这将是一个难以处理的巨大稀疏矩阵。

请注意，每个用户都会有特定的偏好，例如科幻电影或爱情电影等。因此，我们可以存储单个潜在特征，例如属于不同类型的电影类别，而不是存储所有电影评级：例如：科幻或浪漫，以量化他对每个类别的品味为准。这些被称为潜在特征，它捕捉了他的品味的本质，而不是存储整个电影列表。

当然，这将是一个近似值，但另一方面，您可以存储的东西很少。

这通常使用矩阵分解技术来完成，例如 SVD $N*N$ 用户到项目推荐矩阵 $N*1$ 用户偏好矩阵和 $1*N$ 项目偏好矩阵，添加的优点是，而不是存储 $N^2$ 我们有效存储的数字 $2N$ .

在我看来，潜在特征是一个术语，用于描述按结构对实体进行分类的标准，换句话说，是按它们包含的特征（特征），而不是它们所属的类。此处“潜在”一词的含义很可能与其在社会科学中的含义相似，其中非常流行的术语潜在变量意味着不可观察的变量（概念）。

本文的“引言”部分很好地解释了潜在特征在社会科学现象建模中的意义和用途。

其它你可能感兴趣的问题

上一篇句子相似度预测下一篇选择用于训练神经网络的优化器的指南