数据挖掘 - 如何将200个词袋特征转化为几个连续特征 - 吾爱随笔录

如何将200个词袋特征转化为几个连续特征

数据挖掘回归预言

2022-03-03 17:15:40

我正在使用一个文本数据集进行回归任务。如果所有输入特征都是连续的，我采用的基线回归方法（名称隐藏）将很好地工作。然而，我正在考虑的文本数据集有 200 个二进制（0 或 1）的词袋特征，即如果相关单词出现在文本上，则第一个特征将为 1，否则为 0。我只是好奇如何将这 200 个二进制转换为一个或多个连续特征，以便我的回归器可以使用。谢谢

1个回答

潜在狄利克雷分配（LDA）将是一个很好的尝试，因为它是为词袋表示量身定制的。LDA 是一个主题模型，这基本上意味着它分配 $n$ 主题，并找出与每个主题相关的单词。输出是一个向量 $n$ 连续值，其中每个值表示相应主题的成员资格。您应该能够轻松地为您使用的任何语言找到 LDA 的实现（但不要将其与线性判别分析混淆，通常也称为 LDA）。

您还可以尝试主成分分析或奇异值分解，这是其他标准的降维技术。

其它你可能感兴趣的问题

上一篇深度学习工具包是针对特定领域的还是通用工具包？下一篇pandas 或 R 对纵向数据的优缺点？