如何将200个词袋特征转化为几个连续特征

数据挖掘 回归 预言
2022-03-03 17:15:40

我正在使用一个文本数据集进行回归任务。如果所有输入特征都是连续的,我采用的基线回归方法(名称隐藏)将很好地工作。然而,我正在考虑的文本数据集有 200 个二进制(0 或 1)的词袋特征,即如果相关单词出现在文本上,则第一个特征将为 1,否则为 0。我只是好奇如何将这 200 个二进制转换为一个或多个连续特征,以便我的回归器可以使用。谢谢

1个回答

潜在狄利克雷分配(LDA)将是一个很好的尝试,因为它是为词袋表示量身定制的。LDA 是一个主题模型,这基本上意味着它分配n主题,并找出与每个主题相关的单词。输出是一个向量n连续值,其中每个值表示相应主题的成员资格。您应该能够轻松地为您使用的任何语言找到 LDA 的实现(但不要将其与线性判别分析混淆,通常也称为 LDA)。

您还可以尝试主成分分析或奇异值分解,这是其他标准的降维技术。