随机森林中具有混合特征的文本分类

数据挖掘 文本挖掘 随机森林
2022-02-23 09:12:54

我正在研究推文上的文本分类问题。目前我只考虑将推文的内容作为信息来源,并且我使用了一个简单的词袋方法,使用词频作为特征,使用随机森林(这是我无法改变的)。

现在我的想法是尝试合并推文中使用的 URL 中存在的信息。现在,并非所有推文都有 URL,如果我决定对 URL 也使用相同的词频表示,我将仅从 URL 获得大量特征。出于这个原因,我认为拥有一组同时包含推文词频和 URL 词频的特征可能很糟糕。此外,对于没有 URL 的推文,我必须为 URL 特征填充一些不可能的值(如 -1),并且我可能会恶化这条推文的分类,因为我将拥有大量无信息的特征。

您对这个问题有什么建议吗?

1个回答

您使用的是原始词频还是 TF-IDF?

也许您可以简单地将推文中的术语与 URL 链接页面中的术语(如果有)组合成一个词袋,计算 TF-IDF,并进行规范化以避免偏向较长的文档(即那些包含 URL 的推文链接)。

如果我决定对 URL 也使用相同的词频表示,我将仅从 URL 获得大量功能

我不明白你在这里的意思。你的特征不是你的词袋里的术语吗?因此,功能的数量将取决于您的词汇量,我想无论您是否包含 URL,它都不会发生太大变化。

此外,对于没有 URL 的推文,我必须为 URL 特征填充一些不可能的值(如 -1),并且我可能会恶化这条推文的分类,因为我将拥有大量无信息的特征。

这个我也不明白。术语-文档矩阵实际上总是一个稀疏矩阵,因为您的词汇表中的大多数术语不会出现在您的大多数文档中。所以,你的 TDM 中的绝大多数值都是 0。我不知道你从哪里得到 -1。