我正在研究推文上的文本分类问题。目前我只考虑将推文的内容作为信息来源,并且我使用了一个简单的词袋方法,使用词频作为特征,使用随机森林(这是我无法改变的)。
现在我的想法是尝试合并推文中使用的 URL 中存在的信息。现在,并非所有推文都有 URL,如果我决定对 URL 也使用相同的词频表示,我将仅从 URL 获得大量特征。出于这个原因,我认为拥有一组同时包含推文词频和 URL 词频的特征可能很糟糕。此外,对于没有 URL 的推文,我必须为 URL 特征填充一些不可能的值(如 -1),并且我可能会恶化这条推文的分类,因为我将拥有大量无信息的特征。
您对这个问题有什么建议吗?