冗余 - 这是一个大问题吗?

数据挖掘 机器学习 预处理
2022-01-25 17:04:29

我正在尝试创建一个情绪分析程序,它将对我在主题标签下收集的一些推文进行分类。数据集中有 7750 条推文,我现在将它们标记为两个类。然后我将使用神经网络将它们分为正类和负类。

数据集的问题在于它拥有大量冗余数据(基本上是转推)。手动删除它们是不可能的,我试图通过 Tweepy API 找到可编程的解决方案,但找不到任何解决方案。

所以我的问题是我需要摆脱这些多余的记录还是应该保持原样?

1个回答

假设您想学习情绪,这是一个问题。当你将它提供给机器学习算法时会发生什么,它会给多次出现的推文赋予更多的权重,而不是学习更多的信息。一条被转发 10 次的推文不太可能比没有被转发的推文包含更多关于情绪的重要信息。你可以做的是将推文在集合中的次数作为一个特征添加到你的情绪模型中,有可能从这个事实中学到一些东西(也许积极的推文被更频繁地转发),但你应该保持它为 1每条不同推文的行。

不过,以编程方式摆脱这些冗余记录应该不难。我不知道您使用的是什么语言,但如果您只考虑推文的正文(内容),您可以遍历您的推文,保留所有唯一正文的列表,并结合其他元信息(如用户,标记情绪),如果下一条推文的内容已经存在,请不要添加它。寻找“独特”的功能,而不是冗余的、足够的信息。