从数据集中排除转发是否是最佳实践?

数据挖掘 机器学习 Python 熊猫 监督学习
2021-09-17 21:28:10

我将构建机器学习算法来识别假推文。该数据集有大量转发,我认为这可能是一个问题。您认为鉴于焦点是原始推文,最好删除所有转推?

谢谢,

3个回答

不,我不这么认为,我可以解释几个原因。

  • 如果一个实体想用虚假推文在推特上掀起波澜,转推可能是计划的一部分。
  • 如果您想检测由机器人生成的推文,则查看所述推文和转发的统计数据(如时间戳)可能与检测推文是否由机器人生成有关。
  • 如果您有办法通过机器人检查转推,那么删除所有转推也会删除该数据。

如果是,您应该删除转推。

  • 该项目专注于分析文本以确定推文是否是机器人。
  • 没有标记的人类或机器人转发数据。

与原始推文相比,转推可能具有完全不同的上下文。一些具有不同意见/评论的转发也有可能比原始转发更受欢迎。

在这些情况下,我认为您不能将它们归类为假推文。

当推文被广泛转发但没有上下文时,您可以将推文归类为假推文,其中一个例子是由于赠品或慈善机构而转发的推文。

如果您能弄清楚如何区分垃圾邮件转发和原始推文,这将有助于更好的分析和准确的结果。

对我来说,这取决于您要关注的内容:您是否要创建一个模型来处理假新闻的原始帖子,然后制定一个算法从转发中找到原始帖子,然后应用您的模型?或者你只是想要一个接受一条推文的模型,而不是看它是否是转发,而是试图猜测它是否是假的。

在第一种情况下,您应该删除它们,因为您将拥有许多关于转发假新闻的人的信息,而您只想查找有关原始海报的信息,这会使您的模型产生偏见。当然,在第二种情况下,因为这正是您的模型的目标,所以您应该保留它们。