我将构建机器学习算法来识别假推文。该数据集有大量转发,我认为这可能是一个问题。您认为鉴于焦点是原始推文,最好删除所有转推?
谢谢,
我将构建机器学习算法来识别假推文。该数据集有大量转发,我认为这可能是一个问题。您认为鉴于焦点是原始推文,最好删除所有转推?
谢谢,
不,我不这么认为,我可以解释几个原因。
如果是,您应该删除转推。
与原始推文相比,转推可能具有完全不同的上下文。一些具有不同意见/评论的转发也有可能比原始转发更受欢迎。
在这些情况下,我认为您不能将它们归类为假推文。
当推文被广泛转发但没有上下文时,您可以将推文归类为假推文,其中一个例子是由于赠品或慈善机构而转发的推文。
如果您能弄清楚如何区分垃圾邮件转发和原始推文,这将有助于更好的分析和准确的结果。
对我来说,这取决于您要关注的内容:您是否要创建一个模型来处理假新闻的原始帖子,然后制定一个算法从转发中找到原始帖子,然后应用您的模型?或者你只是想要一个接受一条推文的模型,而不是看它是否是转发,而是试图猜测它是否是假的。
在第一种情况下,您应该删除它们,因为您将拥有许多关于转发假新闻的人的信息,而您只想查找有关原始海报的信息,这会使您的模型产生偏见。当然,在第二种情况下,因为这正是您的模型的目标,所以您应该保留它们。