假新闻检测问题

数据挖掘 机器学习 深度学习 ocr
2021-10-03 09:28:21

我想从事一个假新闻检测项目,特别是针对不同语言和不同格式的印度新闻。

  1. 假新闻作为没有文字或文字很少的图像
  2. 博客网站上的假新闻
  3. 假新闻作为推文
  4. 印地语的假新闻
  5. watsapp 组中的假新闻并共享。

在方法上需要你的帮助。我能想到的一种方法是使用 OCR,我们可以阅读帖子的内容,然后在 google 中搜索这些内容。如果新闻没有出现在任何著名的印刷媒体中,那么我们可以将其标记为假新闻。然而,在这方面可能存在许多挑战。如果印刷媒体本身提供任何由某人分享的假新闻怎么办。

如何处理图像中没有文字但显示为图像的信息是假的场景。

如何处理用印地语写的帖子。?

即使我们检测到假新闻,有没有办法让这个人对分享它负责。? 我知道解决这个问题并不难。但是目前有没有任何公司在这方面做过任何工作。? 我进入这个领域的任何起点?

1个回答

这是一个非常雄心勃勃的项目。首先,重要的是要认识到 ML 通常不能真正解决这类问题,它只能帮助检测可能是假新闻的帖子(例如,参见另一篇关于衡量可信度的帖子,即反过来看到的相同问题) .

假设您处理消息的文本(我不擅长图像),第一步是从所有来源收集数据集,并手动将所有数据标记为假或非假(您也可以决定例如,使用“虚假”分数)。从那里你可以训练一个模型:首先我会建议一些简单的东西,比如朴素贝叶斯(这是用于垃圾邮件检测的传统模型)。

在任何情况下,重要的是要记住,模型要学习的不是输入文本是否是假新闻,它只会学习识别故事标志:例如,假新闻倾向于使用可怕的词,而真实的新闻的措辞往往更加中立。但是,当然也有使用可怕词语的真实新闻和使用中性语言的假新闻,所以它不会是完美的。为了真正达到目标,唯一的方法是让人类检查潜在的假新闻,人类将能够做出更明智的判断。

问题的最后一部分更多的是法律问题。据我所知,在社交媒体上通常很难发现谁是真正的作者,只有警方才能调查此事,但他们只在非常严重的情况下才会这样做。