数据挖掘 - 假新闻检测问题 - 吾爱随笔录 - 问答

假新闻检测问题

数据挖掘机器学习深度学习 ocr

2021-10-03 09:28:21

我想从事一个假新闻检测项目，特别是针对不同语言和不同格式的印度新闻。

假新闻作为没有文字或文字很少的图像
博客网站上的假新闻
假新闻作为推文
印地语的假新闻
watsapp 组中的假新闻并共享。

在方法上需要你的帮助。我能想到的一种方法是使用 OCR，我们可以阅读帖子的内容，然后在 google 中搜索这些内容。如果新闻没有出现在任何著名的印刷媒体中，那么我们可以将其标记为假新闻。然而，在这方面可能存在许多挑战。如果印刷媒体本身提供任何由某人分享的假新闻怎么办。

如何处理图像中没有文字但显示为图像的信息是假的场景。

如何处理用印地语写的帖子。?

即使我们检测到假新闻，有没有办法让这个人对分享它负责。? 我知道解决这个问题并不难。但是目前有没有任何公司在这方面做过任何工作。? 我进入这个领域的任何起点？

1个回答

这是一个非常雄心勃勃的项目。首先，重要的是要认识到 ML 通常不能真正解决这类问题，它只能帮助检测可能是假新闻的帖子（例如，参见另一篇关于衡量可信度的帖子，即反过来看到的相同问题） .

假设您处理消息的文本（我不擅长图像），第一步是从所有来源收集数据集，并手动将所有数据标记为假或非假（您也可以决定例如，使用“虚假”分数）。从那里你可以训练一个模型：首先我会建议一些简单的东西，比如朴素贝叶斯（这是用于垃圾邮件检测的传统模型）。

在任何情况下，重要的是要记住，模型要学习的不是输入文本是否是假新闻，它只会学习识别故事标志：例如，假新闻倾向于使用可怕的词，而真实的新闻的措辞往往更加中立。但是，当然也有使用可怕词语的真实新闻和使用中性语言的假新闻，所以它不会是完美的。为了真正达到目标，唯一的方法是让人类检查潜在的假新闻，人类将能够做出更明智的判断。

问题的最后一部分更多的是法律问题。据我所知，在社交媒体上通常很难发现谁是真正的作者，只有警方才能调查此事，但他们只在非常严重的情况下才会这样做。

其它你可能感兴趣的问题

上一篇交叉验证 - 为什么更多的折叠会增加变化？下一篇数据科学家如何将预测建模与 SQL 集成？