检测低质量的用户创建的文本内容

数据挖掘 文本分类
2022-03-09 16:38:26

我经营一个网站,允许访问者发布文本内容。就功能而言,它与论坛非常相似。我想自动排除或标记提交的“垃圾邮件”或“低质量”的文本内容(我知道是主观的)。显然,我想检测令人反感或经典垃圾邮件的内容。我还想检测无意义或无意义的内容。我知道这对于那些运行允许用户提交内容的网络应用程序的人来说一定是一个常见问题,但我还没有找到明显的解决方案。

理想情况下,我想使用可以在 Linux 上运行、适合我安装在我的网络服务器或 AWS 服务上的开源软件。

我尝试过 AWS Comprehend,它无需任何自定义培训即可准确检测文本的情绪,它似乎无法检测开箱即用的低质量或垃圾邮件。它支持自定义分类器的训练,您只需提供一个包含类/文档对的 csv。这可能是一个很好的方法,任何人都可以建议一个我可以用来训练它的免费数据集吗?

似乎文本质量检测将是一个如此普遍的要求,以至于我认为可能存在一些针对该确切目的进行预训练的软件,也许是 Linux 软件包。有没有人有什么建议?

我不确定是否将其发布在数据科学或编程中,如果放错了地方,我深表歉意。

1个回答

可能没有现成的包来检测“垃圾邮件”或“低质量”,因为它与上下文相关(正如您已经认识到的那样)。

一种选择是使用基于规则的方法。有一个垃圾邮件关键字列表。如果其中任何一个出现,则停止文本。这很简单,但也是一种有限的方法。

另一种选择是使用机器学习来训练系统检测垃圾邮件。第一步是收集数千个人工标记的垃圾邮件和非垃圾邮件示例。然后应用自然语言处理文本分类器,朴素贝叶斯分类器是一个很好的baseline。