我经营一个网站,允许访问者发布文本内容。就功能而言,它与论坛非常相似。我想自动排除或标记提交的“垃圾邮件”或“低质量”的文本内容(我知道是主观的)。显然,我想检测令人反感或经典垃圾邮件的内容。我还想检测无意义或无意义的内容。我知道这对于那些运行允许用户提交内容的网络应用程序的人来说一定是一个常见问题,但我还没有找到明显的解决方案。
理想情况下,我想使用可以在 Linux 上运行、适合我安装在我的网络服务器或 AWS 服务上的开源软件。
我尝试过 AWS Comprehend,它无需任何自定义培训即可准确检测文本的情绪,它似乎无法检测开箱即用的低质量或垃圾邮件。它支持自定义分类器的训练,您只需提供一个包含类/文档对的 csv。这可能是一个很好的方法,任何人都可以建议一个我可以用来训练它的免费数据集吗?
似乎文本质量检测将是一个如此普遍的要求,以至于我认为可能存在一些针对该确切目的进行预训练的软件,也许是 Linux 软件包。有没有人有什么建议?
我不确定是否将其发布在数据科学或编程中,如果放错了地方,我深表歉意。