检测英语和德语的攻击性文本内容

数据挖掘 分类 nlp
2022-03-10 07:56:57

我正在开展一个关于在社交媒体中对攻击性文本数据进行分类的 NLP 项目。我所说的冒犯性特别是指一个人对另一个人说的威胁词。

一些例子:

“停止这样做,否则你会为此付出代价的。”

“等你看看会发生什么”

“下次见到你,我会打断你的腿。”

作为最初的方法,我考虑了语义和句法关键字匹配。然而,在这个问题上这样做似乎更难,因为威胁是一种行动,它以多种不同的方式表达。

我的主要目标是使用机器学习和深度学习算法按攻击性/非攻击性文本对文本数据进行分类。经过数周的在线搜索,我找不到现成的数据集。我考虑手动标记数据。但是,我不知道我应该从哪里开始。

在这项任务中取得进展的最佳方法是什么?我还计划用英语和德语来做这件事。

另外,下面是一篇相关文章,可以充分理解该问题:
Deep learning for detection inappropriate content in text

1个回答

有毒评论分类挑战可能是一个不错的起点。它包含一组评论和 6 个二进制分类,指示它是否是有毒评论以及属于哪种类型。

我想这将是一个足够的开始。