我正在开展一个关于在社交媒体中对攻击性文本数据进行分类的 NLP 项目。我所说的冒犯性特别是指一个人对另一个人说的威胁词。
一些例子:
“停止这样做,否则你会为此付出代价的。”
“等你看看会发生什么”
“下次见到你,我会打断你的腿。”
作为最初的方法,我考虑了语义和句法关键字匹配。然而,在这个问题上这样做似乎更难,因为威胁是一种行动,它以多种不同的方式表达。
我的主要目标是使用机器学习和深度学习算法按攻击性/非攻击性文本对文本数据进行分类。经过数周的在线搜索,我找不到现成的数据集。我考虑手动标记数据。但是,我不知道我应该从哪里开始。
在这项任务中取得进展的最佳方法是什么?我还计划用英语和德语来做这件事。
另外,下面是一篇相关文章,可以充分理解该问题:
Deep learning for detection inappropriate content in text