数据挖掘 - 检测英语和德语的攻击性文本内容 - 吾爱随笔录

我正在开展一个关于在社交媒体中对攻击性文本数据进行分类的 NLP 项目。我所说的冒犯性特别是指一个人对另一个人说的威胁词。

一些例子：

“停止这样做，否则你会为此付出代价的。”

“等你看看会发生什么”

“下次见到你，我会打断你的腿。”

作为最初的方法，我考虑了语义和句法关键字匹配。然而，在这个问题上这样做似乎更难，因为威胁是一种行动，它以多种不同的方式表达。

我的主要目标是使用机器学习和深度学习算法按攻击性/非攻击性文本对文本数据进行分类。经过数周的在线搜索，我找不到现成的数据集。我考虑手动标记数据。但是，我不知道我应该从哪里开始。

在这项任务中取得进展的最佳方法是什么？我还计划用英语和德语来做这件事。

另外，下面是一篇相关文章，可以充分理解该问题：
Deep learning for detection inappropriate content in text