从攻击摘要(NLP)中提取恐怖攻击动机的监督学习模型

数据挖掘 Python nlp 监督学习
2022-03-06 07:08:12

我有一个恐怖袭击(表格)数据集。每一行都是一次攻击,并且有如下列:

  • 攻击日期(每日分辨率)
  • 攻击地点(经度/纬度,以及城市/国家)
  • 伤亡人数
  • 攻击/武器类型
  • 一些布尔列,例如是否是自杀式袭击

此外,我有一个文本列,其中包含 2-3 句攻击描述。这是我想用于训练/预测的主要列。

有多个“is_left_wing”、“is_right_wing”等形式的目标列。值为0、1和-1。这里 0 表示攻击没有相应的动机,1 表示有动机,-1 表示未知。

简而言之,我的目标是构建一个模型,该模型在目标列中的 0 和 1 值上进行训练,并对 -1 进行预测。

我坚持的主要事情是如何从带有攻击描述的文本列中提取特征。我的 NLP 经验有限,我想使用比简单的词袋模型更复杂的东西。

我会很感激关于这个问题的一般方法的建议(还有一些关于这个主题的好读物)。

1个回答

使用词嵌入并通过使用 vanilla RNN 或更复杂的模型(如注意力 LSTM)将整个句子编码为一个固定的特征向量。
请参阅使用 RNNs(LSTM) 进行情感分析
将其他特征与句子的固定长度表示相结合,并在它们之上附加任一密集层。
架构前馈(concat(other_features,RNN(sentence)))