我有一个恐怖袭击(表格)数据集。每一行都是一次攻击,并且有如下列:
- 攻击日期(每日分辨率)
- 攻击地点(经度/纬度,以及城市/国家)
- 伤亡人数
- 攻击/武器类型
- 一些布尔列,例如是否是自杀式袭击
此外,我有一个文本列,其中包含 2-3 句攻击描述。这是我想用于训练/预测的主要列。
有多个“is_left_wing”、“is_right_wing”等形式的目标列。值为0、1和-1。这里 0 表示攻击没有相应的动机,1 表示有动机,-1 表示未知。
简而言之,我的目标是构建一个模型,该模型在目标列中的 0 和 1 值上进行训练,并对 -1 进行预测。
我坚持的主要事情是如何从带有攻击描述的文本列中提取特征。我的 NLP 经验有限,我想使用比简单的词袋模型更复杂的东西。
我会很感激关于这个问题的一般方法的建议(还有一些关于这个主题的好读物)。