使用时间序列分析来分析/预测暴力行为

机器算法验证 时间序列 预测
2022-03-19 06:19:38

这是一个有点轻率的问题,但我对答案很感兴趣。我在一家精神病院工作,我有三年的数据,每天在每个病房收集有关该病房暴力程度的数据。

显然,适合这些数据的模型是时间序列模型。我不得不改变分数以使它们更正常。我用差分数据拟合了一个 ARMA 模型,我认为最好的拟合是一个在滞后 2 处具有一个差分和一阶自相关的模型。

我的问题是,我到底能用这个模型做什么?时间序列在教科书中关于野兔数量和油价的时候似乎总是那么有用,但现在我自己做了,结果似乎如此抽象以至于完全不透明。不同的分数在滞后 2 时相互关联,但我真的不能建议每个人在严重事件发生两天后保持高度警惕。

或者我可以吗?

2个回答

适合数据的模型不一定是时间序列模型;我建议在盒子外面思考一下。

如果您有多个变量(例如年龄、性别、饮食、种族、疾病、药物),您可以将它们用于不同的模型。也许某些患者在同一个房间是一个重要的预测因素?或者可能与参加的工作人员有关?或者,如果您有其他可以使用的变量,请考虑使用多变量时间序列模型(例如 VECM)。看看患者之间的暴力关系:某些患者是否一起行动?

如果时间在行为中具有重要作用,则时间序列模型很有用。例如,可能存在一连串的暴力事件。查看波动率聚类文献。正如@Jonas 建议的那样,滞后阶数为 2,您可能需要在暴力爆发后的第二天保持更高的警觉。但这并不能帮助您阻止第一天的发生:您可能可以将其他信息链接到分析中以实际了解暴力的原因,而不是简单地以时间序列的方式预测它。

最后,作为技术建议:如果您使用 R 进行分析,您可以查看Rob Hyndman(本网站的创建者)的预测包。这有许多非常好的功能;请参阅《统计软件杂志》中的论文“自动时间序列预测:R 的预测包” 。

您将模型拟合到差异,这意味着您正在描述暴力程度的变化。你有 2 天的延迟。滞后表示进程的内存。换句话说,今天暴力程度的变化在一定程度上取决于过去两天暴力程度的变化。对于更长的时间尺度,随机影响的贡献变得足够强大,以至于不再有明确的联系。

自相关是否为正?然后,今天暴力程度的变化表明两天内暴力程度也发生了类似的变化。是负面的吗?然后暴力可能会持续两天。

当然,您可能需要控制混杂效应。例如,在发生严重事件后,人们可能更有可能报告轻微事件,但这种“敏感化”会在两天后消失。