两年的数据描述了暴力测试与病房患者数量的关联

机器算法验证 r 混合模式 自相关 面板数据
2022-03-09 04:23:39

我有两年的数据,基本上是这样的:

日期 _ __ 暴力是/否?_ 患者人数

2008 年 1 月 1 日 _ ___ 0 _ _ __ _ ____ 11

2008 年 2 月 1 日_ __ _ 0 _ __ _ __ _ __ 11

2008年 3 月 1 日_ ____ 1 _ _ __ _ ____ 12

2008年 4 月 1 日_ ____ 0 _ _ __ _ ____ 12

...

2009 年 12 月 31 日_ _ __ 0_ _ __ _ __ _ __ 14

即对精神病病房进行两年的观察,每天一次,这表明当天是否发生了暴力事件(1 是,0 否)以及病房的患者人数。我们希望检验的假设是,病房里的更多患者与病房内暴力发生的可能性增加有关。

当然,我们意识到,我们必须适应这样一个事实,即当病房里有更多患者时,暴力更有可能发生,因为他们只是更多——我们感兴趣的是每个人的暴力概率是否会上升病房里的病人比较多。

我看过几篇只使用逻辑回归的论文,但我认为这是错误的,因为存在自回归结构(虽然,看看自相关函数,它不会在任何滞后时超过 0.1,尽管这高于R 为我绘制的“重要”蓝色虚线)。

只是为了让事情变得更复杂,如果我希望将结果分解为单个患者,我可以这样做,所以数据看起来就像上面一样,除了我会有每个患者的数据,2008 年 1 月 1 日,2/ 1/2008 等,ID 代码在侧面,因此数据将分别显示每位患者的整个事件历史(尽管并非所有患者都在场,但不确定这是否重要)。

我想在 R 中使用 lme4 对每个患者的自回归结构进行建模,但是一些谷歌搜索提出了“lme4 未设置为处理自回归结构”的引用。即使是这样,我也不确定我是否掌握了如何编写代码。

以防万一有人注意到,我刚才问了一个这样的问题,它们是具有不同问题的不同数据集,尽管实际上解决这个问题将有助于解决这个问题(有人建议我以前使用混合方法,但这个自回归的事情让我不确定如何执行此操作)。

所以说实话,我有点卡住了,迷路了。任何帮助都感激不尽!

1个回答

这是一个将您的二元因变量连接到一个连续的、未观察到的变量的想法;一种可以让您利用时间序列模型的功能来处理连续变量的连接。

定义:

Vw,t=1如果病房发生暴力事件w在时间段内t否则为 0

Pw,t: 病房暴力倾向w有时t.

Pw,t被假定为一个连续变量,在某种意义上代表了囚犯“压抑”的感情,这些感情有时会沸腾并导致暴力。根据这个推理,我们有:

Vw,t={1if Pw,tτ0otherwise

在哪里,

τ是触发暴力行为的未观察到的阈值。

然后,您可以使用时间序列模型Pw,t并估计相关参数。例如,您可以建模Pw,t作为:

Pw,t=α0+α1Pw,t1+...+αpPw,tp+βnw,t+ϵt

在哪里,

nw,t是病房的病人数w有时t.

你可以看看是否β与 0 显着不同,以检验您“更多患者导致暴力概率增加”的假设。

上述模型规范的挑战在于你并没有真正观察到Pw,t因此,以上不是您通常的时间序列模型。我对R一无所知,所以如果有一个包可以让你估计像上面这样的模型,也许其他人会参与进来。