我想将花在做某事上的时间(例如母乳喂养几周)作为自变量包含在线性模型中。然而,一些观察根本不参与行为。将它们编码为 0 是不正确的,因为 0 与任何大于 0 的值在性质上是不同的(即不母乳喂养的女性可能与母乳喂养的女性有很大不同,即使是那些不母乳喂养很长时间的女性)。我能想到的最好的方法是一组对花费的时间进行分类的假人,但这是对宝贵信息的浪费。像零膨胀泊松这样的东西似乎也是一种可能性,但我无法完全弄清楚在这种情况下会是什么样子。有没有人有什么建议?
在活动中花费的时间作为自变量
扩展一下@ken-butler 的答案。通过将连续变量(小时)和特殊值的指示变量(小时 = 0,或非母乳喂养)相加,您认为“非特殊”值存在线性效应,而在特殊值的预测结果。它有助于(至少对我而言)查看图表。在下面的示例中,我们将小时工资建模为受访者(所有女性)每周工作小时数的函数,我们认为“标准”每周 40 小时有一些特别之处:
生成此图的代码(在 Stata 中)可以在这里找到:http: //www.stata.com/statalist/archive/2013-03/msg00088.html
因此,在这种情况下,我们为连续变量分配了一个值 40,即使我们希望将其与其他值区别对待。同样,即使您认为它与其他值在质量上有所不同,您也会将母乳喂养周数设为 0。我在下面解释您的评论,您认为这是一个问题。情况并非如此,您不需要添加交互项。实际上,如果您尝试过,由于完美的共线性,该交互项将被删除。这不是限制,它只是告诉您交互条款不会添加任何新信息。
假设您的回归方程如下所示:
其中是母乳喂养的周数(包括不母乳喂养的值为 0),而是指示变量,当有人不母乳喂养时为 1,否则为 0。
想一想当有人母乳喂养时会发生什么。回归方程简化为:
所以只是母乳喂养周数的线性效应。
考虑当有人不母乳喂养时发生了什么:
所以给了你不母乳喂养的效果,并且母乳喂养的周数从等式中下降。
您可以看到添加交互项没有用,因为该交互项已经(隐式地)在其中。
有一些奇怪的地方,因为它通过比较那些不进行母乳喂养但只进行 0 周的母乳喂养的人的预期结果来衡量母乳喂养的效果......这在“比较”中是有道理的like with like”之类的方式,但实际用处并不是很明显。将“非母乳喂养者”与母乳喂养 12 周(约 3 个月)的女性进行比较可能更有意义。在这种情况下,您只需为“非母乳喂养者”指定 12的值。因此,您为“非母乳喂养者”分配给从某种意义上说,它决定了“非母乳喂养者”与谁进行比较。这实际上不是一个问题,而是非常有用的东西。
一些简单的事情:用 1/0 指标表示您的变量,表示任何/无,以及实际值。将两者都放入回归中。
如果您为任何时间花费(=1)与无时间花费(=0)放置一个二进制指标,然后将花费的时间量作为连续变量,“0”次的不同效果将是“由 0-1 指标拾取”
您可以使用基于 0 时间与非零时间的分组的混合效应模型,并保留您的自变量