背景:我们正在考虑冰岛的育儿假。我们特别感兴趣的是经济危机和由此产生的育儿假立法的变化是否影响了育儿假的时间。
我们有理由相信,危机/新法律对母亲和父亲(享有同等休假权利)的影响会有所不同,取决于收入和教育,并且因素之间可能存在相互作用(例如,父亲的假期长短在新法律之前将与收入无关,但在法律通过后将开始取决于收入)。
实际上,我们不仅有一个样本,还有整个人口(大约 50000 个孩子)。我们甚至需要推论统计吗?我们能否仅以数字或图形方式描述结果,因为无论存在什么差异,这就是总体的实际差异?
如果我们确实需要做推论统计,那么我们就有一些潜在的问题:
首先,因变量(休假长度)甚至不接近正态分布。相反,它是多模式的,例如,人们可能需要 0 天、30 天、60 天、90 天等,但不是,例如 3 天或 34 天。我无法将此分布转换为看起来像正态分布的任何东西。
我最初考虑使用某种查看中位数差异的非参数检验,但问题是中位数实际上可能总是接近相同(例如,90 天),但分布仍然发生变化。
然后我考虑将因变量二值化(例如,少于标准休假与休假或更多)。这将允许我使用逻辑回归,并且分布的怪异现象将消失。我对此很好。
但是,我不仅对主效应(例如时间的主效应和收入的主效应)感兴趣,而且对交互作用(例如时间和收入之间的交互作用)感兴趣。我不确定如何处理逻辑回归中的交互,特别是因为我可能不得不将这些因素视为分类(例如,我不期望休假的长度会随着时间线性增加或减少 - 我期待休假长度和时间之间的曲线关系)。
该怎么办?
我主要使用 SPSS 进行分析,以防万一。