有人口,使用推论统计?另外,非正态因变量,怎么办?

机器算法验证 物流 正态分布 spss 相互作用 人口
2022-04-16 14:42:34

背景:我们正在考虑冰岛的育儿假。我们特别感兴趣的是经济危机和由此产生的育儿假立法的变化是否影响了育儿假的时间。

我们有理由相信,危机/新法律对母亲和父亲(享有同等休假权利)的影响会有所不同,取决于收入和教育,并且因素之间可能存在相互作用(例如,父亲的假期长短在新法律之前将与收入无关,但在法律通过后将开始取决于收入)。

  1. 实际上,我们不仅有一个样本,还有整个人口(大约 50000 个孩子)。我们甚至需要推论统计吗?我们能否仅以数字或图形方式描述结果,因为无论存在什么差异,这就是总体的实际差异?

  2. 如果我们确实需要做推论统计,那么我们就有一些潜在的问题:

    首先,因变量(休假长度)甚至不接近正态分布。相反,它是多模式的,例如,人们可能需要 0 天、30 天、60 天、90 天等,但不是,例如 3 天或 34 天。我无法将此分布转换为看起来像正态分布的任何东西。

我最初考虑使用某种查看中位数差异的非参数检验,但问题是中位数实际上可能总是接近相同(例如,90 天),但分布仍然发生变化。

然后我考虑将因变量二值化(例如,少于标准休假与休假或更多)。这将允许我使用逻辑回归,并且分布的怪异现象将消失。我对此很好。

但是,我不仅对主效应(例如时间的主效应和收入的主效应)感兴趣,而且对交互作用(例如时间和收入之间的交互作用)感兴趣。我不确定如何处理逻辑回归中的交互,特别是因为我可能不得不将这些因素视为分类(例如,我不期望休假的长度会随着时间线性增加或减少 - 我期待休假长度和时间之间的曲线关系)。

该怎么办?

我主要使用 SPSS 进行分析,以防万一。

2个回答

虽然您可能有一个人口,但核心问题是它是否真的是您希望发表声明的人口(至少与人口影响/差异有关的人口)。如果不是,在许多情况下您可能仍将其视为样本。如果真的是目标人群,不需要统计推断,只需要描述差异即可。

例如,事实证明,经常希望说出一些在不久的将来可能相关的事情,或指导政策,这表明名义上的(并且可能在物理上无法实现的)人口与观察到的有些不同。在这种情况下,可能有理由继续进行统计推断。

在普通回归中不假定因变量本身是正态的;条件分布是。即使假设是合理的,当存在两个或多个具有不同均值的组时,双峰/多峰边际分布也很常见。

您应该通过检查残差而不是原始响应来检查您的正态假设。

您谈到了中位数,但担心中位数可能很接近,即使分布可能总体上有所不同。您可以考虑对一组有代表性的分位数进行分位数回归

将您的回答二分法通常不被认为是一个好主意。[然而,交互作用(无论是分类分类、分类连续还是连续连续)在逻辑回归中的工作方式与在普通回归中的工作方式大致相同;特别是它们对线性预测器的影响几乎以相同的方式理解。]×××

你写“然后我考虑对因变量进行二值化(例如,花费少于标准休假与花费标准休假或更多)。这将允许我使用逻辑回归并且分布的怪异将消失。我对此很好。”

这听起来是一个很好的起点。您绝对可以在逻辑回归中包含交互。例如,您可以使用收入、性别、教育指标、我们是否处于新法律通过后的时间段的指标、该指标与收入的交互作用、交互作用来预测“休假长度 >= 阈值”该指标与性别...实际上,如果您被允许共享系数,那么如果您可以运行该模型并在此处发布结果,那将是非常酷的。

除了新法律是否通过的指标外,您还可以产生特定年份的影响——如果您有足够的数据,这些影响可能与收入、性别等相互作用。

如果您有有关此人居住地的数据,则可以运行分层逻辑回归,其中您的位置效应被建模为来自某个常见分布。