1) 包括兼职和临时工作是否会导致虚拟变量陷阱?如果不是,我们是否可以排除临时工作作为解释变量来解释一个国家的工资,因为工作性质不一致,因此其可预测性也不一致?
2) 在学位、A-level、GCSE 和无学位之外,哪个教育解释变量在解释一个国家的工资时最适合作为虚拟变量的基础变量?当我使用 pc-give OxMetrics 运行回归时,排除其中任何一个都会给我相同的 RSS、R^2 和 AdR^2,所以我有点困惑。
1) 包括兼职和临时工作是否会导致虚拟变量陷阱?如果不是,我们是否可以排除临时工作作为解释变量来解释一个国家的工资,因为工作性质不一致,因此其可预测性也不一致?
2) 在学位、A-level、GCSE 和无学位之外,哪个教育解释变量在解释一个国家的工资时最适合作为虚拟变量的基础变量?当我使用 pc-give OxMetrics 运行回归时,排除其中任何一个都会给我相同的 RSS、R^2 和 AdR^2,所以我有点困惑。
虚拟变量陷阱与一组虚拟变量高度共线以致 OLS 无法识别模型参数的情况有关。这主要发生在您包含某个变量的所有虚拟变量时,例如,您有 3 个教育虚拟变量“无学位”、“高中”和“大学”。如果您将回归中的所有假人与截距(一个向量)一起包括在内,那么这组假人将与截距线性相关,OLS 无法求解。出于这个原因,大多数统计软件包都会自动删除假人。
对于问题 1,有一个兼职和一个临时工作假人不应该有这个问题,因为它们不是相互排斥和穷举的。例如,人们可以全职工作,但只是临时工作。但是,如果在您的样本中(无论出于何种原因),所有兼职员工也是临时工,那么您的一个假人将再次被删除。作为旁注:这种回归的更大问题是由于自我选择导致的内生性问题,例如为什么有些人是临时工?根据原因及其与结果的关系,这可能会使结果产生偏差。
关于问题 2,更改基线假人是一个解释问题。您选择哪个基线取决于您要回答什么。如果你想看看大学毕业生比高中毕业生挣多少,那么选择高中毕业生作为基线是有道理的。那么毕业生虚拟系数可以解释为大学毕业生和高中毕业生之间的结果差异。
1) 可以是兼职永久就业、全职长期就业、兼职临时就业和全职临时就业。因此,您可以将两者都添加到您的模型中,而不会陷入虚拟变量陷阱。您可以包含或排除您喜欢的任何变量。这是一个实质性的选择,而不是统计的选择,所以我们无法在这方面为您提供帮助。
2)模型在统计上是等价的:如果拥有 A-level 的人比没有学位的人平均多赚 3 欧元,那么没有学位的人将比拥有 A-level 的人少赚 3 欧元。所以这些都不比其他的更好,你可以选择对你最有意义的一个。