是否使用分层线性模型

机器算法验证 r 多层次分析
2022-04-04 06:52:31

我一直在阅读 Gelmans 的书:Data Analysis Using Regression and Multilevel/Hierarchical Models,试图了解更多关于如何实现层次模型的信息。我有一个我认为适合这种类型建模的数据集,但是我想获得一些其他的意见。基本上我拥有的数据结构如下:

BRAND       YEAR         Y           X1          X2         X3
company_1   2012    0.638042396 0.226787359 0.192104136 0.929220784
company_2   2012    0.983422117 0.308550049 0.527779594 0.106629747
company_n   2012    0.209276388 0.700314863 0.741787081 0.491451885
company_1   2013    0.833955686 0.735844101 0.518474158 0.117670754
company_2   2013    0.480778935 0.290739025 0.156177295 0.212643611
company_n   2013    0.69922326  0.188574282 0.448743735 0.609844836
company_1   2014    0.942147995 0.176500074 0.820207708 0.388313924
company_2   2014    0.503095705 0.987218933 0.834039587 0.42661805
company_n   2014    0.46569344  0.310693712 0.852694246 0.17574502 

我每年有大约 15 家不同的公司。我的想法是有一个这样的模型:

lmer(Y ~  X1 + X2 + X3 + (1 | BRAND) , h.data)

我对每家公司都有不同的拦截。所以我的问题是使用分层模型是否有意义,我的数据是否符合分层数据的原型?我还应该以某种方式将 YEAR 包含在模型中吗?

3个回答

虽然我同意多级建模是具有这种结构的数据的一种选择,但它不是唯一的选择,尤其是考虑到唯一的时间序列维度。通常,异质模型中的嵌套是按类别进行的,例如,班级或教师中的学生、学校中的班级等等,而不是像时间这样的顺序维度。

格尔曼和希尔的书很棒,我同意。也许更好的是 Singer 和 Willet 的书Applied Longitudinal Data Analysis,就一位发帖者而言,它在某些主题上比 G&H 更深入,例如增长模型、与构建可解释截距、曲线和生存分析相关的问题,但 S&W 缺乏贝叶斯焦点。

如果您有一个称为“行业”的附加因素,那么我会更倾向于使用异质模型。鉴于您没有(即您没有将“行业”作为一个因素。这些公司是否属于单一行业?使用 6 位或 8 位 SIC 或 NAIC 代码怎么样?),另一个考虑因素是合并时间社会学中所谓的系列或事件历史分析。在这里,优点是可以在 OLS 中估计模型,这是一种比多级模型更易于处理的函数形式,并且工业、组织和经济文献在该领域发表论文的历史由来已久,至少从FM Scherer,但一直持续到近期出版的书籍,例如 Wooldridge 的《横截面和面板数据的计量经济学分析》

在 PTS 领域,我个人最喜欢的是 Lee Cooper 的电子书Market Share Analysis,可在他的 UCLA 网站上找到。忽略“分享”部分,甚至“营销”部分。这只是对此类模型的一个很好的介绍,并且在不牺牲科学严谨性的情况下很容易获得(他是 mktg 科学的名誉教授)。更不用说他在数据结构、弹性、交叉弹性方面开发了不同且精心指定的函数形式,以及关于如何将这些构建到模型中的非常实用的建议。根据您的X因素,这可能是非常有用的信息。

我会说使用分层模型适合您的情况。

按照本指南,BRAND 将是您的 Level-2-term,Year 可能是您的 Level-1-term,用作随机斜率。

您还应该事后检查 ICC,看看层次模型是否比正常线性回归有任何好处。

是的,您可能应该使用多级建模,公司可能处于第 3 级,年份处于第 2 级。这将是一种多级增长曲线方法。然后,您可以分析 x 不同类型的公司随时间发生的不同类型的变化。