我认为,问题是关于边际效应(X 对 Y),而不是解释单个系数。正如人们有用地指出的那样,这些有时只能通过效应大小来识别,例如,当存在线性和加性关系时。
如果这是重点,那么(在概念上,如果不是实际上)考虑问题的最简单方法似乎是:
要在没有交互作用的线性正态回归模型中获得 X 对 Y 的边际效应,您只需查看 X 上的系数。但这还不够,因为它估计未知。在任何情况下,人们真正想要的边际效应是某种图或总结,它为一系列 X 值提供关于 Y 的预测,以及不确定性的度量。通常,人们可能想要预测的均值 Y 和置信区间,但也可能想要预测 X 的 Y 的完整条件分布。该分布比拟合模型的 sigma 估计更宽,因为它考虑了模型系数的不确定性.
对于像这样的简单模型,有各种封闭形式的解决方案。对于目前的目的,我们可以忽略它们,而是更一般地考虑如何通过模拟获得边际效应图,以处理任意复杂模型的方式。
假设您想要改变 X 对 Y 均值的影响,并且您很乐意将所有其他变量固定在一些有意义的值上。对于 X 的每个新值,从模型系数的分布中抽取一个大小为 B 的样本。在 R 中这样做的一个简单方法是假设它是具有均值coef(model)
和协方差矩阵的 Normal vcov(model)
。为每组系数计算一个新的预期 Y,并用一个间隔对批次进行汇总。然后转到 X 的下一个值。
在我看来,这种方法应该不受应用于任何变量的任何花哨的转换的影响,只要您在每个采样步骤中也应用它们(或它们的倒数)。因此,如果拟合模型将 log(X) 作为预测变量,则在将新 X 乘以采样系数之前记录它。如果拟合模型将 sqrt(Y) 作为因变量,则将样本中的每个预测均值平方,然后将它们汇总为区间。
简而言之,更多的编程但更少的概率计算,以及临床上可理解的边际效应。这种“方法”有时在政治学文献中被称为 CLARIFY,但相当笼统。