我已经将 GLM(泊松)拟合到一个数据集,其中一个变量是客户从我公司购买产品的年份的分类,范围从 1999 年到 2012 年。随着销售年份的增加而变化。
试图通过推断获得那些年份的系数来改善 2013 年和 2014 年的预测是否有任何问题?
我已经将 GLM(泊松)拟合到一个数据集,其中一个变量是客户从我公司购买产品的年份的分类,范围从 1999 年到 2012 年。随着销售年份的增加而变化。
试图通过推断获得那些年份的系数来改善 2013 年和 2014 年的预测是否有任何问题?
如果您怀疑您的响应与年份呈线性关系,则将年份作为模型中的数字项而不是分类项。
然后,基于 GLM 系列的通常假设,外推是完全有效的。确保您正确地获得了外推估计的错误。
出于多种原因,仅从分类变量中推断参数是错误的。我能想到的第一个问题是,某些年份的观测值可能比其他年份多,因此任何线性外推都需要更多地加权那些年份的估计值。仅仅注视一条线 - 甚至将一条线拟合到系数 - 不会做到这一点。
我相信这是应用时间序列分析的案例,特别是时间序列预测(http://en.wikipedia.org/wiki/Time_series)。考虑以下有关时间序列回归的资源: