我读到当残差自相关时,OLS 会低估方差。我明白为什么自相关在时间序列分析中会成为一个问题,因为我们没有包括所有潜在的预测变量,所以系数效率不高。但是否也存在数学问题?
例如,我们要预测二手车的销售利润率。该数据集包括每辆汽车的品牌、型号、每加仑行驶里程、价格、选项等以及最终售价。出于某种原因,目录已按汽车品牌和年份/型号分类,因此相邻的观察结果可能具有相似的销售数字。在这种情况下,自相关是一个问题吗?
我读到当残差自相关时,OLS 会低估方差。我明白为什么自相关在时间序列分析中会成为一个问题,因为我们没有包括所有潜在的预测变量,所以系数效率不高。但是否也存在数学问题?
例如,我们要预测二手车的销售利润率。该数据集包括每辆汽车的品牌、型号、每加仑行驶里程、价格、选项等以及最终售价。出于某种原因,目录已按汽车品牌和年份/型号分类,因此相邻的观察结果可能具有相似的销售数字。在这种情况下,自相关是一个问题吗?
时间序列分析中的相关残差可能意味着比低效率更糟糕:如果自相关的结构意味着整合或接近整合的数据,那么任何关于水平、均值、方差等的推论都可能是虚假的(具有未知的偏差方向),因为总体均值是未定义的,总体方差是无限的(因此,例如,有限值和以及从这些得出的数量始终是相应总体统计数据的错误估计)。
这不是一个可以通过增加样本量来抵消低效率来解决的问题。
如果在 OLS 中出现自相关错误,我会说可能存在相同的问题(这取决于数据生成过程)。再说一遍:不是效率问题。
关键的警告是您的数据排序是否有意义:如果订单有意义,因为它与数据生成过程有关,那么您就有麻烦了。
1)您所指的时间序列自相关是时间序列与时移序列之间的相关性;收集数据时观察“时间”。在您的示例中,通过转移汽车制造商或型号的自相关并不是很有意义。对于新车来说,换年(比较同类型汽车的同比销量)是有意义的,但对于二手车来说意义不大,因为如果有一个随机使用汽车会消除相关性. 我认为您可以继续应用 OLS 技术
2)您将拟合一个无偏线性估计器,一个 M 估计器的特例。如果您的目标是建立一个预测模型(与测试模型参数可表达的假设相反),那么 OSL 是合适的。为了涵盖未满足的模型假设的可能性,请使用培训来构建您的模型,并使用验证样本来评估其在样本外案例中的表现。