使用回归在数据范围之外进行投影可以吗?从来没有好吗?有时好吗?

机器算法验证 回归 数据集 线性模型
2022-03-07 12:52:44

您对使用回归在数据范围之外进行投影有何想法?如果我们确定它遵循线性或幂模型形状,那么模型在数据范围之外是否有用?例如,我有价格驱动的交易量。我们应该能够预测超出我认为的数据范围的价格。你的意见?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
3个回答

几乎所有的答案和评论都警告外推的危险。我想提供一种更正式的方式来查看预测是否谨慎。该方法基于在由列所跨越的空间上的投影矩阵X我们假设满秩,即我们假设列空间是 p 维的。你可能还记得,

H=X(XTX)1X

可以证明,对角元素H满足0<Hii<1, i=1,,n,顺便说一下,这是幂等性的结果,它们可以解释为与预测空间质心的距离。这是正确的,因为杠杆之间存在一一对应的关系Hii和平方的马氏距离。发现隐藏推断的一种方法是查看新观测值与质心的距离,对吗?这可以通过计算新的对角元素来完成。回顾矩阵乘法的一些基本规则,我们有

Hnew,new=xnewT(XTX)1xnew

如果Hnew,new比其他对角线元素大得多,那么这告诉您,您的新观察距离质心很远,并且预测可能是一个冒险的举动。决定多大是太大需要一些判断,因此该技术当然不是万无一失的。然而,它的美妙之处在于它适用于所有维度,当您无法查看一个简单的散点图时。

我不确定您使用的是哪个软件,但几乎所有软件都会使用正确的命令返回帽子矩阵。所以我建议你在下定决心之前先看看。

预测误差随着与平均值的距离呈二次方增加。回归方程和结果允许您在观察到的数据范围内衡量误差的大小,并且该模型仅在同一范围内是足够的。

超出这个范围会发生很多事情。首先,由于预测误差的增加,预测变得越来越差。

其次,模型可能会完全崩溃。看到这一点的最简单方法是尝试构建一个将价格与时间相关联的模型:您无法预测负时间。

第三,线性关系可能不充分。在您的示例中,几乎可以肯定存在规模经济,如果您尝试预测远远超出观察值范围,这将变得非常明显。

这种效果的一个幽默例子出现在马克吐温的一部作品中,他试图模拟密西西比河随着时间的推移的长度——它/风很大,并且由于一些侵蚀,每年都会缩短/ed弯道和人为的捷径——并“预测”在这么多年里,开罗、伊利诺伊州和新奥尔良之间的距离将缩小到大约一英里零四分之三)。

最后,请注意,如果您有多个预测变量,则观测值的范围可能会非常复杂。(由于预测变量之间的相关性,您通常不能只取每个预测变量中的最大值和最小值定义的框。)

对于没有数据的领域,您无法做出数据驱动的决策。故事结局。数据可以很好地支持收集数据的范围内的线性形状,但您没有数据驱动的理由相信该形状在您的范围之外仍然是线性的。阳光下它可以是任何形状!

您可以假设线性形状继续超出您的数据范围,但这是您收集的数据不支持的主观假设。我建议咨询主题专家,根据他们的主题专业知识,看看这个假设有多安全。