高永远没用吗?R2R2

机器算法验证 回归 r平方
2022-02-12 15:35:40

在统计数据中,我们正在做线性回归,这是它们的开始。一般来说,我们知道越高越好,但是有没有一种情况,高会成为无用的模型?R2R2

3个回答

是的。评估统计模型的标准取决于手头的具体问题,而不是的某种机械函数或统计意义(尽管它们很重要)。相关的问题是,“模型是否可以帮助您理解数据?”R2

R2

  1. 获得高的最简单方法是在左鞋上做一些等价的回归右鞋。告诉我你右鞋的尺码,我可以很准确地预测你左鞋的尺码。巨大的多么棒的统计模型啊!除非它意味着懒洋洋的便便。您可以通过将相同的变量放在回归的左侧和右侧回归几乎肯定是没有用的。R2R2R2R2

  2. 在其他情况下,在右侧包含一个变量在概念上是错误的(即使它提高了)。假设您正在尝试估计某些少数群体是否受到歧视并且不太可能找到工作。不应该控制公司是否在求职后回电,因为不太可能回应少数族裔的求职申请可能是歧视发生的渠道!添加错误的控件会使您的回归变得毫无意义。R2

  3. 始终可以通过添加更多回归量来增加我可以继续在右侧添加回归量,直到我得到任何我喜欢为了预测劳动收入,我可以添加教育控制、年龄控制、季度固定效应、邮政编码固定效应、职业固定效应、公司固定效应、家庭固定效应、宠物固定效应、头发长度等......在某些时候控制不再有意义,但继续上升。将所有内容添加为回归量称为“厨房水槽”回归。您可以获得高,但可能会严重过度拟合数据:您的模型完美地预测了用于估计模型的样本(具有高R2R2R2R2R2) 但估计的模型在新数据上严重失败。

  4. 同样的想法可以出现在多项式曲线拟合中。给我随机数据,我可以通过拟合 200 度多项式但是,在新数据上,估计的多项式将由于过度拟合而无法工作。同样,很高,但估计模型是无用的。R2R2

  5. 第 (3-4) 点是我们调整的原因,这为添加更多回归量提供了一些惩罚,但调整后的通常仍然可以通过过度拟合数据来提升。它还有一个非常荒谬的特征,它可以变成负数。R2R2

我还可以举出低就可以的例子(例如,估计资产定价模型中的 beta),但这篇文章已经很长了。总而言之,总体问题应该类似于“了解我对问题和统计数据的了解,这个模型是否有助于我理解/解释数据?” 可以成为帮助回答这个问题的工具,但它并不是那么简单,因为具有更高的模型总是更好。R2R2R2

“越高越好”对于 R-square 来说是一个不好的经验法则。

几年前,唐·莫里森 (Don Morrison) 写了一些著名的文章,证明接近零的 R 平方仍然可以操作和盈利,具体取决于行业。例如,在直接营销预测对向 1000 万户家庭邮寄杂志订阅的反应时,如果邮件是基于前 2 或 3 个十分位数的响应,则低个位数的 R 方可以产生有利可图的活动(在 ROI 的基础上)可能性。

另一位社会学家(他的名字让我忘记了)按数据类型对 R 平方进行了细分,指出在调查研究中,R 平方在 10-20% 范围内是常态,而对于商业数据,R 平方在 40-60% 范围内是意料之中的。他们接着评论说,80-90% 或更大的 R 平方可能违反了基本回归假设。然而,这位作者在营销组合、时间序列数据或包含全套“因果”特征(例如,经典的价格、促销、地点和产品的 4 个“P”)的模型方面没有经验,这些特征可以并且将会产生 R-接近 100% 的正方形。

也就是说,即使是明智的基准经验法则在处理技术文盲时也没有太大帮助,因为他们关于预测模型的第一个问题总是“什么是 R 方?”

其他答案为 R 平方值可以固定/伪造/误导/等的多种方式提供了很好的理论解释。这是一个一直困扰我的动手演示,编码为r

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

这可以提供 > 0.90 的 R 平方值。添加足够多的回归量,甚至随机值都可以“预测”随机值。