我读过同方差意味着误差项的标准偏差是一致的,并且不依赖于 x 值。
问题1:有人可以直观地解释为什么这是必要的吗?(一个应用的例子会很棒!)
问题 2:我永远不记得理想的是异性恋还是异性恋。有人可以解释哪个是理想的逻辑吗?
问题 3:异方差意味着 x 与误差相关。有人可以解释为什么这很糟糕吗?

我读过同方差意味着误差项的标准偏差是一致的,并且不依赖于 x 值。
问题1:有人可以直观地解释为什么这是必要的吗?(一个应用的例子会很棒!)
问题 2:我永远不记得理想的是异性恋还是异性恋。有人可以解释哪个是理想的逻辑吗?
问题 3:异方差意味着 x 与误差相关。有人可以解释为什么这很糟糕吗?

同方差意味着所有观察值的方差彼此相同,异方差意味着它们不同。方差的大小可能会显示出相对于 x 的一些趋势,但这并不是绝对必要的;如附图所示,以某种随机方式从一点到另一点大小不同的方差也同样适用。
回归的工作是估计一条通过尽可能多的数据点的最佳曲线。在异方差数据的情况下,根据定义,某些点自然会比其他点分散得多。如果回归简单地对所有数据点进行等效处理,则方差最大的数据点往往会对选择最优回归曲线产生不当影响,通过将回归曲线“拖”向自己,以实现最小化回归曲线的目标。关于最终回归曲线的数据点的整体分散。
这个问题可以很容易地通过简单地加权每个数据点与其方差成反比来解决。然而,这假设人们知道与每个单独点相关的方差。通常,一个人不会。因此,首选同方差数据的原因是因为它们更简单、更容易处理——您可以获得回归曲线的“正确”答案,而不必知道各个点的潜在方差,因为它们之间的相对权重如果无论如何它们都相同,点在某种意义上将“取消”。
编辑:
一位评论者让我解释一下,各个点可能有自己的、独特的、不同的差异。我通过一个思想实验来做到这一点。假设我让你测量一堆不同动物的重量与长度,从蚊蚋的大小一直到大象的大小。您这样做,在 x 轴上绘制长度,在 y 轴上绘制重量。但是,让我们暂停一下,更详细地考虑一下事情。让我们具体看一下权重值——您实际上是如何获得它们的?您不可能像称量家养宠物那样使用相同的物理测量设备来称量蚊蚋,也不能像称量大象那样使用相同的设备来称量家养宠物。对于 gnat,您可能必须使用分析化学天平之类的东西,精确到 0.0001 克,而对于家养宠物,您会使用浴室秤,它可能精确到大约半磅左右(大约 200 克),而对于大象,您可能会使用像汽车衡,它可能只精确到 +/- 10 公斤以内。关键是,所有这些设备都有不同的固有精度——它们只告诉你重量达到一定数量的有效数字,之后你就不能确定了。上面异方差图中的不同大小的误差条,我们与各个点的不同方差相关联,反映了对基础测量的不同确定性程度。简而言之,不同的点可能有不同的差异,因为有时我们无法同等地测量所有点——你永远不会知道大象的重量低至 +/- 0.0001 g,因为你无法得到那种汽车衡的精度。但是你可以知道蚊蚋的重量为 +/- 0.0001 克,因为您可以在分析化学天平上获得这种准确度。(从技术上讲,在这个特殊的思想实验中,长度测量实际上也出现了相同类型的问题,但真正的意思是,如果我们决定绘制代表 x 轴值中不确定性的水平误差线,那些将不同的点也有不同的尺寸。)
为什么我们想要回归中的同方差性?
并不是我们想要回归中的同方差或异方差;我们想要的是让模型反映数据的实际属性。回归模型可以用某种特定形式的同方差假设或异方差假设来制定。我们希望制定一个符合数据实际属性的回归模型,从而反映来自观察过程的数据行为的合理规范。
因此,如果响应与其期望的偏差(误差项)的方差是固定的(即,是同方差的),那么我们需要一个反映这一点的模型。如果响应与其期望的偏差(误差项)的方差取决于解释变量(即异方差),那么我们需要一个反映这一点的模型。如果我们错误地指定模型(例如,通过对异方差数据使用同方差模型),那么这意味着我们将错误地指定误差项的方差。结果是我们对回归函数的估计会低估一些错误而过度惩罚其他错误,并且会比我们正确指定模型时表现得更差。
除了其他出色的答案:
有人可以直观地解释为什么这是必要的吗?(一个应用的例子会很棒!)
恒定方差不是必需的,但是当它保持建模和分析时更简单。其中一部分必须是历史的,方差不恒定时的分析更复杂,需要更多的计算!因此,一种开发方法(转换)可以达到恒定方差的情况,并且可以使用更简单/更快的方法。今天有更多的替代方法,快速计算并不像以前那么重要。但简单仍然有价值!部分是技术/数学的。具有非常量方差的模型没有精确的辅助项(请参见此处。)因此只能进行近似推断。两组问题中的非恒定方差是著名的 Behrens-Fisher 问题。
但它比这更深。让我们看一个最简单的例子,将两组的均值与(某些变体)t 检验进行比较。原假设是组相等。假设这是一个有治疗组和对照组的随机实验。如果组大小是合理的,随机化应该使组相等(在治疗之前)。恒定方差假设表明治疗(如果它完全有效)只影响平均值,而不影响方差。但它如何影响方差?如果治疗真的对治疗组的所有成员都有效,它应该对所有人产生或多或少相同的效果,只是改变了组。因此,不等方差可能意味着治疗对治疗组的某些成员的影响与其他成员不同。说,因此,常数方差假设实际上是关于个体治疗效果同质性的假设。当这不成立时,应该期望分析变得更加复杂。见这里。然后,由于方差不等,询问其原因也可能很有趣,特别是治疗是否与此有关。如果是这样,这篇文章可能会很有趣。
问题 2:我永远不记得理想的是异性恋还是异性恋。有人可以解释哪个是理想的逻辑吗?
没有人是理想的,你必须模仿你的情况!但如果这是一个关于记住这两个有趣词的含义的问题,只需将它们放在性之前,你就会记住。
问题 3:异方差意味着 x 与误差相关。有人可以解释为什么这很糟糕吗?
这意味着给定的误差的条件分布随变化。这还不错,它只会让生活变得复杂。但这可能只是让生活变得有趣,它可能是一些有趣的事情发生的信号。
OLS回归的假设之一是:
误差项/残差的方差是恒定的。这个假设被称为同方差。
这个假设确保随着观测值的变化,误差项的变化不应该改变
此外,在存在异方差的情况下,标准误差的估计会变得有偏差且不可靠,这会导致估计量的假设检验出现问题。
总之,在没有同方差性的情况下,我们有线性和无偏估计量,但没有 BLUE(最佳线性无偏估计量)
[阅读高斯马尔可夫定理]
我希望现在很清楚,理想情况下,我们的模型需要同方差性。
如果误差项与 y 或 y 预测或任何 xi 相关;它表明我们的预测器没有正确解释“y”的变化。
不知何故,模型规范不正确或存在其他一些问题。
希望能帮助到你!很快就会尝试写一个直观的例子。