为什么有必要对误差进行分布假设,即
,与。
为什么不写
,与,
在任何一种情况下。
我已经看到它强调分布假设是放在错误上的,而不是数据上,但没有解释。
我不太了解这两种配方之间的区别。在某些地方,我看到对数据进行了分布假设(贝叶斯点燃。似乎主要是),但大多数情况下,这些假设都放在了错误上。
在建模时,为什么/应该选择从对其中一个或另一个的假设开始?
为什么有必要对误差进行分布假设,即
,与。
为什么不写
,与,
在任何一种情况下。
我已经看到它强调分布假设是放在错误上的,而不是数据上,但没有解释。
我不太了解这两种配方之间的区别。在某些地方,我看到对数据进行了分布假设(贝叶斯点燃。似乎主要是),但大多数情况下,这些假设都放在了错误上。
在建模时,为什么/应该选择从对其中一个或另一个的假设开始?
我会将第二个定义写为
或(正如 Karl Oskar 建议的那样 +1)
即建模假设是响应变量正态分布在回归线周围(这是条件均值的估计),具有恒定方差。这与暗示是正态分布的不同,因为分布的平均值取决于。
我想我在机器学习文献中看到过类似的表述;据我所知,它等同于第一个定义,我所做的只是稍微不同地表达第二个公式,以消除和。
在线性回归设置中,通常以为条件进行分析并得出结果,即以“数据”为条件。因此,您需要的是是正常的,也就是说,您需要是正常的。正如 Peter Flom 的示例所示,一个人可以有的正态性而没有的正态性,因此,由于你需要的是的正态性,这是一个明智的假设。
用一个例子最容易说明这种差异。这是一个简单的:
假设 Y 是双峰的,其中的模态由一个自变量解释。例如,假设 Y 是身高,而您的样本(无论出于何种原因)由骑师和篮球运动员组成。例如在R
set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)
height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))
plot(density(height))
m1 <- lm(height~sport)
plot(m1)
第一个密度非常不正常。但是模型的残差非常接近正常值。
至于为什么以这种方式设置限制 - 我会让其他人回答那个问题。
您需要在第二个公式中添加下标 i:
因为需要能够随变化。
已经注意到,什么是?它是。这导致了@DikranMarsupial 提出的公式:
值得认识到这与您的第一个完全相同公式,因为两者都规定了正态分布并且期望值相等。即:
(显然方差是相等的。)换句话说,这是
那么问题就变成了,是否有理由更喜欢使用第一个公式来表达这个想法?
我认为答案是肯定的,原因有二:
我相信这些混淆更有可能使用第二种表述而不是第一种。