“Histomancy”:McElreath 建议我们做什么?

机器算法验证 数理统计 推理 造型 可能性
2022-03-30 03:28:18

我有 McElreath 的书(Statistical Rethinking),并且对他对“Histomancy”的标注很感兴趣(见下图)。

组织学

我觉得这部分有点欠缺,我不确定我们当时建议做什么。我什至走得更远,看了他的演讲视频,希望能得到更多关于此事的信息。

我唯一的收获是我们应该使用我们对结果变量的了解并忽略直方图。例如,假设我们有一个计数变量,那么我们知道我们必须处理泊松或相关的可能性。然后归结为比较可以切实表达可能性的模型,并查看哪个模型最适合数据。

除了基本知识(啊,我有一个计数变量,泊松!),我们还可以使用其他什么来更好地理解我们应该从哪里开始猜测可能生成我们数据的分布?

1个回答

McElreath 似乎在诋毁要求回归量(在等号右侧,有时是“独立”或“预测”变量)和回归量(在等号左侧,有时是“依赖”或“结果” )的反复实践变量)在OLS回归之类的上下文中呈正态分布(即“高斯”)。

事实上,这些变量都不需要正态分布,甚至几乎不需要正态分布。残差需要这个假设,就像这里的简单模型一样:

yi=β0+βxxi+εi; where εN(0,σ)

证明这一点相对容易:

    n <- 200
    x <- runif(n)
    b0 <- 10
    bx <- -2
    s <- 0.1
    e <- rnorm(n,0,s)
    y <- b0 + bx*x + e
    summary(lm(y~x))
    hist(y)
    hist(x)
    hist(e)

请注意:

  1. 你相当充分地估计β0,βx, 和σ使用 OLS MLE 估计器:
          Coefficients:
                      Estimate  Std. Error t value  Pr(>|t|)    
          (Intercept) 10.00007    0.01337  747.85   <2e-16 ***
          x           -2.00687    0.02235  -89.81   <2e-16 ***

          Residual standard error: 0.0957 on 198 degrees of freedom
  1. 的直方图yx与正态分布完全不同:

y 的直方图 x的直方图

  1. 的直方图ε大约是正常的:

残差直方图

当然,除了 OLS 之外,还有其他线性回归模型(包括多元回归),但 MLE 估计经常用于此类模型,并且变量分布与残差的合并广泛反映在本网站上的问题、文献中和在研究会议上。

结果是我们应该努力在应用中理解我们的建模假设(无论我们的数据是连续的、可计数的还是你有什么),而不是把时间浪费在无意义的努力(即“组织学”)上,比如标准化我们所有的回归变量。