我刚刚看了一个关于统计推断的讲座(“比较比例和均值”),这是在线统计课程介绍的一部分。对我来说,这些材料和往常一样毫无意义(现在我一定已经看过几十次了,在过去的三十年里分散开来)。
我正在寻找一本关于“基本 Stats-101”(点估计、估计评估、统计推断、假设检验、研究设计)的书,它认真对待说服持怀疑态度的读者的问题......
下面我给出了一些我正在寻找的作者会认真对待并知道如何令人信服地解决的问题类型的例子。
但首先让我花一点时间强调一下,在这篇文章中我不是在问这些问题。 请不要回答他们! 我将它们作为示例,并通过“试金石”(针对搜索的作者类型)的方式给出。
如果“比例”只是布尔变量的平均值(即只取值 0 和 1 的变量),为什么要教授不同的程序来用“比例”和“平均值”进行统计推断?
如果正态分布如此稳健以至于假设正态性即使在数据不是完全正态分布的情况下也能给出良好的结果,并且如果 t 分布看起来如此正常,那么为什么要大惊小怪地使用 t 分布而不是普通的?
究竟什么是“自由度”,我们为什么要担心它们?
考虑到我们只是使用看起来与数据相似的分布,谈论参数的“真实”值意味着什么?
为什么“探索性数据分析”是好事,而“数据窥探”是坏事?
正如我所说,我对忽视这些问题所暗示的态度感到厌烦。这不是我想在教我一些东西的人身上看到的“认识论立场”。我正在寻找尊重读者的怀疑和理性,并且知道如何解决这些问题的作者(不必一页又一页地陷入形式主义和技术问题)。
我意识到这是一项艰巨的任务,尤其是在统计数据方面。因此,我不认为很多作者会在这方面取得成功。但目前我会满足于只找到一个.
让我补充一点,我不是数学厌恶者。相反,我喜欢数学。(我对分析[又名“高级微积分”]、线性代数、概率论,甚至是基本的测度论都很满意。)
也就是说,我目前的兴趣是“应用”、“实用”、“日常”、“现实世界”统计数据(而不是理论细节)。(但我也不想要一本食谱!)
FWIW,我已经阅读了 Gelman 和 Hill使用回归和多级/分层模型进行数据分析的前几章,我喜欢作者的语气。他们的重点是实用的,但在需要时进入理论。他们还经常退后一步,批判性地评估标准做法,并提供坦率的意见,以吸引持怀疑态度的读者的常识。不幸的是,这些作者还没有写一本专门讨论我在这篇文章中询问的主题的书(“Stats 101”的东西,如上所述)。我也知道其中一位作者(Gelman)与人合着了备受推崇的贝叶斯数据分析,但同样,这不是我目前正在寻找的。
编辑:
Dikran Marsupial 提出以下反对意见:
我认为忽略问题不一定有什么问题,有一点是,解决每个问题都会有损于基本概念的阐述,而基本概念的阐述往往更重要(尤其是在统计 101 书中!)。
我同意这一点。更准确地说,我正在寻找“第二次查看基本统计数据”。事实上,以此为动力,我查看了研究生课程中使用的推理(比如说)教科书,发现它们也忽略了我列出的问题。如果有的话,他们似乎更不愿意深入研究这些问题(这样他们就可以专注于诸如这样或那样的某种收敛或其他的条件之类的问题......)。
问题在于,更高级的书籍是针对完全不同的读者群体,其中“局外人的怀疑”已经大大耗尽。IOW,那些正在接受研究生水平统计的人已经过了被困扰我的问题所困扰的地步. 他们不再对这些东西持怀疑态度。(他们是如何克服怀疑的?也许有些人一开始就不太挑剔,尤其是如果他们很早就了解了他们的统计数据的话——例如,我知道我自己并不是一个特别挑剔的新生,尽管我没有然后统计一下。其他人可能有老师填补了他们教科书不足的地方。有些人可能足够聪明,可以自己找出这些问题的答案。谁知道呢。)