机器算法验证 - 对持怀疑态度（但不是厌恶数学）的读者的推论 - 吾爱随笔录

对持怀疑态度（但不是厌恶数学）的读者的推论

机器算法验证参考推理点估计

2022-01-26 02:01:53

我刚刚看了一个关于统计推断的讲座（“比较比例和均值”），这是在线统计课程介绍的一部分。对我来说，这些材料和往常一样毫无意义（现在我一定已经看过几十次了，在过去的三十年里分散开来）。

我正在寻找一本关于“基本 Stats-101”（点估计、估计评估、统计推断、假设检验、研究设计）的书，它认真对待说服持怀疑态度的读者的问题......

下面我给出了一些我正在寻找的作者会认真对待并知道如何令人信服地解决的问题类型的例子。

但首先让我花一点时间强调一下，在这篇文章中我不是在问这些问题。 请不要回答他们！ 我将它们作为示例，并通过“试金石”（针对搜索的作者类型）的方式给出。

如果“比例”只是布尔变量的平均值（即只取值 0 和 1 的变量），为什么要教授不同的程序来用“比例”和“平均值”进行统计推断？
如果正态分布如此稳健以至于假设正态性即使在数据不是完全正态分布的情况下也能给出良好的结果，并且如果 t 分布看起来如此正常，那么为什么要大惊小怪地使用 t 分布而不是普通的？
究竟什么是“自由度”，我们为什么要担心它们？
考虑到我们只是使用看起来与数据相似的分布，谈论参数的“真实”值意味着什么？
为什么“探索性数据分析”是好事，而“数据窥探”是坏事？

正如我所说，我对忽视这些问题所暗示的态度感到厌烦。这不是我想在教我一些东西的人身上看到的“认识论立场”。我正在寻找尊重读者的怀疑和理性，并且知道如何解决这些问题的作者（不必一页又一页地陷入形式主义和技术问题）。

我意识到这是一项艰巨的任务，尤其是在统计数据方面。因此，我不认为很多作者会在这方面取得成功。但目前我会满足于只找到一个.

让我补充一点，我不是数学厌恶者。相反，我喜欢数学。（我对分析[又名“高级微积分”]、线性代数、概率论，甚至是基本的测度论都很满意。）

也就是说，我目前的兴趣是“应用”、“实用”、“日常”、“现实世界”统计数据（而不是理论细节）。（但我也不想要一本食谱！）

FWIW，我已经阅读了 Gelman 和 Hill使用回归和多级/分层模型进行数据分析的前几章，我喜欢作者的语气。他们的重点是实用的，但在需要时进入理论。他们还经常退后一步，批判性地评估标准做法，并提供坦率的意见，以吸引持怀疑态度的读者的常识。不幸的是，这些作者还没有写一本专门讨论我在这篇文章中询问的主题的书（“Stats 101”的东西，如上所述）。我也知道其中一位作者（Gelman）与人合着了备受推崇的贝叶斯数据分析，但同样，这不是我目前正在寻找的。

编辑：

Dikran Marsupial 提出以下反对意见：

我认为忽略问题不一定有什么问题，有一点是，解决每个问题都会有损于基本概念的阐述，而基本概念的阐述往往更重要（尤其是在统计 101 书中！）。

我同意这一点。更准确地说，我正在寻找“第二次查看基本统计数据”。事实上，以此为动力，我查看了研究生课程中使用的推理（比如说）教科书，发现它们也忽略了我列出的问题。如果有的话，他们似乎更不愿意深入研究这些问题（这样他们就可以专注于诸如这样或那样的某种收敛或其他的条件之类的问题......）。

问题在于，更高级的书籍是针对完全不同的读者群体，其中“局外人的怀疑”已经大大耗尽。IOW，那些正在接受研究生水平统计的人已经过了被困扰我的问题所困扰的地步. 他们不再对这些东西持怀疑态度。（他们是如何克服怀疑的？也许有些人一开始就不太挑剔，尤其是如果他们很早就了解了他们的统计数据的话——例如，我知道我自己并不是一个特别挑剔的新生，尽管我没有然后统计一下。其他人可能有老师填补了他们教科书不足的地方。有些人可能足够聪明，可以自己找出这些问题的答案。谁知道呢。）

4个回答

尝试一条完全不同的方法来研究该主题：获取 Anders Hald 的“数理统计史（从 1750 年到 1930 年）”，并了解我们主题的历史。一旦你掌握了统计模型概念的缓慢出现，你的问题就会显得微不足道。必须清楚地理解统计模型的两部分：可观察数据和不可观察参数。的采样分布的一些值的情况下了解。看看你的一些问题：1）不同的模型；2) $X$ $\Theta$ $X\mid \Theta$ $\Theta$ $X$ $t$ 分布是特定统计量的抽样分布（数据的函数 $X$ ) 当数据应该是正常的；3) 自由度表征统计量的抽样分布，假设 $\Theta$ 受到约束（通过所谓的零假设），依此类推。此外，选择一些简单的推理问题（例如具有已知方差的正常数据）并以经典和贝叶斯方式解决它。对比差异。这可能很有启发性。

我相当怀疑是否会有适合您的一本书，因为个人倾向于对不同的事物持怀疑态度，并且书籍是为目标受众而不是为个人编写的。这是一个人教的好处之一，而不仅仅是一本书，那就是你可以随时提出问题。这在线性文本中是一件相当困难的事情。

我认为忽略问题不一定有什么问题，有一点是，解决每个问题都会有损于基本概念的阐述，而基本概念的阐述往往更重要（尤其是在统计 101 书中！）。

我怀疑最好的方法是买一本好书，然后在别处查找未回答的问题的答案。我面前有一个装满统计资料的书架，仅仅是因为没有一个是孤立的我需要的（甚至不是杰恩斯的书；o）。

对于绝对初学者，我认为格兰特福斯特的书“理解统计”是一个很好的起点，但我怀疑在这种情况下它太基础了。

你已经得到了一些好的建议。这里还有一些。首先，我偶尔阅读的两个博客，其中有时会讨论您问自己的问题。由于它们是博客，您甚至可以提出问题并获得一些非常好的答案！他们来了：

http://andrewgelman.com/ （安德鲁·格尔曼）

http://errorstatistics.com/ （黛博拉·梅奥）

还有几本书我认为会对你有所帮助：Box, Hunter & Hunter: Statistics for Experimenters。

正如标题所说，这是一门（“第一”，但真的，真的......第二）课程，适合想要设计自己的实验并对其进行分析的人。“为什么”部分非常高。

然后：考克斯博士：统计推断原理，另一本非常好的书，关于“为什么”而不是“如何”。

而且，既然你问为什么手段和比例被不同地对待，这里有一本书没有这样做： http ://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728/ref=sr_1_1?s =books&ie=UTF8&qid=1373395118&sr=1-1&keywords=freedman+statistics

数学低，原则高。

Abelson (1995)，Statistics as Principled Argument是介绍性的，对一些经常使学习者感到困惑的问题有一个有趣的看法。

但也许你只需要阅读一些关于理论统计的书（跳过所有关于收敛、度量空间等的东西）&然后即使他们没有像你的例子那样具体回答问题，你也可以回答大部分正如@Dikran 建议的那样，他们自己，并查找其余部分。

我建议在另一个线程中阅读 Cox & Hinkley, Theoretical Statistics or Cox, Principles of Statistical Inference with Casella & Berger, Statistical Inference，以了解不同的观点。

其它你可能感兴趣的问题

上一篇在 R 中如何计算 ROC 下面积的 p 值下一篇ROC曲线的优点