机器算法验证 - 为什么我们使用术语“人口”而不是“数据生成过程”？ - 吾爱随笔录

为什么我们使用术语“人口”而不是“数据生成过程”？

机器算法验证参考样本人口教学数据生成过程

2022-01-20 18:10:20

我一直对统计学中“人口”一词的使用感到困惑。在我的第一个统计课程中，我被告知我们需要一个样本，因为调查整个人口的成本太高。所以有整个人口，我们研究的样本很小。

问题在于，除了一些玩具示例之外，这种直觉是错误的，因为人口实际上是美国（或世界）的全部人口。实际上，即使在这几个例子中，它也可能是错误的，因为世界人口只是 DGP 中假设的重复随机样本之一。因此，当我们在接下来的统计课程中开始估计多元模型时，我很难理解现在的总体是什么，以及它与样本有何不同。

因此，我对教授统计学的方式感到非常困惑。我觉得人们使用“人口”这个词部分是因为历史原因，部分是因为它更容易解释 Stat 101 中样本的概念。问题是它教导了错误的直觉，学生必须在以后忘记并创造对最基本的统计概念的理解存在漏洞。另一方面，DGP的概念在初级统计学课程中较难引入，但学生理解后，统计学的概念基础就比较扎实了。

我有两个问题：

我猜统计学家正在就这个问题进行讨论，所以有人可以给我参考吗？
更重要的是，您是否知道任何基于 DGP 和样本概念的入门级统计教科书的示例，它们放弃了“人口”并引入了统计数据？理想情况下，这样的教科书将花费大量篇幅来解释统计和统计推断的概念基础。

1个回答

在许多情况下，统计学家在讨论统计分析时确实指的是过程而不是总体（例如，在讨论时间序列过程、随机过程等时）。形式上，随机过程是一组具有公共域的随机变量，索引在一组值上。这包括时间序列、随机变量序列等。这个概念足以涵盖大多数情况，其中我们有一组对统计问题感兴趣的随机变量，因此统计已经有足够完善的语言指假设的随机“过程”，也指事物的实际“种群”。

虽然统计学家确实提到和建模“过程”，但这些是通过考虑随机变量的无限序列（或连续体）形成的抽象，因此它们涉及并非全部可观察的假设量。术语“数据生成过程”本身就是有问题的（并且不如现有的“随机过程”术语有用），我认为它的广泛部署没有理由增加对统计的更多理解。具体而言，通过提及“数据”的生成，该术语预先排除了实际观察到或可观察到哪些量的问题。（想象一下您想引用“DGP”但随后规定该过程的某些方面不能直接观察到的情况。

实证研究中的存在物与过程：我认为您认为有许多前提让我觉得有问题，并且在我看来误解了大多数使用统计学的实证研究的目标。当我们进行实证研究时，我们经常想了解现实中存在的事物之间的关系，而不是仅存在于我们的模型中的假设“过程”（即，作为现实的数学抽象）。实际上，在抽样问题中，我们通常只希望估计与有限总体有关的某些数量分布的某些方面。在这种情况下，当我们提到感兴趣的“人群”时，我们只是指定了一组我们在特定研究问题中感兴趣的事物。因此，如果我们目前对目前居住在美国的所有人感兴趣，我们将把这个群体称为“人口”（或“感兴趣的人口”）。但是，如果我们只对目前居住在缅因州的人感兴趣，那么我们会将这个较小的群体称为“人口”。在每种情况下，

（我注意到统计文本经常在感兴趣对象的数量和与这些对象有关的感兴趣的测量值之间产生轻微的模棱两可。例如，对人的身高的分析可能在不同时间指的是一组人称为“人口”，但随后将相应的一组身高测量值称为“人口”。这是一种速记，允许统计学家直接描述一组感兴趣的数字。）

你在这里的哲学方法与这个目标不一致。您似乎正在采用一种柏拉图式的世界观，其中现实世界的实体被认为不如某些假设的“数据生成过程”（假定）生成了世界那么真实。例如，关于将地球上的所有人称为“人口”的想法，您声称“......这可能是错误的，因为世界人口只是 DGP 中假设的重复随机样本之一”。这与柏拉图的形式理论有很大的相似之处，柏拉图认为对世界的观察仅仅是对永恒形式的不完美观察。在我看来，更好的方法是亚里士多德的观点，即现实中的事物存在，我们从它们中抽象出来形成我们的概念。（这是对亚里士多德的简化，但您了解基本概念。） $^\dagger$

如果你想涉足这个问题的文学，我想你会发现它更深入到哲学领域（特别是形而上学和认识论），而不是统计学领域。从本质上讲，您在这里的观点是关于现实中存在的事物是否是与人类知识相关的适当对象，或者（相反）它们是否仅仅是一些更广泛假设的“过程”的附带现象，这是一个更广泛的问题。人类推断。这是一个哲学问题，它一直是西方哲学史的重要组成部分，可以追溯到柏拉图和亚里士多德，因此有大量文献可以阐明这一点。

我希望这个答案能让你踏上进入认识论领域的有趣旅程。出于目前的目的，您可能希望采取一种实际的观点，同时考虑研究人员在研究中为自己设定的目标。问问自己：研究人员通常更愿意了解生活在地球上的人的属性，还是他们更愿意尝试找出你（假设的）可能生活在地球上而不是我们的人的“假设的重复随机样本”？

$^\dagger$ 为了避免那些缺乏历史知识的人可能产生任何混淆，请注意这些不是柏拉图和亚里士多德的真实引述——我只是以诗意的方式将他们的哲学立场与当前问题相提并论。

其它你可能感兴趣的问题

上一篇EM，有直观的解释吗？下一篇只有 1 个观察值的随机效应将如何影响广义线性混合模型？