“总体”、“样本空间”、“基础概率分布”和“模型”之间有什么区别?

机器算法验证 分布 推理 随机变量 人口
2022-04-13 22:41:36

我试图了解统计推断主题的概述。我已经学习了其中涉及的许多概率和统计的零碎知识,但是在严格学习之前,我突然想到我应该对整体情况有一个很好的基础。

在 Wikipedia 上,主题“统计推断”具有以下定义:

统计推断是使用数据分析来推断潜在概率分布属性的过程。推论统计分析推断人口的属性,例如通过检验假设和推导估计。假设观察到的数据集是从更大的总体中采样的……给定一个关于总体的假设,我们希望对其进行推论,统计推断包括(首先)选择生成过程的统计模型数据和(第二)从模型中推导出命题。

我想更清楚地理解这些想法:“人口”和“潜在概率分布”之间的关系是什么 - 似乎它们可以互换使用。这些主题与我们在建模时经常跳入的随机变量及其分布有什么关系?

例如:如果我们有一个人口,并且我们正在考虑人口中人的身高。你会说:

  • 人口是包含所有可能的的样本空间(例如ω1,ω2,....)?
  • 人口中某个人的身高为X(ωi)? (为什么这是随机的?-或者是说“如果我随机选择一个人ω, 然后X(ω)将是“随机”高度?
  • 潜在的概率分布- 这会是X? (如果是这样,这是否意味着推断该分布的属性是推断关于人口的特定特征(即身高)的属性(以及因此关于总体人口的属性?) 附加问:如果这是真的,那么为什么我们对样本数据的分布感兴趣吗?难道我们不是对推断人口的属性感兴趣,而不是数据吗?
  • 统计模型的选择:这是我们对分布函数形式的假设吗?X? (无论是 PDF 还是 PMF)在我们试图建模的上下文中,“生成数据的过程”是什么?

谢谢!请随时为您的答案添加更多背景..

0个回答
没有发现任何回复~