通过数据集上的概率分布生成训练数据意味着什么

机器算法验证 分布 神经网络 数据集
2022-04-08 06:28:24

我正在阅读深度学习这本书,遇到了以下段落(第 109 页,第二段):

训练和测试数据是由称为数据生成过程的数据集上的概率分布生成的。我们通常会做出一组统称为独立同分布假设的假设。这些假设是每个数据集中的示例彼此独立,并且训练集和测试集是相同分布的,它们来自彼此相同的概率分布。这个假设使我们能够用单个示例上的概率分布来描述数据生成过程。然后使用相同的分布来生成每个训练示例和每个测试示例。我们将共享的底层分布称为数据生成分布,表示为pdata. 这种概率框架和独立同分布假设使我们能够在数学上研究训练误差和测试误差之间的关系。

有人可以向我解释这一段的意思吗?

在第122页的最后一段,它还给出了一个例子

一组样本{x(1),,x(m)}根据均值的伯努利分布独立同分布θ.

这是什么意思?

这里有几个更具体的问题。

  1. 数据集的概率分布:数据集是什么?概率分布是如何产生的?

  2. 这些示例彼此独立。你能给我一个例子说明这些例子是依赖的吗?

  3. 从彼此相同的概率分布中得出。假设概率分布是高斯分布。术语“相同概率分布”是否意味着所有示例都来自具有相同均值和方差的高斯分布?

  4. “这个假设使我们能够”。这是什么意思?

  5. 最后,对于第 122 页的最后一段,给出了样本遵循伯努利分布。这在直觉上意味着什么?

1个回答
  1. 数据集的概率分布:数据集是什么?概率分布是如何产生的?

一旦我们可以估计输入数据的潜在分布,我们基本上就知道它们是如何被挑选出来的,并且可以做出很好的预测。(生成模型)。通常,我们可以根据我们所相信的(归纳偏差)假设一个潜在的分布。例如,如果我们认为值接近于零的概率很高,我们可以采用均值的高斯分布0并在我们训练时调整参数,如方差。例如,数据集是所有抛硬币的集合,假设分布是二项式的。当我们确实说最大化实际数据点的对数似然时,我们将获得使数据集适合假设分布的那些参数。

  1. 这些示例彼此独立。你能给我一个例子说明这些例子是依赖的吗?

例如,我们抛硬币,如果我们有正面,我们就抛另一个,否则就没有。这里在后续的折腾之间存在依赖关系

  1. 从彼此相同的概率分布中得出。假设概率分布是高斯分布。术语“相同概率分布”是否意味着所有示例都来自具有相同均值和方差的高斯分布?

  2. “这个假设使我们能够”。这是什么意思?

是的。这就是为什么说(4)。一旦您从一个示例中获得了概率分布,您就不需要其他示例来描述数据生成过程。

  1. 最后,对于第 122 页的最后一段,给出了样本遵循伯努利分布。这在直觉上意味着什么?

这意味着每个例子都可以被认为是抛硬币。如果实验是多次抛硬币,则每次抛硬币都是独立的,正面朝上的概率是12. 同样,如果您选择任何其他实验,每个示例的结果都可以被认为是抛硬币或 n 维骰子。

生成示例意味着获得最接近我们在训练数据集中看到的分布。这是通过假设分布并最大化给定数据集的可能性并输出最佳参数来获得的。