通过数据集上的概率分布生成训练数据意味着什么

数据挖掘 深度学习 数据集
2021-10-15 05:09:55

我正在阅读深度学习这本书,遇到了以下段落(第 109 页,第二段):

训练和测试数据是由称为数据生成过程的数据集上的概率分布生成的。我们通常会做出一组统称为独立同分布假设的假设。这些假设是每个数据集中的示例彼此独立,并且训练集和测试集是相同分布的,它们来自彼此相同的概率分布。这个假设使我们能够用单个示例上的概率分布来描述数据生成过程。然后使用相同的分布来生成每个训练示例和每个测试示例。我们将共享的底层分布称为数据生成分布,表示为pdata. 这种概率框架和独立同分布假设使我们能够在数学上研究训练误差和测试误差之间的关系。

有人可以向我解释这一段的意思吗?

在第122页的最后一段,它还给出了一个例子

一组样本 {x(1),,x(m)} 根据均值的伯努利分布独立同分布 θ.

这是什么意思?

2个回答

有一个共同的假设,即正在建模的数据是来自概率分布的独立且同分布 (iid) 样本。训练数据集和测试数据集具有相同的潜在概率分布。并且每个样本都独立于其他样本。

违反这些假设的示例:

  • 数据是由完全随机的过程产生的,例如随机游走。
  • 训练和测试数据集来自不同的概率分布,要么是完全不同的概率分布,要么是具有不同参数的相同概率分布。
  • 样本不是独立的。依赖样本的一个例子是从一副牌中发牌,后来发牌的概率取决于以前发过的牌。

模型拟合过程只能访问数据样本,而不是潜在的概率分布。参数建模拟合对该概率分布的函数形式(例如,伯努利或高斯)进行猜测,然后估计相关参数。

您提到的段落解释了从给定数据集中创建训练数据和测试数据的参数化过程。

让我们举个例子让我们考虑某个数据集的分布遵循正态分布(高斯)

在此处输入图像描述

这意味着 68% 的数据位于数据集的平均值附近。此外,由于数据集已被识别为高斯,假设我们知道给定数据集的均值和方差,我们也知道数据集的预期概率函数 (pdf)。

P(x)=12πσ2e(xμ)22σ2

现在我们有了公式,我们可以在这个公式上使用随机变量生成技术来分别创建训练和测试数据,这些数据可以用于模型学习和测试其效率。

要了解有关随机变量生成的更多信息,请点击此处访问此资源。它有一个很棒的章节,可以帮助您理解其背后的统计技术。