联合概率如何在生成模型中生成新数据

数据挖掘 机器学习 机器学习模型 生成模型
2022-02-15 07:43:55

在学习不同的机器学习概念时,我遇到了生成模型和判别模型。根据我的研究推断,生成模型基于 P(x,y)(联合概率分布),而判别模型基于条件概率 P(y|x)。但问题是为什么;事实上如何?联合概率如何产生新数据而条件概率仅适用于当前数据集?谁能用一个直观的例子或一些可以阐明这个概念的链接来解释我?

1个回答

判别模型和生成模型之间的区别是一个常见问题,在 Cross Validated 上有一些非常好的答案,特别是这里这里

但问题是为什么;事实上如何?联合概率如何产生新数据而条件概率仅适用于当前数据集?

生成模型中的“生成”一词并不意味着模型会在数据集之外生成实际的新数据。它指的是理论模型的性质,从某种意义上说,生成方法假设任何数据样本都是从某个分布生成的,并且它试图估计这个分布。一旦估计了分布,该模型就可以用于实际生成遵循该分布的实例,但是:

  • 通常这不是目标,目标通常是使用模型预测新实例的概率(推理)
  • 通常,这些数据不应重复用于估计(即训练),因为它是人工数据。此外,这将毫无意义,因为可以实现的最佳效果是重新估计相同的模型。
  • 自然,从估计中得到的模型只与对其设计所做的假设一样好,而且通常有很多这样的假设。