输入-输出对中的概率分布

数据挖掘 机器学习 统计数据
2022-03-16 16:42:07

这个问题可能听起来很傻。但我一直想知道为什么我们假设在机器学习设置中输入输出对之间存在隐藏的概率分布?

例如,如果我们想学习一个函数f:XY,我们通常倾向于假设一个概率分布ρ(x,y)Z=X×Y并尽量减少错误

E(f)=(f(x)y)2 dρ(x,y)

是概率分布ρ固有的本质Z或取决于f?

谁能为此提供一个很好的直观解释?

2个回答

一些注意事项:

  1. 在监督学习的情况下,您假设有一个函数f:XY,这意味着输入和输出之间存在某种联系,并且您想使用它来进行预测。但是这个函数看起来如何呢?如果不考虑模型本身,通常会发生一些噪音。这种噪音可以在Y也可以在X. 这种噪声提供了问题的概率设置,因为没有它我们只需要解决一些方程。

  2. 现在重要的是要了解噪声定义了分布。因此,可以将随机变量想象为一个函数,它具有固定且定义明确的东西和不固定的东西,但取值符合分布。如果变量部分不存在,那你就不会有随机变量,对,这将是一个简单的公式。但它不是。现在P(X)包含发生的事情X独自一人,并且P(Y)里面有什么Y独自的。当您预测决策理论说您有兴趣说出哪个是最可能的值时yi给定一些输入值xi. 所以你有兴趣寻找P(Y|X).

  3. 联合概率并不总是由边际概率完全描述。实际上,仅当边际概率独立时才完全描述。这意味着 rvX,Y会心P(X)P(Y)不会让您了解关节密度P(X,Y)(考虑到你拥有的独立性 P(X,Y)=P(X)P(Y))。

  4. 从这里你可以直接去尝试估计P(Y|X). 事实上,如果您只对预测感兴趣,这可能是一个公平的赌注。许多监督学习算法试图直接估计这个概率。它们被称为判别分类器。原因是因为它们用于将某些东西分类到具有最大条件概率的类中,您区分(选择)最大值。

  5. 现在到达你的问题。注意明显P(X,Y)=P(Y|X)P(X)通过尝试学习联合概率,您还可以学习条件(预测所需的内容)。这种方法称为生成,因为知道联合概率不仅可以预测,还可以为您的问题生成新数据。更重要的是,了解加入概率可以让您获得更多与您的模型如何工作相关的见解。您可以找到不仅包含在边际分布中的此类信息。

一些最后的笔记:

  • 从技术上讲,您不会最小化误差函数,但它是预期的。误差函数保持原样。
  • Z只是一个域,不可能仅通过它的域来描述概率。

已经晚了,我希望我不是完全语无伦次。

我可能仍然误解你的意思,但一般简单的公式是最小化所有训练示例的损失总和。转换为您的公式,“假设”输入和输出的联合分布只是数据中的经验分布。这是您在没有其他信息的情况下可以做出的最佳假设。如果你有理由假设别的东西,你会的。