数据挖掘 - 输入-输出对中的概率分布 - 吾爱随笔录

输入-输出对中的概率分布

数据挖掘机器学习统计数据

2022-03-16 16:42:07

这个问题可能听起来很傻。但我一直想知道为什么我们假设在机器学习设置中输入输出对之间存在隐藏的概率分布？

例如，如果我们想学习一个函数 $f: \mathcal{X} \rightarrow \mathcal{Y}$ ，我们通常倾向于假设一个概率分布 $\rho(x,y)$ 在 $Z=\mathcal{X} \times \mathcal{Y}$ 并尽量减少错误

E (f) = \int (f (x) - y)^{2} d ρ (x, y)

$\mathcal{E}(f) = \int (f(x)-y)^2 \ d\rho(x,y)$

是概率分布 $\rho$ 固有的本质 $Z$ 或取决于 $f$ ?

谁能为此提供一个很好的直观解释？

2个回答

一些注意事项：

在监督学习的情况下，您假设有一个函数 $f:\mathcal{X} \rightarrow \mathcal{Y}$ ，这意味着输入和输出之间存在某种联系，并且您想使用它来进行预测。但是这个函数看起来如何呢？如果不考虑模型本身，通常会发生一些噪音。这种噪音可以在 $Y$ 也可以在 $X$ . 这种噪声提供了问题的概率设置，因为没有它我们只需要解决一些方程。
现在重要的是要了解噪声定义了分布。因此，可以将随机变量想象为一个函数，它具有固定且定义明确的东西和不固定的东西，但取值符合分布。如果变量部分不存在，那你就不会有随机变量，对，这将是一个简单的公式。但它不是。现在 $P(X)$ 包含发生的事情 $X$ 独自一人，并且 $P(Y)$ 里面有什么 $Y$ 独自的。当您预测决策理论说您有兴趣说出哪个是最可能的值时 $y_i$ 给定一些输入值 $x_i$ . 所以你有兴趣寻找 $P(Y|X)$ .
联合概率并不总是由边际概率完全描述。实际上，仅当边际概率独立时才完全描述。这意味着 rv $X, Y$ 会心 $P(X)$ 和 $P(Y)$ 不会让您了解关节密度 $P(X, Y)$ （考虑到你拥有的独立性 $P(X,Y)=P(X)P(Y)$ ）。
从这里你可以直接去尝试估计 $P(Y|X)$ . 事实上，如果您只对预测感兴趣，这可能是一个公平的赌注。许多监督学习算法试图直接估计这个概率。它们被称为判别分类器。原因是因为它们用于将某些东西分类到具有最大条件概率的类中，您区分（选择）最大值。
现在到达你的问题。注意明显 $P(X,Y) = P(Y|X)P(X)$ 通过尝试学习联合概率，您还可以学习条件（预测所需的内容）。这种方法称为生成，因为知道联合概率不仅可以预测，还可以为您的问题生成新数据。更重要的是，了解加入概率可以让您获得更多与您的模型如何工作相关的见解。您可以找到不仅包含在边际分布中的此类信息。

一些最后的笔记：

从技术上讲，您不会最小化误差函数，但它是预期的。误差函数保持原样。
$\mathcal{Z}$ 只是一个域，不可能仅通过它的域来描述概率。

已经晚了，我希望我不是完全语无伦次。

我可能仍然误解你的意思，但一般简单的公式是最小化所有训练示例的损失总和。转换为您的公式，“假设”输入和输出的联合分布只是数据中的经验分布。这是您在没有其他信息的情况下可以做出的最佳假设。如果你有理由假设别的东西，你会的。

其它你可能感兴趣的问题

上一篇回归中的高错误率是否意味着数据集是不可预测的？下一篇将 dataPoints 向上移动一个常数（是否存在太多 0 的问题？）