在无监督学习中,“找到图像的概率”是什么意思?

人工智能 无监督学习
2021-10-22 19:59:01

我遇到的具体问题是完全可见的信念网络。这是一个明确的密度模型(尽管我不知道是什么量化了这样的东西),它使用链式法则将图像 x 的可能性分解为一维分布的乘积。

在此处输入图像描述

“图像 x 的可能性”是什么意思?相对于什么?我假设它指的是这张图片在从中选择的数据集中有多常见?就像如果你有 1000 张图像,其中 800 张是白色的,其中 200 张是黑色的,那么对于输入的任何黑色图像,模型理想情况下应该输出 0.2?不经意间,像狗和猫这样更复杂的聚类会有点不同,但这是我的直觉。那是对的吗?

同样作为一个附带问题,该等式看起来非常错误。如果你有一张图片1048×720像素,并假设每个像素评估的概率为 0.9,您会期望图像的最终概率为 0.9 或 90%。但根据这个等式,它是0.97201048,它非常小,基本上是 0。这是怎么回事?

1个回答

当您说可能性时,您是在调用其他几个概念,例如事件、样本、参数、模型、概率密度函数 (PDF) 等(如果您了解更多关于这些概念的信息会很有帮助)。本质上,似然函数l(x|θ)是一个 PDF,用于量化该事件发生的可能性x给定参数,发生在一组可能的事件中θ定义你的模型。

在图像的特定情况下,可能的事件集通常是两个选项之一:1)数据集中的所有可用图像,或 2)所有现有图像。通常您希望在选项 2) 中对可能性进行建模,但只能访问所有可能图像的样本。在任何一种情况下,可能性只是您从所有可能的图像中选择一个图像的概率。如果你只考虑图像1048×720像素,可能的图像数量是(256×3)1048×720,我假设每个像素由 3 种颜色组成,每种颜色可以取 256 个值。由于可能的图像数量如此之多,因此选择特定图像的概率非常非常小是很常见的。这就是为什么您通常使用对数似然(似然的对数)而不是直接使用似然的原因。例如,如果您的所有图像的可能性相同,则可能性将是10107, 而对数似然会在107.

为了用图像和像素的概率来解决你的悖论,请考虑你有硬币而不是像素,而不是图像你有硬币序列。假设你有一个公平的硬币,所以反面的概率 (T) 抛硬币后是 0.5。如果你抛第二个硬币,得到的概率T同样自然也是 0.5,但是两者结果的概率是多少T? 它是乘积 (0.25),因为事件是独立的。同样,其他三个序列的概率TH,HTHH仅为 0.25。您可以看到,由于需要在 4 个等概率序列之间共享概率,因此它们相对于长度为 1 的序列的概率更小。如果您掷硬币 3 次,那么所有这些硬币的概率都是反面只是0.53. 同样,现在有 8 个可能的序列,它们都具有相同的概率。你可以看到发生了什么。由于可能选项的数量变大,每个可能的硬币序列的概率变小。显然,你永远不会抛硬币 10 次,然后期望得到所有T, 对?好吧,在图片的情况下也发生了完全相同的情况。