由于雅可比因子导致的不同概率密度变换

机器算法验证 机器学习 可能性
2022-02-03 08:09:24

在 Bishop 的模式识别和机器学习中,我在概率密度之后阅读了以下内容p(x(a,b))=abp(x)dx介绍了:

在变量的非线性变化下,由于雅可比因子,概率密度的变换不同于简单函数。例如,如果我们考虑变量的变化x=g(y),然后是一个函数f(x)变成 f~(y)=f(g(y)). 现在考虑概率密度px(x)对应于密度py(y) 关于新变量y, 其中 suffic 表示这样一个事实px(x)py(y)是不同的密度。范围内的观测值(x,x+δx)将,对于小的值 δx, 转化为范围(y,y+δy) 其中 ,因此.px(x)δxpy(y)δypy(y)=px(x)|dxdy|=px(g(y))|g(y)|

什么是雅可比因子,一切究竟意味着什么(也许是定性的)?Bishop 说,这个属性的一个结果是概率密度最大值的概念取决于变量的选择。这是什么意思?

对我来说,这有点出乎意料(考虑到它在介绍章节中)。我会很感激一些提示,谢谢!

1个回答

我建议您阅读问题 1.4 的解决方案,它提供了很好的直觉。

简而言之,如果你有一个任意函数相互关联的变量,那么你可以通过直接分析 :或转换后的函数 :。毫不奇怪,将与每个相关为(这里我假设 .f(x)xyx=g(y)f(x)x^=argmaxx(f(x))f(g(y))y^=argmaxy(f(g(y))x^y^x^=g(y^)y:g(y)0)

这不是概率分布的情况。如果您有一个概率分布相互关联的随机变量之间没有直接关系发生这种情况是因为雅可比因子,该因子显示了体积是如何被诸如之类的函数相对改变的。px(x)x=g(y)x^=argmaxx(px(x))y^=argmaxy(py(y))g(.)