我在斯坦福关于 softmax 回归的笔记中遇到了这个术语:
我们将首先将多项式表示为指数族分布。要对 k 个可能结果的多项式进行参数化,可以使用 k 个参数...
我在网上搜索了一个解释,我可以看到这是一个反复出现的主题,但没有对傻瓜的解释。参数化分布意味着什么?最终目标是什么?
我在斯坦福关于 softmax 回归的笔记中遇到了这个术语:
我们将首先将多项式表示为指数族分布。要对 k 个可能结果的多项式进行参数化,可以使用 k 个参数...
我在网上搜索了一个解释,我可以看到这是一个反复出现的主题,但没有对傻瓜的解释。参数化分布意味着什么?最终目标是什么?
重新参数化意味着用函数替换参数,其中参数是分布的系数。对此的参考没有多大帮助。参数化是分布的显式形式。例如,伽马分布有两种常用的不同参数化:
1) 形状率参数化中的概率密度函数为
2) 使用形状尺度参数化的概率密度函数为
从这里我们可以看到和,从中我们可以声明形状尺度参数化()可以重新参数化为形状-rate 参数化 ( ) 通过用参数的倒数。但是,不是重新参数化,它只是同一事物的不同标签;形状参数。
为什么要重新参数化?一个很好的理由来参数化一种特定的方式,以使用产生更正态和更少偏斜分布的形式,使用该形式出现的参数值。因此,读者会发现指数和伽马分布经常以速率形式参数化(例如,上面的数字 1),而不是比例形式(例如,上面的数字 2)。此外,假设对于上面的参数化编号 1,我们的值接近于零。然后使用该参数化的该分布的回归拟合通常比使用倒数参数,迭代之间的哪种选择可能会产生巨大的跳跃,例如,从 10000 到 100000。为什么增加了鲁棒性?假设在拟合期间,我们对负值进行了轻微的瞬态侵入,例如,对于其中一次迭代,。对于第一次参数化,通常会在下一次迭代中纠正一个稍微负的值。对于上面的第二个参数化,这将产生,此后我们可能会因为\时,分别。
警告。参数方程有不同的上下文,这可能会引起混淆。这与这里参数化的意义无关。
它意味着使用一个参数或一组参数来描述概率分布。
最简单的例子是具有一个参数的伯努利分布:假设我们想要对抛硬币的离散结果有一个概率分布。我们用来表示得到一个 HEAD(H) 的概率,换句话说,得到 TAIL(T) 的概率是。因此概率质量函数是
它由参数化。
“k 个可能结果的多项式”非常相似,但参数更多。
顺便说一句,我个人认为“多项式”一词令人困惑。人们使用“Multinoulli Distribution”或“Categorical Distribution”来描述具有多个结果的分布。
见本书第 62 页。