我最近遇到了不同的文章,它们建议在尝试最小化概率分布时使用 KL 而不是 L1/L2 范数。但是没有一篇文章给出一个明确的理由,为什么一个比另一个更好。谁能给我一个强有力的论据为什么KL适合这个?
Kullback-Leibler 相对于 L1/L2 的优势?
人工智能
优化
目标函数
2021-11-13 22:34:11
1个回答
考虑到您的问题是询问为什么 KL-Divergence 比 MSE、RMSE 或 L1/L2 Norm 在基本事实和预测之间更受欢迎,作为预测分布的损失函数 -
KL 散度是概率分布的度量。它本质上捕获了地面实况分布和预测之间的信息丢失。
L2-norm/MSE/RMSE 不能很好地处理概率,因为计算损失时涉及到幂运算。概率,是小于 1 的分数,受到任何幂运算(平方或根)的显着影响,并且考虑到我们正在计算概率差异的平方,求和的值异常小,基本上几乎没有学习任何东西作为随机初始化本身从异常小的损失开始,几乎总是保持不变。
另一方面,L1 规范没有任何幂运算,因此相对可以接受。
诸如 Kullback-Leibler-divergence 或 Jensen-Shannon-Divergence 之类的损失函数因其具有统计意义而被优先用于概率分布。如前所述,KL-Divergence 是分布之间信息丢失的统计量度,或者换句话说,假设是地面实况分布,KL-Divergence 是衡量多少偏离. 还考虑到概率分布,在信息损失的度量中收敛性要强得多,例如 KL-Divergence。
可以在这里阅读更多关于 Kullback-Leibler 背后动机的清晰信息。希望您的询问已得到解答!
其它你可能感兴趣的问题