加权最大似然参数估计算法

机器算法验证 最大似然 优化 配件 参数化 权重
2022-03-07 10:29:56

加权最大似然参数估计的计算或算法考虑是什么?

也就是说,我想得到

θ=argmaxθiwilog(L(θ|xi))
假设我们有一个重量wi对于每个数据点,使得iwi=1. 这通常是如何完成的,是否有替代方法来寻找θ?

除了完整的答案外,还感谢参考。

1个回答

有许多方法可以处理重要性权重。请注意,“权重”作为一个通用术语可能是模棱两可的。例如,R 的 glm 方法采用不同解释的权重参数。 本文对处理重要性权重的几种方法进行了很好的讨论。

  • 到目前为止,使用随机优化方法时最常用的方法是将每个随机步骤乘以采样数据点的重要性权重。如果您混合了非常大和小的权重,这可能效果不佳。如果您的各种权重之间的因子小于 20,则它应该可以正常工作,尽管收敛速度可能很慢。
  • 使用 SGD 优化的另一种方法是拒绝抽样,其概率与wi/wmax. 不过,这在实践中几乎从未使用过。
  • 在应用标准优化算法之前对数据集进行预采样更为常见。将新数据集替换为的样本wi/wmax比例抽样。通常你会采取2n10n样本,其中 n 是原始数据集的大小。
  • 链接的论文提出了另一种方法,我相信它是在Vowpal Wabbit包中实现的。

流行的 liblinear 包也支持重要性权重。如果您使用 LBFGS,您可以手动指定损失和导数,包括您在帖子中的重要性权重。