为什么使用基于参数的估计方法 - 术语混淆

信息处理 估计 自习 优化 术语
2022-02-01 22:28:44

使用概率密度函数 (pdf),我们可以使用最大似然估计等方法来估计未知参数。如果 pdf 不可用,则可以使用最小二乘法。pdf不可用情况的其他方法是最小均方。

然后还有其他称为启发式方法的方法,例如粒子群优化、遗传算法、蚁群优化。这些也适用于在不使用 pdf 的情况下查找未知参数。这是一篇很长的帖子,非常感谢您,我非常感谢您抽出时间阅读和理解我的担忧的耐心。我的问题是:

1)参数估计和优化有什么区别?

2)何时使用估计理论和优化是否有经验法则?

根据我的理解,许多研究文章和教科书交替使用这两个术语。例如,题为“参数估计与仿生元启发式优化:模拟内吞作用的动力学”的论文摘要如下:

我们解决了基于测量数据的常微分方程 (ODE) 的生物系统动力学模型中的参数估计任务,其中模型通常是非线性的并且具有许多参数,测量由于噪声而不完美,并且研究的系统通常只能部分观察到。一个有代表性的任务是从这些浓度的实验测量中估计内吞作用动力学模型中的参数,即内体成熟,反映在 Rab5 和 Rab7 域蛋白浓度之间的切断开关转换中。这里考虑的一般参数估计任务和具体实例都是具有挑战性的优化问题,需要使用先进的元启发式优化方法,例如进化或基于群体的方法。

然而,在信号处理中,优化很少与参数估计结合或教授。例如,在 Steven Kay 题为“统计信号处理基础,第一卷:估计理论”的书中,从未提到优化是另一种进行估计的方法。然而,梯度下降是一种优化算法,它使用函数的导数并等于零。如果这是进行优化的常用方法,则最大似然估计还使用对数似然函数找到关于未知参数的导数,这些导数等于零以获得估计。这带来了我的最后两个问题,它们是:

3) MLE 是一种优化或估计技术吗?

4)启发式方法,如粒子群等,没有找到导数来获得目标函数的最小值或最大值。那么,如果它们没有以通常的方式优化成本函数,即获取导数并将它们等同于零,那么为什么将它们称为优化方法呢?

2个回答

嗨:我会尽量简短地回答,并且只针对统计数据。不是dsp。

在统计学中,如果你有一个很好的 pdf,比如正态分布,那么最大化似然性就相当于最小化残差的平方和(通常称为错误)。

在其他情况下,如果您有一个复杂的分布(可能模型是非线性的并导致更复杂的似然性),那么最大化似然性并不等同于最小化残差平方和。因此,您仍然可以选择最大化似然性,但由于似然性很复杂,因此通常需要求助于梯度下降、BFGS 等数值优化算法。

所以,我认为你的困惑是由于它(也许不幸的是)恰好是最大化正常的可能性等同于最小化残差平方和的情况。

然后还有其他情况,最大化可能性太难了,或者可能性甚至无法以封闭形式推导。在这种情况下,人们定义了其他目标函数(启发式),这些函数仍然可以衡量模型对数据的拟合程度。这样做,可以使用您所指的遗传、粒子群类型的优化方案。这些方案通常被称为非参数方案,因为这些目标函数与参数似然性(例如法线、t、伽马等)无关。事实上,这种可能性通常甚至是未知的。

基本上,使用哪种优化取决于您是否有 pdf 以及它的复杂程度。

一个非常粗略的分类如下:

1)正常情况::直截了当:最大化它或最小化残差平方。

2)非正常情况:似然是复杂的,可能是非线性的但已知:bfgs或梯度下降或其他一些可以处理似然的封闭形式版本的数值方法。

3)可能性太复杂或未知或不存在:定义自己的目标函数来衡量模型的质量并使用粒子群等算法。

请注意,在上面的 2) 中,您必须担心您达到的最佳值是否是局部的、全局的等,这可能非常棘手。这也可能是 3) 中的情况。我不像数值方法那样熟悉遗传算法。

我希望这会有所帮助。对于您所问的问题,我不确定是否有很好的参考。Kenneth Lange 有一本书“统计学中的数值方法”可能是相关的,但我没有。祝你好运。

最大似然法是由著名的统计学家 Ronald Fisher 开发的,是的,本质上涉及优化,毕竟您希望最小化您的错误,并且由于您的数据是随机的,因此可以最大限度地减少预期错误。在高斯(正常)情况下,您可以选择多个错误标准并最终得到相同的估计量。在像 Kay 一样的书中,您通常可以分析性地进行优化。在范树中,检测、估计和调制理论,第一卷,第一版,最大似然和 MAP 是从错误标准的不同选择中得出的。优化几乎总是解析的,所以基本的估计原理不需要线搜索和 Hessian 来理解。实际上,数值优化的随机性需要相当复杂的数学来证明收敛性远高于确定性优化,而像 Kay 和 Van Trees 这样的估计文本已经有几千页了。一些 DSP 估计书籍将涵盖一些特定于复杂变量(如复杂梯度)的优化主题。

EM算法(实际上是算法家族)是一种与BFGS(或DFP)不同的间接优化技术。

应该提到的是,最大似然还包括混合的组合参数和连续参数。一个相对较新的想法称为随机集理论在这里得到了普及。

统计和信号处理之间存在一些差异,但统计内部也存在差异。在最大似然中,假设感兴趣的参数是一个未知的确定量。在信号处理中,混合了确定性和随机参数假设。DSPer 通常认为确定性参数是具有 delta 函数概率密度和“扩散先验”的随机参数的特殊情况。

全局与局部优化的一般问题是一个真实的问题,特别是在混合组合和连续参数估计问题中。大多数 DSP 应用程序往往是实时的,具有延迟要求,因此在许多情况下,本地优化就足够了,或者很大程度上取决于启发式方法。