通过制定全局可优化的成本函数来解决问题的优势

机器算法验证 优化 功能
2022-03-11 04:38:35

这是一个相当普遍的问题(即不一定特定于统计数据),但我注意到机器学习和统计文献中的一个趋势,作者更喜欢遵循以下方法:

方法1:通过制定一个成本函数来获得一个实际问题的解决方案,该成本函数可能(例如从计算的角度)找到一个全局最优解决方案(例如,通过制定一个凸成本函数)。

而不是:

方法2:通过制定一个我们可能无法获得全局最优解的成本函数来获得相同问题的解(例如,我们只能获得局部最优解)。

请注意,严格来说,这两个问题是不同的;假设我们可以为第一个找到全局最优解,但不能为第二个找到全局最优解。

除了其他考虑因素(即速度、易于实施等),我正在寻找:

  1. 对这一趋势的解释(例如数学或历史论证)
  2. 在解决实际问题时遵循方法 1 而不是方法 2 的好处(实际和/或理论)。
2个回答

我认为目标应该是优化您感兴趣的函数。如果这恰好是错误分类的数量 - 而不是二项式可能性,例如 - 那么您应该尝试最小化错误分类的数量。然而,由于提到的许多实际原因(速度、实施、不稳定性等),这可能不是那么容易,甚至可能是不可能的。在这种情况下,我们选择近似解。

我基本上知道两种近似策略;要么我们提出试图直接逼近原始问题的解决方案的算法,要么我们将原始问题重新表述为更直接可解决的问题(例如凸松弛)。

偏爱一种方法而不是另一种方法的数学论据是,我们是否能够理解 a) 实际计算的解决方案的属性,以及 b) 解决方案与我们实际感兴趣的问题的解决方案的近似程度。

我知道统计中的许多结果,我们可以证明优化问题的解决方案的属性。对我来说,分析算法的解决方案似乎更加困难,因为您没有计算出的数学公式(例如,它解决了给定的优化问题)。我当然不会声称你不能,但如果你能对你的计算给出一个清晰的数学公式,这似乎是一个理论上的好处。

我不清楚这样的数学论点是否比方法 2 给方法 1 带来任何实际好处。肯定有人不怕非凸损失函数

@NRH 提供了这个问题的答案(超过 5 年前),所以我只提供一个方法 3,它结合了方法 1 和 2。

方法3

  1. 制定并解决全局最优性的凸问题,或者在任何情况下,全局可优化(不一定是凸)问题“接近”您真正想要解决的问题。
  2. 使用步骤 1 中的全局最优解作为您真正想要解决(或比步骤 1 中解决的问题更想要解决)的非凸优化问题的起始(初始)解决方案。希望您的起始解决方案相对于解决您真正想要解决的非凸优化问题所采用的解决方案方法处于全局最优的“吸引力区域”。