我曾经更多地是一个数值线性代数和计算科学的人,但最近,我涉足了统计和机器学习。
在本次讨论中,让我们关注理论上不是单数的矩阵,而是“数值单数”的矩阵,这是我通常用来描述高条件数系统的矩阵。
在数值方法中,当您有一个病态线性系统时,您可以对线性系统应用一个预处理器,它(希望)使问题适定,从而得到(1)收敛速度更快(2)收敛更准确的解决方案。
病态的统计模拟似乎是“多重共线性”(例如,在线性回归中,您还解决了以下形式的线性系统)。它们或多或少都意味着线性矩阵近似不是满秩或近似奇异的,这意味着您获得的解决方案可能不是唯一的,或者对于输入中的轻微扰动表现出高度的方差。在统计学中,首选方法似乎是要么正则化,他们称之为“岭”和“套索”回归。
我想知道为什么预处理不是统计界的首选方法,为什么正则化不是数值方法/科学计算界的首选方法?
我对后者的怀疑是正则化为您提供了一个独特的解决方案,但是您正在解决一个完全不同的系统,该系统可能无法代表您最初尝试解决的问题,因此在某些情况下,这似乎是不可接受的'正在使用描述基础物理/化学/等的基础数学模型对物理系统进行建模......