我最近通过电子邮件收到了以下问题。我将在下面发布答案,但我很想听听其他人的想法。
你会称逻辑回归为非参数检验吗?我的理解是,仅仅因为数据不是正态分布而将测试标记为非参数是不够的。它更多地与缺乏假设有关。逻辑回归确实有假设。
我最近通过电子邮件收到了以下问题。我将在下面发布答案,但我很想听听其他人的想法。
你会称逻辑回归为非参数检验吗?我的理解是,仅仅因为数据不是正态分布而将测试标记为非参数是不够的。它更多地与缺乏假设有关。逻辑回归确实有假设。
Larry Wasserman 将参数模型定义为“可以通过有限数量的参数进行参数化”的一组分布。(p.87) 相反,非参数模型是一组分布,不能通过有限数量的参数进行参数化。
因此,根据该定义,标准逻辑回归是一个参数模型。逻辑回归模型是参数化的,因为它具有有限的参数集。具体来说,参数是回归系数。这些通常对应于每个预测变量加上一个常数。逻辑回归是广义线性模型的一种特殊形式。具体来说,它涉及使用 logit 链接函数对二项分布数据进行建模。
有趣的是,可以执行非参数逻辑回归(例如,Hastie,1983)。这可能涉及使用样条曲线或某种形式的非参数平滑来模拟预测变量的效果。
我想说逻辑回归根本不是测试。然而,逻辑回归可能会导致没有测试或多次测试。
您非常正确,因为它不正常而标记非参数的东西是不够的。我将指数族明确称为参数化,因此我通常将逻辑回归(以及泊松回归和伽玛回归和......)视为参数化,尽管在某些情况下我可能会接受特定逻辑回归可以的论点被视为非参数(或至少在模糊的手波意义上,只是准“参数”)。
当心回归可能被称为非参数的两种含义的混淆。
如果我拟合 Theil线性回归,则它是非参数的,因为我没有定义误差分布(它对应于调整回归斜率,直到残差和残差之间的 Kendall 相关性)是 0) ... 但它是参数化的,因为我有一个完全指定的关系和由斜率和截距系数参数化。
另一方面,如果我拟合核多项式回归(例如局部线性回归),但具有正常误差,也称为 nonparametric,但在这种情况下,它是之间关系的参数化和那是非参数的(至少可能是无限维的),而不是误差分布。
两种感觉都使用了,但是当涉及到回归时,第二种感觉实际上使用得更多。
在这两种意义上也可能是非参数的,但更难(例如,如果有足够的数据,我可以拟合 Theil 局部加权线性回归)。
在 GLM 的情况下,非参数多元回归的第二种形式包括 GAM;第二种形式是 Hastie 通常运作的意义(以及他在该引用中运作的意义)。
一个有用的区别可能会为上述答案增加一点点:Andrew Ng 在斯坦福大学的 CS-229 机器学习课程的课程材料中对第 1 讲中的非参数模型意味着什么给出了启发式方法。
Ng 说(第 14-15 页):
局部加权线性回归是我们看到的第一个非参数算法示例。我们之前看到的(未加权)线性回归算法被称为参数学习算法,因为它具有固定的、有限数量的参数( 's), 适合数据。一旦我们适应了's 并将它们存储起来,我们不再需要保留训练数据来进行未来的预测。相反,要使用局部加权线性回归进行预测,我们需要保留整个训练集。术语“非参数”(粗略地)指的是我们需要保留的东西的数量以表示假设随着训练集的大小线性增长。
我认为这是一种有用的对比方式来思考它,因为它直接注入了复杂性的概念。非参数模型本身并不复杂,因为它们可能需要保留更多的训练数据。这只是意味着您不会通过将训练数据压缩为有限参数化计算来减少对训练数据的使用。为了效率或公正性或许多其他属性,您可能需要参数化。但是,如果您有能力放弃参数化并保留大量数据,则可能会提高性能。
我认为逻辑回归是一种参数化技术。
这可能会有所帮助,来自 Wolfowitz (1942) [Additive Partition Functions and A Class of Statistical Hypotheses The Annals of Mathematical Statistics, 1942, 13, 247-279]:
“进入它们的问题的各种随机变量的分布函数[注意:复数!!!]被假定为具有已知的函数形式,估计和检验假设的理论是关于估计和检验假设的理论,一个或多个参数,数量有限,其知识将完全确定所涉及的各种分布函数。为简洁起见,我们将这种情况称为参数情况,并将分布的函数形式未知的相反情况称为非参数情况。
此外,听了很多讨论后,我发现 Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178] 很有趣:
“非参数这个术语可能对理论统计学家有一些历史意义和意义,但它只会让应用统计学家感到困惑。”