“没有免费午餐定理”是否适用于一般统计测试?

机器算法验证 假设检验 数理统计 方差分析 假设
2022-03-09 20:36:36

我为之工作的一位女士要求我对某些数据进行单向方差分析。我回答说这些数据是重复测量(时间序列)数据,我认为独立性假设被违反了。她回答说我不应该担心假设,只要做测试,她会考虑到假设可能没有得到满足。

这对我来说似乎不对。我做了一些研究,发现了 David Robinson 的这篇精彩的博客文章,K-means clustering is not a free lunch,这让我接触到了 No Free Lunch Theorem。我查看了原始论文和一些后续内容,坦率地说,数学有点超出我的想象。

它的要点——根据大卫罗宾逊的说法——似乎是统计检验的力量来自它的假设。他举了两个很好的例子。当我浏览有关它的其他文章和博客文章时,它似乎总是在监督学习或搜索方面被引用。

所以我的问题是,这个定理是否适用于一般的统计检验?换句话说,可以说 t 检验或 ANOVA 的力量来自其对假设的坚持,并引用无免费午餐定理吗?

我欠我的前任老板一份关于我所做工作的最终文件,我想知道我是否可以参考“无免费午餐定理”来说明你不能忽略统计测试的假设并说你会把它纳入在评估结果时考虑。

2个回答

我不知道有什么证据,但我敢打赌这很普遍。一个例子是在 2 个治疗组中的每个治疗组中有 2 名受试者的实验。Wilcoxon 检验不可能在 0.05 水平上显着,但 t 检验可以。你可以说它的力量一半以上来自它的假设,而不仅仅是来自数据。对于您最初的问题,将每个主题的观察视为独立是不合适的。事后考虑当然不是好的统计实践,除非在非常特殊的情况下(例如,集群三明治估计器)。

如果你愿意,你可以引用无免费午餐定理,但你也可以只引用Modus Ponens(也称为分离法则,演绎推理的基础),它是无免费午餐定理的根源。

没有免费午餐定理包含一个更具体的想法:没有一种算法可以满足所有目的。换句话说,没有免费午餐定理基本上是说没有算法灵丹妙药这源于 Modus Ponens,因为要让算法或统计测试给出正确的结果,您需要满足前提。

就像所有数学定理一样,如果你违反了前提,那么统计检验就毫无意义,你无法从中得出任何真理。所以如果你想用你的测试来解释你的数据,你必须假设要求的前提得到满足,如果它们不满足(你知道的),那么你的测试就大错特错了。

那是因为科学推理是基于演绎的:基本上,您的测试/法律/定理是一个暗示规则,它说如果您有前提,A那么您可以得出结论BA=>B,但如果您没有A,那么您可以拥有B或不是B两种情况都是正确的,这是逻辑推理/演绎的基本原则之一(Modus Ponens 规则)。换句话说,如果你违反了前提,结果并不重要,你也不能推导出任何东西

记住二元表的含义:

A   B   A=>B
F   F    T
F   T    T
T   F    F
T   T    T

所以在你的情况下,为了简化,你有Dependent_Variables => ANOVA_correct. 现在,如果您使用自变量,因此Dependent_VariablesFalse,那么暗示将是正确的,因为Dependent_Variables违反了假设。

当然,这很简单,在实践中,您的 ANOVA 测试可能仍会返回有用的结果,因为因变量之间几乎总是存在某种程度的独立性,但这让您了解为什么在不满足假设的情况下不能依赖测试.

但是,您也可以通过减少您的问题来使用原始不满足前提的测试:通过显式放宽独立性约束,您的结果可能仍然有意义,尽管不能保证(因为您的结果适用于减少的问题,而不是完整的问题,所以你不能翻译每一个结果,除非你能证明新问题的额外约束不会影响你的测试,从而影响你的结果)。

在实践中,这通常用于对实际数据进行建模,例如通过使用朴素贝叶斯,通过使用假设自变量的模型对因变量(而不是自变量)进行建模,令人惊讶的是,它通常工作得很好,有时甚至比模型会计更好对于依赖项当数据不完全符合所有期望时,您也可以对这个关于如何使用 ANOVA 的问题感兴趣

总结:如果您打算处理实际数据,并且您的目标不是证明任何科学结果,而是制作一个可以正常工作的系统(即 Web 服务或任何实际应用程序),那么独立假设(可能还有其他假设)可以放宽,但是如果你试图推断/证明一些普遍的真理,那么你应该总是使用你可以在数学上保证(或至少安全和可证明地假设)你满足所有前提的测试。