我很难找到正确的方法向工程师朋友解释为什么二进制分类与统计假设检验不完全相同。显然,在这两种情况下,我们都使用某种统计程序在两种备选方案之间进行选择。然而,意图、语言和方法却大不相同。你会如何解释差异?
为什么二元分类不是假设检验?
机器算法验证
假设检验
分类
2022-03-27 19:42:22
2个回答
对我来说,给定模式的二元分类可能类似于假设检验,这似乎是完全合理的,但不一定。这也取决于您在这里想到的具体情况。让我们假设您有一个分类器(希望是一个好的分类器),并希望使用它来确定给定模式属于哪个类。这应该是一个新模式,你还不知道真正的类。在机器学习中,通过将其预测类别与已知(真实)类别进行比较来评估分类器的价值是很常见的,但这是一项不同的努力。然后,
- 在假设检验的 Neyman-Pearson 方法中(参见此处),除非有足够的证据拒绝它,否则您将表现得好像零是正确的。需要明确的是,这并不意味着您已经“证明”了 null 为真(参见此处),您最终会在两个方向上都犯错误。关键是决定你认为你可以忍受的长期错误率。通常,null 和alternative 不会被对称处理——优先考虑null。因此,例如,人们通常只会在证据足以证明他们的长期 ' I 型' 错误率为 5%。一般来说,检验假设的研究是这样构建的,即当替代方案获得时,80% 的时间将拒绝零。这些事实表明,人们宁愿在不拒绝空值的一方犯错,而不是相反。但这是对不同类型错误的缺点的特殊价值判断,这在逻辑上没有任何必要。
- 另一方面,在机器学习中对新模式进行分类时,典型的是对所有模式进行分类,并将其分类为最大后验类。也就是说,如果分类器表明模式更可能是 A 而不是非 A,则该模式将被归类为 A 类。这又是一个价值判断。分类器可以“加权”,以便它们优先考虑敏感性或特异性。
因此,它们代表了不同的文化和概念框架,但可以与这两种活动的基本逻辑结构相对应。
我们还可以从其他角度进行比较和对比。例如,我们可以根据分类器体现的功能的好坏来讨论分类器是否充分执行(根据某些标准判断),模仿真正的底层函数,以及是否/如何接近满足特定假设检验的假设。类似地,我们可以对比如何在机器学习中训练分类器(例如,通过最小化交叉验证错误)与如何构建模型以创建可以测试特定假设的上下文。
对于更广泛的观点,您可能会对我在这里的回答感兴趣:数据挖掘、统计、机器学习和 AI 之间有什么区别?
两者在实践中不一定不重叠。我还要注意假设检验和统计学意义对我来说似乎略有不同(至少通过本网站上的标签描述):并非所有假设检验都必须与“空”(或“随机/偶然/无影响”)替代方案进行比较。
也就是说,假设检验可能通常与预先定义的假设相关联,通常以参数分布。
例如,在训练一个高斯混合模型,参数(,)和数据标签(其中)通常会有所不同。然而,对于一组固定的组件参数,决定一个点属于哪个组件(类)至少类似于假设检验(例如,在对新示例进行分类时,或在EM 训练的“E-step”中决定标签时)。
所以我猜关键区别(在我看来)是在(经典?)统计假设检验中,一旦看到数据,就严格不允许改变假设。
(例如,有争议的“ p-hacking ”现象。)
其它你可能感兴趣的问题