机器算法验证 - 频率统计中的确定性或随机性宇宙？ - 吾爱随笔录

频率统计中的确定性或随机性宇宙？

机器算法验证常客哲学的

2022-04-10 19:15:49

常客统计是否对宇宙/世界（或至少正在建模的过程）是确定性的还是随机的采取立场？
如果是这样，这在方法论中的什么地方很重要？

_{有关贝叶斯观点的相关问题，请参阅“贝叶斯统计中的确定性或随机性宇宙？” .}

2个回答

我恭敬地不同意Frans的回答；频率论方法论中没有任何内容对统计建模的数据生成过程是否具有确定性采取任何立场。（虽然 Wikipedia 是一些统计材料的有用来源，但这个未引用的句子对我来说没有任何分量。）频率论将在可重复的试验序列的上下文中事件的“概率”定义为该事件的限制相对频率在一系列试验中。 $^\dagger$ 因此，在这个框架内，概率模型的应用只意味着用户对可以将事件置于理论上可重复的试验序列中感到满意。序列中事件的发生以及限制相对频率的存在不受过程是否具有确定性的影响。

鉴于此，在频率论范式中，不应将任何非确定性含义（在形而上学意义上）灌输到对“概率”或“随机”的引用。在这种范式中，概率的概念仅指限制事件的相对频率，而“随机”模型只是使用概率来描述的模型（即，诉诸于限制事件的相对频率）。频率统计模型只是数学意义上的“非确定性”——即，参数的规范在逻辑上并不意味着单个随机变量的结果。（或者换一种说法，

人们可以相信宇宙中的随机性或决定论，并应用频率论的方法和解释。在这种范式下，可观察值被认为是可重复实验的结果，因此它们被认为包含在（假设的）无限序列中，具有由一个或多个“参数”描述的有限经验分布。这些后面的对象被视为“未知常数”，即使用户采用了非确定性的偶然观点，即认为参数是非确定性的。

$^\dagger$ 我的观点是这个常客的定义是有问题的，因为它把可重复实验的概念作为概率的初步概念，因此它很难解释构成可重复性的条件（因为它不能诉诸任何概率条件）。这个概念实际上在贝叶斯理论中通过可交换值序列的概念得到了很好的描述，其中可交换性的条件对应于可重复性。在贝叶斯框架内，de Finetti 的表示定理将概率对应于作为可交换性的数学结果的极限相对频率，而不是作为定义。

有趣的问题！

我想说的是，从统计建模的角度来看，所有数据都假定来自系统组件和随机组件的组合，这意味着由统计建模的数据生成过程在本质上被假定为非确定性的。维基百科甚至指出：

统计模型是一类特殊的数学模型。统计模型与其他数学模型的区别在于统计模型是非确定性的。

作为一名前生物学家，我还将向您介绍我的观点，我们通常会解释统计建模（至少是常客）类似于以下内容：

具有讽刺意味的是，您可以将其解释为随机部分只是“显然是随机的”，因为它依赖于我们没有或无法测量的事物。 $^*$ 即使是“随机突变”最终也是由我们无法测量的大量事物引起的，例如暴露在阳光下、修复机制故障等，但出于所有实际意图和目的，它也可能是非确定性的。

然而，即使我们可以完美地测量所有这些东西，都可以精确到分子水平，我们也不得不承认，分子尺度上的影响反过来又受到量子尺度上的事物的影响，而且……嗯，

可以测量数量的精度是有限度的（不确定性原理）。

我们遇到了不确定性原理，这意味着最终，我们用统计数据建模的过程是随机的（如果我对它的理解是正确的）。

话虽如此，模型就是这样，模型。而且我不认为统计学作为一个领域对宇宙的本质持观点。毕竟，这不是我们的研究领域。充其量你可以争辩说你通过使用统计模型隐含地假设数据生成过程是随机的。

$^*$ 换句话说，大量未观察到的独立效应的总和会产生（显然）与系统效应的随机偏差。（如果有大量均匀分布的效果，这很好地解释了为什么我们经常假设正常，但我正在偏离轨道。）

它在方法论中的什么地方很重要？

好吧，基本上适用于一切！没有随机部分的模型不被视为统计模型。这甚至适用于那些不认为机器学习和统计数据相同的人。即使从随机优化的角度来看（这个名字有点暴露了），如果损失函数已经完全为零，则无法从新数据中进一步训练模型。

其它你可能感兴趣的问题

上一篇CNN中过滤器和特征图之间的连接下一篇正则化逻辑回归会产生校准结果吗？