根据理论、拟合或其他选择分布是否更好?

机器算法验证 分布 过拟合 启发式
2022-03-19 05:38:38

这接近于一个哲学问题,但我对其他有更多经验的人如何看待分布选择很感兴趣。在某些情况下,很明显理论可能最有效(老鼠尾巴的长度可能是正态分布的)。在很多情况下,可能没有理论来描述一组数据,所以您只需使用与您所拥有的相当吻合的东西,而不管它最初是为了描述什么而开发的?我可以想象使用其中一个或另一个的一些陷阱,然后当然似乎存在一个问题,如果你真的不知道,也许你应该只使用经验分布。

所以我想我真正要问的是:有人有一种连贯的方式来处理/思考这个问题吗?您是否可以建议任何资源来对此进行良好的处理?

3个回答

绝对取决于所讨论的数据是什么,以及人们对它们了解或希望假设的程度。正如@whuber 最近在聊天中所说,“在涉及物理定律的地方,您几乎总是可以对数据建模的适当方式做出合理的猜测。” (我怀疑这对他来说比对我更真实!另外,我希望这不会被误用在其原始背景之外......)在更像是社会科学中的潜在构造建模的情况下,关注经验分布作为理解鲜为人知现象的细微差别的一种方式。假设一个正态分布并将整体形状中的不匹配视为可以忽略不计,这有点太容易了,而且在没有更多理由的情况下将异常值视为错误是非常似是而非的。

当然,这种行为的大部分是由人们想要应用的分析假设所激发的。最有趣的问题通常远远超出对变量分布的描述或分类。这也会影响给定场景的正确答案;可能有原因(例如,需要)假设一个正态分布,当它不是特别好(也不是太差)时,因为否则方法也不完美。尽管如此,习惯性地这样做的风险是忘记提出关于单个变量分布的有趣问题。

例如,考虑财富与幸福之间的关系:人们普遍想问的一个热门问题。假设财富服从伽马(Salem & Mount, 1974)或广义贝塔(Parker, 1999)分布可能是安全的,但假设幸福是正态分布真的安全吗?真的,完全没有必要为了回答最初的问题而假设这一点,但人们有时会这样做,然后忽略潜在的重要问题,如反应偏见和文化差异。例如,一些文化倾向于给出或多或少的极端反应(参见@chl 对由李克特项目组成的问卷的因子分析的回答),并且关于积极和消极情绪的公开表达规范有所不同Tucker、Ozer、Lyubomirsky 和 ​​Boehm,2006 年这可能会增加经验分布特征(如偏度和峰度)差异的重要性。如果我将俄罗斯、中国和美国的财富与主观幸福评级的关系进行比较,我可能想要评估幸福评级中心趋势的差异。这样做时,为了单向方差分析,我会犹豫假设每个人的正态分布(即使它可能对违规行为相当稳健) 当有理由预期中国的“肥尾”分布、俄罗斯的正偏态分布和美国的负偏态分布时,由于各种依赖于文化的规范和反应偏差。为了进行显着性检验(老实说,即使我可能更愿意只报告效果大小),我宁愿使用非参数方法,并且为了实际了解每个人群的主观幸福感,我会而是根据经验来描述分布,而不是试图将其归类为一些简单的理论分布并忽略或掩盖任何不合适的情况。这是对IMO信息的浪费。

参考资料
- Parker, SC (1999)。作为收益分配模型的广义贝塔。经济学快报,62 (2),197–200。
-塞勒姆,ABZ 和芒特,TD(1974 年)。一个方便的收入分配描述模型:伽马密度。计量经济学,42 (6), 1115–1127。
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., & Boehm, JK (2006)。对生活满意度量表测量不变性的测试:俄罗斯人和北美人的比较。社会指标研究,78 (2), 341–360。取自http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf

老鼠的尾巴长度可能是正态分布的

我会怀疑这一点。正态分布来自许多独立的加性效应。生物系统由许多相互作用的反馈回路(相互依赖的乘法效应)组成。此外,通常有一些状态比其他状态更稳定(即吸引子)。因此,某种长尾或多峰分布可能会描述尾长。事实上,正态分布可能是描述任何生物学的一个非常糟糕的默认选择,并且它的误用是该文献中报道的许多“异常值”的原因。这种分布在自然界中的普遍存在是一个神话,而不仅仅是在“完美的圆圈并不真正存在”的意义上。然而,这并不意味着均值和标准差作为汇总统计无用。

特别是因为我无法轻易确定何时“信任数据”可能会更好(就像我拥有的​​这个时髦的右偏数据集,但 n=160 给出的数据似乎还不够)并采用经验,或者就像我的一位同事一直坚持的那样,将其安装到 Beta 发行版中。我怀疑他之所以选择那个只是因为它以 [0,1] 为界。这一切似乎都是临时的。希望这能澄清我的意图!

拟合经验分布提供了潜在过程的提示,这有助于理论分布的发展。然后将理论分布与经验分布进行比较,以检验该理论的证据。

如果您的目的是根据当前可用的证据评估某些结果的概率,并且您没有理由选择该特定分布,我想我看不出做出额外的假设会有什么帮助。相反,它似乎使事情变得混乱。

但是,如果您试图描述或总结数据,那么拟合分布可能是有意义的。

在某些情况下,很明显理论可能最有效(老鼠尾巴的长度可能是正态分布的)。

尾长肯定不是正态分布的。

正态分布取负值的概率非零;尾长没有。

George Box 的名言所有模型都是错误的,但有些是有用的”很好地说明了这一点。我们可以合理地断言正常(而不仅仅是近似正常)的情况确实非常罕见,几乎是传说中的生物,偶尔几乎可以从眼角瞥见海市蜃楼。

在很多情况下,可能没有理论来描述一组数据,所以您只需使用与您所拥有的相当吻合的东西,而不管它最初是为了描述什么而开发的?

如果您感兴趣的数量对选择不是特别敏感(只要分布的广泛特征与已知的一致),那么是的,您可以使用相当合适的东西。

在敏感性更高的情况下,“仅使用适合的东西”本身是不够的。我们可能会使用一些不做特定假设的方法(也许是无分发过程,如置换、引导或其他重采样方法,或稳健的过程)。或者,我们可以量化对分布假设的敏感性,例如通过模拟(实际上我认为这通常是一个好主意)。

似乎有一个问题,如果你真的不知道,也许你应该只使用经验分布。

我不会将其描述为一个问题——基于经验分布的推断无疑是一种适用于多种问题的合法方法(排列/随机化和引导是两个例子)。

有人有一种连贯的方式来处理/思考这个问题吗?

总的来说,在很多情况下,我倾向于考虑以下问题:

1) 我对这种形式的数据的方式(或其他位置类型数量)的行为有何理解*?

*(无论是来自理论,还是这种形式的数据的经验,或专家的建议,或者如果有必要,来自数据本身,尽管这带来了必须处理的问题)

2) 点差(方差、IQR 等)怎么样?它的表现如何?

3) 其他分布特征(边界、偏度、离散性等)呢?

4) 依赖性、人口的异质性、偶尔出现非常不一致的值的趋势等呢?

这种考虑可能会指导在正常模型、GLM、其他模型或鲁棒或无分布方法(例如引导或排列/随机化方法,包括基于秩的过程)之间进行选择