处理巨大样本量的策略

数据挖掘 逻辑回归 采样
2022-03-03 12:43:43

统计中有一个不为人知的事实。随着样本量的增加,更多的 p 值变得显着。

我正在处理由 300 万个样本(约占美国人口的 1%)组成的庞大样本量。这是一个逻辑回归,几个关系的 p 值在 5%、1% 和 ~0% 时显着。

我将我的论文摘要提交给了几家期刊,看看是否有兴趣。只有我提交给的一家德国期刊(那些聪明的德国人,真的)发现像这样一个非常大的样本量可能更容易产生显着的 p 值,我需要以某种方式对此进行调整。

需要明确的是,过大的样本量不会产生虚假的 p 值。更多具有微小效应大小的效应开始显示显着的 p 值。

我希望您对如何处理这种情况的策略提出意见,以进行可靠的研究。我想到的一些策略是:

  1. 按原样进行研究,并仅将影响大小超过某个阈值的相关结果视为相关结果(尽管是什么阈值?

  2. 做他们在数据挖掘中所做的事情。将我的数据拆分为训练、验证和测试集。这是用逻辑回归完成的吗?谁能指出我过去的论文中说明了该技术?

  3. 跳过通常的逻辑回归,而是使用数据挖掘技术,例如 CART(也可以在内部使用逻辑回归)。

我想听听您对这些策略的相对价值的看法。其他建议也将受到欢迎。特别受欢迎的是指向以前的论文,作者在这些论文中说明了如何处理类似的问题。

2个回答

我在评论中的链接有有用的建议。我想强调:

  • 这是统计学中众所周知的事实
  • 大样本量是好的更多更好质量的数据并没有错。
  • 在第二点拆分数据是愚蠢的。你自愿放弃信息和统计能力。人们这样做是为了训练一个无偏的模型,而不是为了减少 p 值的样本量。
  • 没有理由切换到另一个模型。您的逻辑模型中的标准误差应该很小,这使其成为预测建模的理想选择。你的模型应该是健壮和稳定的。
  • 如果您有大量样本,您应该对效应量进行分析。在我发布的链接中阅读@Sympa 的答案。你的影响大小是多少?有什么相对影响?
  • 您对第一点的阈值是特定于域的。如果你写一篇论文,你应该非常了解它。您可以将您的数据与文献进行比较。简单的描述性统计数据,如百分比以及它与标准偏差(与样本量无关)的比较方式将很有用。

另请查看https://stats.stackexchange.com/questions/125750/sample-size-too-large

有一篇关于贝叶斯因子和 p 值的长而优秀的文章:

https://replicationindex.wordpress.com/2015/04/30/replacing-p-values-with-bayes-factors-a-miracle-cure-for-the-replicability-crisis-in-psychological-science/

我应该提请您注意以下段落:

反对 p 值的更有趣的论点不是大型研究中的显着结果是 I 型错误,而是这些结果实际上毫无意义。为了说明这一点,统计学书籍经常区分统计显着性和实际显着性,并警告说大样本中具有统计显着性的结果可能几乎没有实际意义。过去,当研究人员只报告 p 值时,这个警告很有用(例如,女性的语言智力高于男性,p < .05)。p 值没有说明效果的大小。当只有 p 值可用时,假设较小样本中的显着结果较大是有意义的,因为在这些样本中只有较大的影响可能是显着的。然而,因此,实际意义的概念已经过时,应该被关于效应大小的问题所取代。p 值和贝叶斯因子都不能提供有关效应大小或发现的实际影响的信息。

审稿人是正确的。p 值和贝叶斯因子都没有揭示任何有关效果大小的信息。

制定零假设/随机数据有多容易?如果可能的话,您可以查看计算某个 p 值的频率。通过创建足够多的伪实验,您可以获得 p 值的概率密度函数,您可以使用它来比较您测量的值。您可以单独对一个变量执行此操作,也可以对多个变量组合执行此操作。示例:当我有 100 个变量时,找到 p 值 < x 的 10 个变量的可能性有多大。