统计中有一个不为人知的事实。随着样本量的增加,更多的 p 值变得显着。
我正在处理由 300 万个样本(约占美国人口的 1%)组成的庞大样本量。这是一个逻辑回归,几个关系的 p 值在 5%、1% 和 ~0% 时显着。
我将我的论文摘要提交给了几家期刊,看看是否有兴趣。只有我提交给的一家德国期刊(那些聪明的德国人,真的)发现像这样一个非常大的样本量可能更容易产生显着的 p 值,我需要以某种方式对此进行调整。
需要明确的是,过大的样本量不会产生虚假的 p 值。更多具有微小效应大小的效应开始显示显着的 p 值。
我希望您对如何处理这种情况的策略提出意见,以进行可靠的研究。我想到的一些策略是:
按原样进行研究,并仅将影响大小超过某个阈值的相关结果视为相关结果(尽管是什么阈值?)
做他们在数据挖掘中所做的事情。将我的数据拆分为训练、验证和测试集。(这是用逻辑回归完成的吗?谁能指出我过去的论文中说明了该技术?)
跳过通常的逻辑回归,而是使用数据挖掘技术,例如 CART(也可以在内部使用逻辑回归)。
我想听听您对这些策略的相对价值的看法。其他建议也将受到欢迎。特别受欢迎的是指向以前的论文,作者在这些论文中说明了如何处理类似的问题。