对大量变量组合进行 P 值挖掘

数据挖掘 回归 线性回归 算法 逻辑回归 模型选择
2022-02-09 18:08:11

我真的不知道任何机器学习,但有一个问题似乎是我应该使用一些 ML 算法的问题。

我正在分析一项与年龄相关的疾病、年龄、治疗、性别和两种特定肠道细菌丰度的医学研究。该领域的许多研究人员也喜欢观察这两种细菌的​​比例。

通过使用一个、两个或三个解释变量进行一些回归,我发现了一些具有非常好的 p 值的意想不到的组合。例如,控制年龄,无论治疗如何,细菌-A 似乎都与病情密切相关。无论年龄大小,其他细菌似乎都与治疗密切相关。我无法预料会是这样。

我觉得寻找更多意想不到的关联可能是有价值的。我可以列出所有一个、两个和三个组合解释变量,并对这些组合执行我的六个变量的回归,并且基本上按 p 值排序。但是,1)这种 p 值挖掘通常是不受欢迎的,2)有无数种可能的回归。

似乎可能存在某种 ML 算法,可以以客观和系统的方式寻找意外的关联。

那会是什么?

1个回答

您需要研究多种假设校正方法,例如 Bonferroni 校正或 Benjamini-Hochberg 错误发现率。这种分析的问题在于您的关联是出乎意料的,因此您没有任何先验假设。您所能做的就是测试每个组合,然后在考虑所有测试后查看统计显着性。

随着您进行更多测试,您越来越有可能偶然发现关联。为了解决这个问题,多种假设校正方法使显着性的 p 值阈值更加保守。如果您只进行 1 次检验,则 p 值为 0.05 可能表示结果显着。但是,如果您进行一百万次测试,其中许多测试的 p 值会偶然为 0.05,因此您需要更加保守。这种做法通常不会被反对,因为它适当地考虑了分析方法。但是,通过进行许多测试并仅报告重要的测试而不进行更正,您很容易对这种方法不诚实。

强制性xkcd:https ://xkcd.com/882/