您如何将假设检验应用于 ML 模型中的特征?例如,我正在做一个回归任务,我想削减一些特征(一旦我训练了我的模型)以提高性能。如何应用假设检验来确定该功能是否有用?我对我的零假设是什么、显着性水平以及如何运行实验以获得特征的 p 值有点困惑(我听说 0.15 的显着性水平是一个很好的阈值,但我我不确定)。
例如。考虑到三台机器(A、B、C)的生产,我正在做一个回归任务来预测我工厂的成本。我对数据进行线性回归,发现机器 A 的 p 值大于我的显着性水平,因此,它在统计上不显着,我决定为我的模型丢弃该特征。
数据看起来像这样
d = ('Cost': [44439, 43936, 44464, 41533, 46343], 'A': [515, 929, 800, 979, 1165], 'B': [541, 710, 675, 1147, 939], 'C': [928, 711, 824, 758, 635, 901])
df = pd.DataFrame(data=d)
如果您想查看完整数据,我从 Youtube 上的视频中获取了这个示例。我真的不明白他是如何得出关于显着性水平的结论以及他在这种情况下如何使用假设检验的。
链接在下面,它从 Min 4:00 开始(之后只有 3 分钟)



