您如何在数据科学报告中使用 KS-test?

数据挖掘 统计数据 数据科学模型 假设检验 非参数
2022-03-02 04:37:55

我正在写一份数据科学报告,我想找到一个适合样本的现有分布。我得到了一个好看的结果,但是当我使用 KS-test 测试模型时,我得到了一个低 p 值,1.2e-4,我绝对应该拒绝这个模型。cdf pdf

我的意思是,无论您使用什么分布/模型来拟合样本,都不能期望得到完美的结果,尤其是在处理大量数据时。那么 KS-test 在数据科学报告中做了什么?这是否意味着只有当我们在 KS 检验中获得高 p 值时,模型才是正确的?

2个回答

在您的情况下,原假设是您的样本遵循模型学习的分布。备择假设是它遵循一些其他分布。假设您已将显着性水平固定为 alpha的最常见选择,但如果您想降低,则由您决定),得到低于该值的 p 值意味着您应该拒绝原假设。H0H1α0.05α

p 值可以解释为 I 类错误的概率,即误报:当原假设为真时,您拒绝原假设的概率。在您的情况下,拒绝假设意味着声明有统计上显着的证据表明您的模型学习的分布不是样本的基本分布。所以是的,您希望 p 值尽可能大。

您正在使用 Kolmogorov-Smirnov 检验将您的样本与参考分布进行比较,在这种情况下,它是一个单样本 KS 检验。我想说的是,获得高 p 值意味着:“您的模型极不可能学习到错误的分布”。换句话说,它很可能已经学会了一个很好的底层分布近似值。但是,在进行统计假设检验时,没有什么是确定的!

不过,我不确定您在图上显示了什么,因为它们似乎没有经验累积分布函数(线条看起来很平滑)。

p 值被解释为 I 类错误的概率。换句话说,误报:当它实际上是真的时,你拒绝原假设的概率。

您正在调用 Kolmogorov-Smirnov 测试。

“当我使用 KS-test 测试模型时,我得到了一个低 p 值,1.2e-4,我绝对应该拒绝该模型。” 答案 - 您的低 p 值并不表示建议的模型应该被拒绝。p 值仅表示出现类型的机会 - 1 错误在您的情况下非常低。p ie alpha 的低值意味着您的模型预测得非常好。简而言之,测试确认了您的模型的有效性。