数据挖掘 - 解释数据集的置信区间结果 - 吾爱随笔录

解释数据集的置信区间结果

数据挖掘数据集统计数据文本分类信心

2022-03-08 14:54:37

我已经自动创建了一个数据集，并想澄清我使用置信区间对噪声量的解释。

我选择了一个随机样本并手动对样本进行注释，发现 98% 的标签是正确的。基于这些值，我计算了 99% 的置信区间，其下限为 0.9614，上限为 0.9949。这是否意味着整个数据集中的噪声介于上下限之间，然后从 0.005% 到 0.038%？

1个回答

不，不是这个意思。

一方面，不清楚您计算的置信区间的参数是什么。

在任何情况下，在解释（频繁的）置信区间时都需要小心。

在频率统计中，置信区间是随机的，区间所针对的参数是固定的。在 99% 区间的情况下，这意味着如果再次多次收集数据，并且每次都重新计算置信区间，那么 100 次中有 99 次将包含参数的真实值。这是对频率派置信区间的唯一技术上正确的解释。它通常被错误地解释为包含概率为 99% 的参数的区间，而这似乎是您正在使用的解释。

其它你可能感兴趣的问题

上一篇如何以最好的方式组合两个不同的嵌入？下一篇GRU 和 LSTM 不会“冒险”预测