我有一个相当大的数据集(约 300 个案例,具有约 40 个连续属性,二进制标记),我用它来创建几个替代预测模型。为此,该集合被分为训练和验证子集(分别约为 60:40%)。
我注意到有几个样本(在训练和验证子集中)被我测试的所有或大部分替代模型错误分类。
我怀疑这些“麻烦制造”的样本有什么特别之处。发现模型在特定样本上的不当行为背后的可能原因的一般准则是什么?
更新 1。我正在为此任务使用逻辑回归。参数选择是通过详尽搜索多达 4 个预测变量的组合和 10 倍交叉验证来完成的。值得一提的是,模型为错误分类样本计算的 p 值通常与默认的分类阈值 0.5 有很大差异。换句话说,模型不仅对那些案例是错误的,而且对自己也很有信心。
更新 2 - 我已经做了什么。
我同意来自研究领域的见解至关重要,但迄今为止我们还没有发现任何重要的东西。此外,我试图从训练集中删除“坏”样本,并保持验证集和参数选择算法不变。这导致训练集的性能更好(自然),但也显着提高了验证集的性能。这是否表明“坏”样本实际上是“坏”?