我有一个由 1000 个观察值(行)、11 个预测变量 + 1 个响应(12 列)组成的小型数据集。它是一个玩具数据集,用于大学机器学习课程中的学习目的——二元分类(心脏病与无心脏病)。
我已经拟合了逻辑回归、SVM 和 KNN。但是,我正在使用 python,并且我正在删除一些与我不想考虑的缺失值和异常值相对应的行 - 使用df.drop()然后reset_index(). 如果您不设置 to 的 drop 标志,reset_index您true将在数据框中获得一列,其中包含您要重置的索引。我不小心忘记将标志设置为,true并且在拟合提到的 3 个模型时,包含这些索引的列。这给了我 99-100% 的 f1 分数。当我意识到我不小心包含了这个列时,我放弃了这个列,重新安装,并在各自的模型中获得了大约 60-80% 的 F1 分数。
包含这列指标是否有理由让您获得 100% 的 F1 分数甚至准确度?这仅仅是一个巧合,显然适用于数据集吗?