因此,我正在研究一个 ML 模型,该模型将具有潜在的预测变量:年龄、他所在城市的代码、他的社会地位(已婚/单身等)、他的孩子数量和二进制输出签名(0或 1)。这就是我拥有的初始数据集。
我的预测将基于这些特征来预测该人的签名值。
我已经对看不见的数据进行了预测。在用预测结果与真实数据验证结果后,我有25%的准确率。虽然交叉验证给了我65%的准确率。所以我想:过度拟合
这是我的问题,我回到了整个过程的早期阶段,并开始创建新功能。示例:我没有将城市的代码作为 ML 模型的输入毫无意义,而是根据已签名的百分比创建了类,城市,“已签名”(输出)的百分比较高,得到分配给更高的 class_city 值,这在我的相关矩阵中大大改善了有符号类城市的关系,这是有道理的。我在做什么正确吗?还是我不应该根据输出创建特征?
这是我的 CM:
仅使用 3 个特征(部门类别、年龄和情况)重新建模后,我在由 148 行与训练文件中的 60k 行组成的看不见的数据上测试了我的模型。
具有旧特征的第一个模型(部门的 ID)给出了25%的准确率,而具有新特征 class_department 的第二个模型给出了71%的准确率(再次在未见过的数据上)
注意:第一个具有 25% 的模型具有一些其他特征作为 ID(它们可能导致模型对 deparment_ID 的准确度如此低)