我有一个包含 1175 个示例和 21 个特征的数据集,这些特征在 [-1, +1] 的范围内,以及两个类标签 1 和 0。当我阅读了大部分资源时,最好在[-1, +1] 或 [0, 1] 的范围。所以我认为我不需要任何预处理。但是当我从 scikit-learn 运行 SVM 和决策树分类器时,我使用 10 倍的交叉验证获得了 100% 的准确率。然而,随着我执行更多的迭代,分类精度似乎会降低。
我正在从 Kinect 设备收集这些数据,该设备为我提供了人体某些关节的角度和位置。由于硬件故障,我确信数据上有噪音。因此,获得 100% 几乎是不可能的。
我的数据集在这里可用

