我刚刚完成了cognitiveclass.ai 上的R 机器学习课程,并开始尝试使用随机森林。
我使用 R 中的“randomForest”库制作了一个模型。该模型按两个类进行分类,好的和坏的。
我知道当一个模型过拟合时,它在来自自己的训练集的数据上表现良好,但在样本外数据上表现不佳。
为了训练和测试我的模型,我将整个数据集打乱并拆分为 70% 用于训练和 30% 用于测试。
我的问题:我从测试集上的预测中得到了 100% 的准确率。这很糟糕吗?这似乎好得令人难以置信。
目标是在四个相互依赖的波形上进行波形识别。该数据集的特征是波形及其目标波形的动态时间扭曲分析的成本结果。