我正在使用一组功能,说, 预测目标值,这是一个从零到一的连续值。
起初,我尝试使用线性回归模型进行预测,但效果不佳。均方根误差约为 0.35,对于从 0 到 1 的值的预测,这相当高。
然后,我尝试了不同的模型,例如基于决策树的回归、基于随机森林的回归、梯度提升树回归等。但是,所有这些模型也都表现不佳。(RMSE0.35,与线性回归没有显着差异)
我理解这个问题有很多可能的原因,比如:特征选择或模型的选择,但也许更根本的是,数据集的质量不好。
我的问题是:如何检查它是否是由不良数据质量引起的?
顺便说一句,对于数据集的大小,有超过 10K 个数据点,每个数据点与 105 个特征相关联。
我还尝试使用基于决策树的回归来研究每个特征的重要性,结果表明,只有一个特征(据我所知,这不应该是这个问题最突出的特征)的重要性为 0.2,而其余的只有小于 0.1 的重要性。