回归中的高错误率是否意味着数据集是不可预测的?

数据挖掘 特征选择 回归
2022-03-09 16:41:16

我有一个 3G 网络中的视频观看记录数据集。在这个数据集中,包括 2 种不同的特征:

  • 用户端信息,例如年龄、性别、数据计划等;
  • 这些用户的视频观看记录,每个记录都与下载率和一些详细的网络状况指标相关联,例如下载速度、RTT 等。

在互联网流媒体场景下,一个视频被分成几个块,一个一个地下载到终端设备,所以我们有下载率=下载字节数/文件大小(以字节为单位)

现在,给定这个数据集,我想预测每个视频的下载率。

由于是回归问题,所以我使用梯度提升回归树作为模型,进行 10 倍交叉验证。

但是,我尝试了不同的模型参数配置,甚至不同的模型(线性回归、决策回归树),我能得到的最佳均方根误差是 0.3790,这是相当高的,因为如果我不使用任何复杂的模型并且只使用已知标签的平均值作为预测值,那么我仍然可以得到 0.3890 的 RMSE。没有明显区别。

对于这个问题,我有几个问题:

  1. 这种高错误率是否意味着数据集中的标签是不可预测的?

  2. 除了特征问题,还有其他可能吗?如果是,我该如何验证它们?

1个回答

根据您在此处提供的内容对您的数据做出太多结论有点仓促。归根结底,您现在所拥有的所有信息都是“GBT 不能很好地解决这个预测问题和这个指标”,通过一个 RMSE 比较来总结。这不是很多信息——可能是对于 GBT 来说这是一个糟糕的数据集,而其他一些模型可以工作,可能是任何模型都无法从这些特征中预测标签,或者可能存在一些错误在模型设置/验证中。

我建议检查以下假设:

1)也许,以您的数据集大小和您拥有的功能,GBT 不是一个非常高性能的模型。尝试一些完全不同的东西——也许只是一个简单的线性回归!或者随机森林。或者是参数设置非常不同的 GBDT。或者是其他东西。这将帮助您诊断是模型选择问题还是其他问题;如果一些非常不同的方法为您提供大致相似的结果,您就会知道导致这些结果的不是模型选择,如果其中一个模型的行为不同,那么这将为您提供额外的信息来帮助诊断问题。

2)也许模型设置和验证存在一些问题?我建议您进行一些探索,以了解您获得的 RMSE 是否合理,或者您是否应该期望更好。您的帖子几乎没有包含有关数据实际表示的内容,您对功能和标签的了解等方面的详细信息。也许您知道这些内容但未在此处包含它们,但如果不包含,则应返回并尝试获取更多信息在继续之前了解数据。查看一些随机数据点,根据目标绘制列,查看特征和标签的直方图,诸如此类。没有什么可以替代查看数据。

3)也许没有足够的数据点来证明复杂模型的合理性。当您的数据点数量较少(< 100)时,使用领域专业知识和特征知识构建的更简单的参数模型可能会优于非参数模型。