我有一个 3G 网络中的视频观看记录数据集。在这个数据集中,包括 2 种不同的特征:
- 用户端信息,例如年龄、性别、数据计划等;
- 这些用户的视频观看记录,每个记录都与下载率和一些详细的网络状况指标相关联,例如下载速度、RTT 等。
在互联网流媒体场景下,一个视频被分成几个块,一个一个地下载到终端设备,所以我们有下载率=下载字节数/文件大小(以字节为单位)
现在,给定这个数据集,我想预测每个视频的下载率。
由于是回归问题,所以我使用梯度提升回归树作为模型,进行 10 倍交叉验证。
但是,我尝试了不同的模型参数配置,甚至不同的模型(线性回归、决策回归树),我能得到的最佳均方根误差是 0.3790,这是相当高的,因为如果我不使用任何复杂的模型并且只使用已知标签的平均值作为预测值,那么我仍然可以得到 0.3890 的 RMSE。没有明显区别。
对于这个问题,我有几个问题:
这种高错误率是否意味着数据集中的标签是不可预测的?
除了特征问题,还有其他可能吗?如果是,我该如何验证它们?