我有一个由某些用户完成的选择数据集(在 A、B 和 C 之间),我想训练一个神经网络来预测选择。我分为训练集和测试集。
一个实例由:[UserId, some features, choice]组成。选择是目标变量。同一用户可以有多个实例(具有不同的功能和选择)。
我的假设是同一个用户经常做出相同的选择,所以我想要一个描述选择“频率”的特征(例如,用户 1 选择 A 60% 的时间)。我可以从哪个数据集计算这个频率?
- 我不能使用训练集,否则会过度拟合(频率=0,模型确定它从未在训练集中被选中)。
- 我在不同时期没有额外的选择数据集(这将是理想的)。
- 我可以从测试集中计算频率吗?这样,我实际上是在训练一个模型(在训练集上),基于不同时期(测试集)的频率,这就是我想要的。它是否过拟合了测试集中的表现?我认为不会,因为模型是在训练集上训练的。我的结果证实了两组的相似表现。