我有一个关于电视观众正在观看什么以及观看时长的(训练)数据集。目标(在新集 - 测试集)是预测电视观众将观看特定频道和节目的时间。
具体来说,我有以下预测:
- 电视频道(例如 BBC、CNN 等)
- 内容(例如新闻、娱乐、商业等)
- 开始时间(例如 11:00、14:00 等)
和以下目标:
- 结束时间(例如 12:00、15:00 等)
显然,我将使用TV Channel和Content预测器应用 One Hot Encoding 并Starting time以某种方式处理(在此处查看更多信息:Encoding features like month and hour as categorial or numeric?)。
但是,在我的训练集中,我可能有多个具有相同预测变量值(例如“BBC”、“新闻”、“20:00”)但输出不同的观察结果。这显然是因为不同的用户开始同时观看同一件事,但他们在不同的时间停止。
这是否会成为一个问题,因为我的测试集也包含这样的观察结果?
具体来说,我不想为这些观察接收相同的输出(结束时间),但我想接收不同的输出,这些输出(理想情况下)遵循训练集中各个观察的分布。我怎样才能做到这一点?
我应该为每个用户简单地添加一个新的分类变量吗?