我正在解决一个问题,我可以访问包含新闻文章、发布日期和 24 小时内发布的浏览量的数据库。
目标是能够预测任何新文章的浏览次数。
我想添加一个功能,对于给定的文章,它可以指示在本文发表前不久发生的所有具有相似主题的文章的浏览次数/发表次数。这将捕捉到“嗡嗡声”现象。(如果关于选举的文章已经很多了,那么关于选举的新文章很可能会获得很多观点。)
这是我的策略:
我们对 X 主题中的所有文章进行分类。
我们将时间线分割成 Y 个时间步长。
对于每个时间步长:
对于每个主题:
- 我们统计在这个时间步发表的这个主题的文章的浏览量
- 出版物数量同上
- 我们将这两个值添加为下一个时间步中发布的所有文章的特征
所以,我想知道这是否违反了 iid 假设?(因为,如果我将数据随机分成训练/测试,这会从测试集的目标值中注入信息作为训练集的一个特征。)这是“允许的”吗?
我错过了什么吗?你看到另一种策略了吗?