多个项目的预测建模

数据挖掘 时间序列 回归 集成建模
2022-03-10 14:07:01

我有一个社交媒体帖子数据集,想预测随着时间的推移它将收到多少“赞”。

+---------+----------------+-----------+----------------+-----+-------+
| Post_id | Timestamp      | Follows   | Comments_count | ... | Likes |
+---------+----------------+-----------+----------------+-----+-------+
| 01      | 12-04-16 14:00 | 34        | 4              |     | 23    |
+---------+----------------+-----------+----------------+-----+-------+
| 01      | 12-04-16 14:35 | 35        | 7              |     | 34    |
+---------+----------------+-----------+----------------+-----+-------+
|         | ...            |           |                |     |       |
+---------+----------------+-----------+----------------+-----+-------+
| 02      | 12-04-16 14:02 | 134       | 5              |     | 36    |
+---------+----------------+-----------+----------------+-----+-------+
| 02      | 12-04-16 14:45 | 136       | 23             |     | 123   |
+---------+----------------+-----------+----------------+-----+-------+

随着时间的推移,喜欢的数量看起来像 f(x) = sqrt(x)

我的方法是为每个帖子创建一个多元多项式回归,并以某种方式对它们进行集成/平均。

这是一个好方法吗?哪种合奏技术合适?

2个回答

当每个组件分类器的决策规则不同并提供互补信息时,总体分类通常会更好。

所以问题就变成了:你能否设置你的组件分类器,使它们的决策规则不同,并根据特征空间相互补充?例如,帖子 1 的特征空间是否与帖子 2 明显不同?等等。如果是这样,集成方法应该是有益的。

哪种技术?如果您可以高度训练每个分类器并使其成为特征空间不同区域的专家,请尝试模型:

  • 混合模型
  • 混合物分布
  • 门控子系统
  • 赢家通吃。

您可以在帖子发布后的特定时间选择几个时间窗口并尝试对此进行回归。由于它是计数数据,因此显而易见的选择是将结果建模为泊松计数过程。有多种模型可以原生地做到这一点,一些广义线性模型,还有具有一定损失函数的神经网络。另一种选择是对喜欢该帖子的关注者比例进行建模。这可能更容易概括,但是一小部分帖子在他们自己的追随者之外“传播”。无论如何,这将很难建模,您可以将这些实例裁剪为 1 的一小部分。