如何使用隐藏马尔可夫模型(HMM)预测 reddit.com 的帖子受欢迎程度?

数据挖掘 马尔科夫
2022-02-17 10:23:13

如果我在 reddict.com 上收到一些帖子,我如何预测该帖子将来是否会(趋势/热门/流行)?我想用隐马尔可夫模型来预测它,但我不知道如何定义隐藏状态和观察序列……谁能给我任何建议?谢谢~

我只有这些时间序列数据,例如评论..

2个回答

HMM 并没有真正的意义(与 Dries 所说的相呼应)。如果你想使用 HMM,你必须通过询问“Reddit 帖子可以用马尔可夫过程表示吗?”来证明它的合理性。我想不出一种方法来使这句话成真,并且仍然利用与热门帖子相关的功能。

考虑可能的特征集:发布时间、发布用户、发布类型(链接/图像/文本)、子版块、该子版块的订阅者数量、积极/消极分数、字数在标题等中。不要计算这些功能。

我认为使用 HMM 来解决这个问题没有多大意义。我建议的是某种基于文本的分类器。如果您想使用一种很酷的技术,您可以使用神经网络根据成功帖子的文本进行学习。

另一方面,如果您想使用一种简单的技术,您可以制作流行度预测器,例如回归模型(尝试预测赞成票)。