使用统计工具进行时间序列预测

机器算法验证 预测 有马 推理
2022-04-04 05:56:24

我正在构建一个需要以智能方式轮询一些文章提要的系统。投票的时候只能知道新文章的数量(可能是0- 没有新文章)。我没有每篇文章发表时的信息。

所以我想到了一个相对简单的解决方案:指数移动平均线。就像是:

tn=αtn1+(1α)p

在哪里p是最后一次投票到最后一次成功投票的时间差(所以如果没有新文章,p越来越大,所以tn是)。

要求和想法

  1. 我想对上述公式进行批评(您会以不同的方式定义它吗?)
  2. 我该如何定义α有效率的?它会随着时间的推移而动态/变化吗?
  3. 我已经阅读了用于预测时间序列的更复杂的统计工具(如 ARMA/ARIMA)。他们中的大多数使用错误(预测时间和实际时间之间的时间差),但遗憾的是,我不拥有这些信息。什么统计模型适合我的场景?
  4. 目前,我不使用文章的数量,尽管它们可能有助于评估下一次民意调查。

谢谢!


PS
我还没有检查过,但我认为提要的行为有点时尚/季节性(例如,晚上的文章较少)。另一方面,如果我没记错的话,还有所谓的“随机冲击”(例如恐怖袭击)。

2个回答

显然,您拥有的唯一信息是在提要上发布的天数和新闻文章的数量。

认为您真正要问的是“这个新闻提要值得我努力投票吗?” 所需的答案是“是或否”。

因此,您实际上想要执行逻辑回归逻辑回归的结果是一个概率,在您的情况下,是您是否应该轮询新闻提要的概率。制作模型后,您需要确定行动阈值:也许对于 Feed A(这非常重要),如果概率 > 75%,您希望对其进行轮询,但对于 Feed B(也许它不那么重要) ) 您可能决定设置更高的阈值,可能仅在新提要的概率 > 90% 时才进行轮询。

在您的情况下,您有一个额外的组件 - 您认为整个过程涉及的时间相关数据。

我建议创建移动窗口逻辑回归(如线性回归的示例)。当然,您必须根据您提前进行的一些建模来调整要在模型中加入的天数,当然您还必须定期评估您的模型!

请不要生气,我是新手。我的想法比你的还要简单。

所以你必须以一种聪明的方式进行投票,也就是说,当提要上有新闻文章的可能性更高时。在我看来,重点是:“从中获得新文章的概率是多少?feedn如果今天我轮询它?”,如果概率很小,我们不会浪费时间轮询。

我在考虑泊松分布。在开始时,您必须使用相同的频率轮询每个提要,一旦您获得足够的数据,您就可以开始使用它。您还可以使用您收集的数据每月更新提要模型。

您的提要之间很可能存在相关性,但作为简单的开始考虑提要独立是一个不错的选择。