机器算法验证 - 使用统计工具进行时间序列预测 - 吾爱随笔录

使用统计工具进行时间序列预测

机器算法验证预测有马推理

2022-04-04 05:56:24

我正在构建一个需要以智能方式轮询一些文章提要的系统。投票的时候只能知道新文章的数量（可能是 $0$ - 没有新文章）。我没有每篇文章发表时的信息。

所以我想到了一个相对简单的解决方案：指数移动平均线。就像是：

t_{n} = α \cdot t_{n - 1} + (1 - α) \cdot p

$t_n = \alpha\cdot t_{n-1} + (1-\alpha)\cdot p$

在哪里 $p$ 是最后一次投票到最后一次成功投票的时间差（所以如果没有新文章， $p$ 越来越大，所以 $t_n$ 是）。

要求和想法

我想对上述公式进行批评（您会以不同的方式定义它吗？）
我该如何定义 $\alpha$ 有效率的？它会随着时间的推移而动态/变化吗？
我已经阅读了用于预测时间序列的更复杂的统计工具（如 ARMA/ARIMA）。他们中的大多数使用错误（预测时间和实际时间之间的时间差），但遗憾的是，我不拥有这些信息。什么统计模型适合我的场景？
目前，我不使用文章的数量，尽管它们可能有助于评估下一次民意调查。

谢谢！

PS
我还没有检查过，但我认为提要的行为有点时尚/季节性（例如，晚上的文章较少）。另一方面，如果我没记错的话，还有所谓的“随机冲击”（例如恐怖袭击）。

2个回答

显然，您拥有的唯一信息是在提要上发布的天数和新闻文章的数量。

我认为您真正要问的是“这个新闻提要值得我努力投票吗？” 所需的答案是“是或否”。

因此，您实际上想要执行逻辑回归。逻辑回归的结果是一个概率，在您的情况下，是您是否应该轮询新闻提要的概率。制作模型后，您需要确定行动阈值：也许对于 Feed A（这非常重要），如果概率 > 75%，您希望对其进行轮询，但对于 Feed B（也许它不那么重要） ) 您可能决定设置更高的阈值，可能仅在新提要的概率 > 90% 时才进行轮询。

在您的情况下，您有一个额外的组件 - 您认为整个过程涉及的时间相关数据。

我建议创建移动窗口逻辑回归（如线性回归的示例）。当然，您必须根据您提前进行的一些建模来调整要在模型中加入的天数，当然您还必须定期评估您的模型！

请不要生气，我是新手。我的想法比你的还要简单。

所以你必须以一种聪明的方式进行投票，也就是说，当提要上有新闻文章的可能性更高时。在我看来，重点是：“从中获得新文章的概率是多少？ $feed_n$ 如果今天我轮询它？”，如果概率很小，我们不会浪费时间轮询。

我在考虑泊松分布。在开始时，您必须使用相同的频率轮询每个提要，一旦您获得足够的数据，您就可以开始使用它。您还可以使用您收集的数据每月更新提要模型。

您的提要之间很可能存在相关性，但作为简单的开始考虑提要独立是一个不错的选择。

其它你可能感兴趣的问题