预测新时间序列的结果(邮寄)

数据挖掘 时间序列 预言
2022-02-21 13:56:20

我们定期就各种主题对我们的会员进行调查,但总是提出相同的问题(基本上,你喜欢它吗?是或否),我们根据回答的内容和参与调查的人数对他们进行分类。

当我们发送电子邮件时,我们希望能够知道在什么时间点我们可以估计最终结果(有多少人会填写,是的百分比)很可能是我们现在的结果。

我们确实处理了之前的调查,我们可以看到在 6 或 12 小时后,结果与最终调查相似(即,当我们在邮寄后等待一个多星期时)。显然,周五晚上 8 点发送的调查比周二上午 9 点发送的调查需要更长的时间才能得出结论。它们也是其他因素,例如,如果我们的邮件提供商遇到延迟交付,那么我们当然需要等待更长的时间。

有没有办法知道要等待多长时间(3、6、12……小时?)才能得到可靠的结果预测?

是否有一种算法可以在任何时间点预测结果并估计估计正确的可能性(p 值)?

1个回答

分两部分考虑这个问题。

第 1 部分)您需要多少样本才能对零假设具有所需的置信度?

第 2 部分)获得这么多样本需要多长时间?

第 1 部分可以用 A-priori power analysis 来回答。使用此技术来确定获得所需 p 值所需的样本量。

第 2 部分可以通过应用于您迄今为止收集的数据的算法来解决。在这种情况下,您的预测因素是:

第 1 列:您感兴趣的统计数据趋于平稳的概率(不会因额外输入而显着变化)。

第 2 列:日期/日期/时间开始。您可能需要对此进行编码。

第 3 列:完成时的样本数。这些应该是您从之前的分析中确定的数字。

在这种情况下,您的响应/输出将是:

第 4 列:日期/日期/时间完成。

当然需要做一些数据分析来确定在这个数据集上使用合适的算法。最终产品应该是一个函数,该函数将目标概率、日期/日期/时间开始和目标样本量作为输入,同时输出日期/日期/时间结束。

我希望这至少能给你一些关于如何进行的想法。