机器算法验证 - 如何比较连续时间序列计数数据中的发生率？ - 吾爱随笔录

机器算法验证时间序列置信区间泊松分布计数数据 skellam分布

2022-04-19 08:10:43

我的数据由时间窗口中出现的单词组成。例如：

Day; Word; Frequency
1; "dog"; 45
1; "cat"; 2
...
2; "dog"; 90
2; "cat"; 4
...

我想估计所有日常差异的比率（即，对于狗日 1->2：90-45/45 = 100%）。对于猫来说，增加也是 100%，但由于样本量小，我想以某种方式量化它“不那么值得信赖”。

这里提出了类似的（对于二项式数据）：

http://www.evanmiller.org/how-not-to-sort-by-average-rating.html

但是对于计数数据，它并不完全相同......

任何想法都是最受欢迎的。

1个回答

为了让事情变得非常简单，您可以考虑使用简单的均值/标准差启发比率，有点像 z 分数？

如果假设两天的计数和和的泊松随机样本，那么字数的变化遵循 Skellam 分布，均值和方差 $X_1$ $X_2$ $\lambda_1$ $\lambda_2$ $\lambda_2-\lambda_1$ $\lambda_2+\lambda_1$

采用简单的点估计，我认为因此构建以下内容是合理的：

$\mathrm{Score} = \frac{X_2 - X_1}{\sqrt{X_2+X_1}}$

所以在你的例子中，

$\mathrm{Score_{dog}} = \frac{45}{\sqrt{135}} = 3.87$

$\mathrm{Score_{cat}} = \frac{2}{\sqrt{6}} = 0.816$

如果您对您真正想要检测的内容有一个深刻的了解，您可以考虑更困难的推论，但根据您的描述，我认为上面的内容会很好而且简单，并且可以大致捕捉到您想要的行为。

其它你可能感兴趣的问题