如何比较连续时间序列计数数据中的发生率?

机器算法验证 时间序列 置信区间 泊松分布 计数数据 skellam分布
2022-04-19 08:10:43

我的数据由时间窗口中出现的单词组成。例如:

Day; Word; Frequency
1; "dog"; 45
1; "cat"; 2
...
2; "dog"; 90
2; "cat"; 4
...

我想估计所有日常差异的比率(即,对于狗日 1->2:90-45/45 = 100%)。对于猫来说,增加也是 100%,但由于样本量小,我想以某种方式量化它“不那么值得信赖”。

这里提出了类似的(对于二项式数据):

http://www.evanmiller.org/how-not-to-sort-by-average-rating.html

但是对于计数数据,它并不完全相同......

任何想法都是最受欢迎的。

1个回答

为了让事情变得非常简单,您可以考虑使用简单的均值/标准差启发比率,有点像 z 分数?

如果假设两天的计数的泊松随机样本,那么字数的变化遵循 Skellam 分布,均值和方差X1X2λ1λ2λ2λ1λ2+λ1

采用简单的点估计,我认为因此构建以下内容是合理的:

Score=X2X1X2+X1

所以在你的例子中,

Scoredog=45135=3.87

Scorecat=26=0.816

如果您对您真正想要检测的内容有一个深刻的了解,您可以考虑更困难的推论,但根据您的描述,我认为上面的内容会很好而且简单,并且可以大致捕捉到您想要的行为。