我的数据由时间窗口中出现的单词组成。例如:
Day; Word; Frequency
1; "dog"; 45
1; "cat"; 2
...
2; "dog"; 90
2; "cat"; 4
...
我想估计所有日常差异的比率(即,对于狗日 1->2:90-45/45 = 100%)。对于猫来说,增加也是 100%,但由于样本量小,我想以某种方式量化它“不那么值得信赖”。
这里提出了类似的(对于二项式数据):
http://www.evanmiller.org/how-not-to-sort-by-average-rating.html
但是对于计数数据,它并不完全相同......
任何想法都是最受欢迎的。