数据挖掘 - 多类别投票的置信区间 - 吾爱随笔录

我有一个基于 ngram 的语言模型，它为给定的句子生成一个长标签列表。例如，前面的句子，分解成二元组，并贯穿模型可能会产生如下内容：

{我有}=>C1 {有一个}=>C2 {an ngram}=>C1 {ngram based}=>C3 等。

导致计数：C1=2，C2=1，C3=1（对于上面显示的段）。

很容易通过对计数进行排序或将它们转换为百分比来选择获胜者，这将控制句子的长度。但我想要那个获胜者的 CI——也就是说，我想知道它何时是前 N 个类别之间的统计平局（按计数或百分比）。

我确信有一种明显的方法可以做到这一点......

...指针赞赏！