多类别投票的置信区间

数据挖掘 多类分类 nlp 计数
2022-02-18 03:29:48

我有一个基于 ngram 的语言模型,它为给定的句子生成一个长标签列表。例如,前面的句子,分解成二元组,并贯穿模型可能会产生如下内容:

{我有}=>C1 {有一个}=>C2 {an ngram}=>C1 {ngram based}=>C3 等。

导致计数:C1=2,C2=1,C3=1(对于上面显示的段)。

很容易通过对计数进行排序或将它们转换为百分比来选择获胜者,这将控制句子的长度。但我想要那个获胜者的 CI——也就是说,我想知道它何时是前 N 个类别之间的统计平局(按计数或百分比)。

我确信有一种明显的方法可以做到这一点......

...指针赞赏!

1个回答

我找到了如何做到这一点的简明描述。

(但请注意,这不适用于句子长度,因此它不是一个完整的解决方案,因为更长的句子会有更多的“投票”。)