我有一个基于 ngram 的语言模型,它为给定的句子生成一个长标签列表。例如,前面的句子,分解成二元组,并贯穿模型可能会产生如下内容:
{我有}=>C1 {有一个}=>C2 {an ngram}=>C1 {ngram based}=>C3 等。
导致计数:C1=2,C2=1,C3=1(对于上面显示的段)。
很容易通过对计数进行排序或将它们转换为百分比来选择获胜者,这将控制句子的长度。但我想要那个获胜者的 CI——也就是说,我想知道它何时是前 N 个类别之间的统计平局(按计数或百分比)。
我确信有一种明显的方法可以做到这一点......
...指针赞赏!