我最初在堆栈溢出时问过这个问题并被引用到这个站点,所以这里是:
我正在实施一些基于内容选择/提取的文档摘要的无监督方法,我对我的教科书所说的“对数似然比”感到困惑。Jurafsky & Martin 的《语音和语言处理》一书简要描述了它:
单词的 LLR,通常称为 lambda(w),是假设两个语料库中的概率相等,在输入语料库和背景语料库中观察到 w 的概率与假设两个语料库中观察到 w 的概率之间的比率w 在输入和背景语料库中。
打破它,我们有分子:“假设两个语料库中的概率相等,在输入和背景语料库中观察 w 的概率” - 我如何计算在这里使用的概率?
和分母:“假设输入和背景语料库中 w 的概率不同,观察 w 的概率”。- 这是否就像输入中出现的单词的概率乘以语料库中出现的单词的概率一样简单?前任:
(count(word,input) / 输入总词数) * (count(word,corpus) / 语料库总词数)
我一直在查看我的书参考文献,Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993),但我发现很难与在基于提取的摘要中计算单个单词的 LLR 值的问题联系起来。这里的任何澄清将不胜感激。