文档摘要中的对数似然比

机器算法验证 自然语言 文本摘要
2022-03-13 03:58:49

我最初在堆栈溢出时问过这个问题并被引用到这个站点,所以这里是:

我正在实施一些基于内容选择/提取的文档摘要的无监督方法,我对我的教科书所说的“对数似然比”感到困惑。Jurafsky & Martin 的《语音和语言处理》一书简要描述了它:

单词的 LLR,通常称为 lambda(w),是假设两个语料库中的概率相等,在输入语料库和背景语料库中观察到 w 的概率与假设两个语料库中观察到 w 的概率之间的比率w 在输入和背景语料库中。

打破它,我们有分子:“假设两个语料库中的概率相等,在输入和背景语料库中观察 w 的概率” - 我如何计算在这里使用的概率?

和分母:“假设输入和背景语料库中 w 的概率不同,观察 w 的概率”。- 这是否就像输入中出现的单词的概率乘以语料库中出现的单词的概率一样简单?前任:

(count(word,input) / 输入总词数) * (count(word,corpus) / 语料库总词数)

我一直在查看我的书参考文献,Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993),但我发现很难与在基于提取的摘要中计算单个单词的 LLR 值的问题联系起来。这里的任何澄清将不胜感激。

2个回答

以我有限的知识,我认为:

  1. “在输入中观察 w 的概率”需要一个分布来计算值
  2. “假设两个语料库中的概率相等,在输入语料库和背景语料库中观察到 w 的概率”是指“观察到 w 的可能性……假设 w 在两个语料库中的概率相等”。

这是我的配方:


稍微阐述一下问题:

  1. 假设1: P(输入中的w)= P(背景中的w)= p
  2. 假设 2: P(w in input) = p1 and P(w in background) = p2 and p1p2

关键部分是您需要在这里假设一个分布。简单地说,我们假设在文本中生成 w 的二项分布。给定样本数据,我们可以使用最大似然估计来计算 p、p1 和 p2 的值,它们是:

  1. p = (输入 w 计数 + 背景 w 计数) / (输入大小 + 背景大小) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

我们想知道哪个假设更有可能。因此,我们计算每个假设的可能性并相互比较(这基本上是似然比所做的)。

由于我们假设二项分布,我们可以计算出 c1 和 c2 的可能性。

对于假设 1:

L(c1) = 在输入中观察到 w 的概率 = 当有 N1 个单词时达到 c1 的可能性,假设概率 p(或者换句话说,在 N1 次中为 c1 次选择 w)为 b(N1, c1 , p) -- 请看这里的二项式概率公式

L(c2) = 在背景中观察到 w 的概率 = 当有 N2 个单词时,假设概率 p 为 b(N2, c2, p),实现 c2 的可能性

对于假设 2,我们可以使用 p1 和 p2 代替。

现在我们想知道哪个假设更有可能;我们将需要一些如何比较每个假设的输出值。

但是每个假设都有 2 个值,L(c1) 和 L(c2)。我们如何比较哪个假设更有可能?--- 我们选择将它们相乘以实现单值输出。(因为它类似于几何,我猜)

我想举一个例子并使用问题中的定义。

假设有一个单词 w 在 30 字的文档 d 中出现一次:

C(d) = 1
N(d) = 30
// the probability of w in the input = p(d) = 1/30

假设背景语料库有 4000 个词,w 出现 20 次:

C(b) = 20
N(b) = 4000
// the probability of w in the corpus = p(b) = 20/4000 = 1/200

一个词的 LLR,通常称为 lambda(w),是 (假设两个语料库中的概率相等,在输入语料库和背景语料库中观察到 w 的概率)与在两者假设不同的情况下观察到 w 的概率之间的比率w 在输入和背景语料库中的概率。

假设在两个语料库中的概率相等,在输入语料库和背景语料库中观察到 w 的概率:

[C(d)+C(b)]/[N(d)+N(b)] = p = (1+20)/(30+4000)

计算: 在此处输入图像描述