在文本挖掘中,如果我们计算了 n-gram 计数,比如说, 有没有一种原则性的方法来组合它们,而不是仅仅连接每个矩阵?(如果我们要为每个内核构建内核矩阵,则相当于内核的未加权总和)。例如 google 的 n-gram 查看器:
http://books.google.com/ngrams/datasets
表明他们从 unigrams 到 5-grams 进行计算,但他们没有说明它们是如何组合的。
在文本挖掘中,如果我们计算了 n-gram 计数,比如说, 有没有一种原则性的方法来组合它们,而不是仅仅连接每个矩阵?(如果我们要为每个内核构建内核矩阵,则相当于内核的未加权总和)。例如 google 的 n-gram 查看器:
http://books.google.com/ngrams/datasets
表明他们从 unigrams 到 5-grams 进行计算,但他们没有说明它们是如何组合的。
不确定这是否是您要查找的内容,但您可能想查看Katz backoff。这需要训练 vanilla n- gram 模型,然后当所讨论的n- gram 没有比某个频率阈值更频繁地观察到时,通过“退避”到 ( n -1)-gram 模型来估计大n的概率。