组合 n-gram

机器算法验证 文本挖掘
2022-03-29 18:33:39

在文本挖掘中,如果我们计算了 n-gram 计数,比如说n=14, 有没有一种原则性的方法来组合它们,而不是仅仅连接tfidf每个矩阵?(如果我们要为每个内核构建内核矩阵,则相当于内核的未加权总和)。例如 google 的 n-gram 查看器:

http://books.google.com/ngrams/datasets

表明他们从 unigrams 到 5-grams 进行计算,但他们没有说明它们是如何组合的。

1个回答

不确定这是否是您要查找的内容,但您可能想查看Katz backoff这需要训练 vanilla n- gram 模型1nN,然后当所讨论的n- gram 没有比某个频率阈值更频繁地观察到时,通过“退避”到 ( n -1)-gram 模型来估计大n的概率。