机器算法验证 - 组合 n-gram - 吾爱随笔录

机器算法验证文本挖掘

2022-03-29 18:33:39

在文本挖掘中，如果我们计算了 n-gram 计数，比如说 $n=1\ldots4$ , 有没有一种原则性的方法来组合它们，而不是仅仅连接 $tf-idf$ 每个矩阵？（如果我们要为每个内核构建内核矩阵，则相当于内核的未加权总和）。例如 google 的 n-gram 查看器：

表明他们从 unigrams 到 5-grams 进行计算，但他们没有说明它们是如何组合的。

1个回答

不确定这是否是您要查找的内容，但您可能想查看Katz backoff。这需要训练 vanilla n- gram 模型 $1 \le n \le N$ ，然后当所讨论的n- gram 没有比某个频率阈值更频繁地观察到时，通过“退避”到 ( n -1)-gram 模型来估计大n的概率。

其它你可能感兴趣的问题