数据挖掘 - 标点去除对关键字生成的 n gram 检测的影响 - 吾爱随笔录

数据挖掘 nlp

2022-02-07 20:36:05

在删除标点符号和词形还原后，我正在构建 ngrams。该算法用于检测大量文本中的关键字。

我担心 2 个文件

孩子玩红球。

和

标志是红色的。球是孩子们的玩具。

都将包含“红球”。这里有最佳实践吗？理想情况下，我不希望第二个文档与第二个文档具有相同的“红球”值。

1个回答

n-gram 模型通常是在分割成单词和句子之后建立的。如果数据是按句子分割的，那么很容易避免句子之间的任何重叠：人们可以简单地逐句独立地提取 n-grams。如果一次提取所有 n-gram 更方便，可以使用填充来标记句子的开头/结尾，如下所示：

标志是红色的#SENT#球是孩子们的玩具#SENT#

处理不标记句子结尾的其他标点符号可能会有点棘手，特别是如果您想保留跨越某些标点符号的关键字的可能性（例如在“red-handed”或“ tl;博士“）。

其它你可能感兴趣的问题