在删除标点符号和词形还原后,我正在构建 ngrams。该算法用于检测大量文本中的关键字。
我担心 2 个文件
孩子玩红球。
和
标志是红色的。球是孩子们的玩具。
都将包含“红球”。这里有最佳实践吗?理想情况下,我不希望第二个文档与第二个文档具有相同的“红球”值。
在删除标点符号和词形还原后,我正在构建 ngrams。该算法用于检测大量文本中的关键字。
我担心 2 个文件
孩子玩红球。
和
标志是红色的。球是孩子们的玩具。
都将包含“红球”。这里有最佳实践吗?理想情况下,我不希望第二个文档与第二个文档具有相同的“红球”值。
n-gram 模型通常是在分割成单词和句子之后建立的。如果数据是按句子分割的,那么很容易避免句子之间的任何重叠:人们可以简单地逐句独立地提取 n-grams。如果一次提取所有 n-gram 更方便,可以使用填充来标记句子的开头/结尾,如下所示:
标志是红色的#SENT#球是孩子们的玩具#SENT#
处理不标记句子结尾的其他标点符号可能会有点棘手,特别是如果您想保留跨越某些标点符号的关键字的可能性(例如在“red-handed”或“ tl;博士“)。