对特定 n-gram 的搜索是否与字符串搜索相同?

数据挖掘 搜索 定义 正则表达式 ngram
2022-03-11 07:11:25

搜索特定 n-gram(如 sherlock+holmes)的结果是否等于在同一文档语料库中搜索“sherlock holmes”的正则表达式搜索结果?

所以,如果我读到某些单词的 n-gram,这和普通的字符串搜索一样吗?

例子:

https://books.google.com/ngrams/

https://books.google.com/ngrams/info

1个回答

好吧,正如您所说的那样,搜索某个字符串/单词序列确实与查找相应的 n-gram 相同。

但是,请记住,当您将 n-gram 用于 ML 时,(通常)被表示为一个因子。因此,特定的单词或字符串序列被认为携带有价值的信息。就像“约翰·福尔摩斯”和“夏洛克·福尔摩斯”一样,在识别书名或封面方面。

一般来说,一个 n-gram 只是一个特定的单词/字符串序列,它比一个单词/字符串携带更多的信息。