搜索特定 n-gram(如 sherlock+holmes)的结果是否等于在同一文档语料库中搜索“sherlock holmes”的正则表达式搜索结果?
所以,如果我读到某些单词的 n-gram,这和普通的字符串搜索一样吗?
例子:
搜索特定 n-gram(如 sherlock+holmes)的结果是否等于在同一文档语料库中搜索“sherlock holmes”的正则表达式搜索结果?
所以,如果我读到某些单词的 n-gram,这和普通的字符串搜索一样吗?
例子:
好吧,正如您所说的那样,搜索某个字符串/单词序列确实与查找相应的 n-gram 相同。
但是,请记住,当您将 n-gram 用于 ML 时,(通常)被表示为一个因子。因此,特定的单词或字符串序列被认为携带有价值的信息。就像“约翰·福尔摩斯”和“夏洛克·福尔摩斯”一样,在识别书名或封面方面。
一般来说,一个 n-gram 只是一个特定的单词/字符串序列,它比一个单词/字符串携带更多的信息。