解析 n-gram 的文本时 - 是否应包括标点符号?

机器算法验证 机器学习 数据挖掘
2022-03-22 08:25:39

我想通过解析文本开始进行数据挖掘。似乎最好的起点是从文本中处理 n-gram 来尝试情绪分析。

Muffins are fine, I wouldn't say I like them though.

但是,我很想知道是否应该包含标点符号。(我计划从 3 克开始并逐步完善,因为我不确定 2 克是否包含足够的信息以获得准确的结果。)

Muffins are fine | are fine [,] | I wouldn't say | ....

由于找到了“,”,因此从“,”之后的下一个单词重新开始。而不是像往常一样包含标点符号。

Muffins are fine | are fine , | fine , I | , I wouldn't | ...

谁能告诉我这是不是一个坏主意?

2个回答

这里有一个提示:Google 在 n-gram 中不包含标点符号。

Google 会忽略标点符号,但有一些非字母数字字符不会被忽略。

例如,搜索这些单词/短语:

  • 技术规格
  • 技术规格
  • 技术,规格
  • 技术规格

搜索结果各不相同,表明谷歌确实认为某些字符很重要。

另外,你是用非英语语言做的吗?

如果是这样,那么考虑从一定数量的字符而不是单词创建 n-gram。这将在许多非英语语言上产生更好的结果,并且这是有效解析不使用重要空格的 CJK 类型语言的唯一方法。