机器算法验证 - 解析 n-gram 的文本时 - 是否应包括标点符号？ - 吾爱随笔录

机器算法验证机器学习数据挖掘

2022-03-22 08:25:39

我想通过解析文本开始进行数据挖掘。似乎最好的起点是从文本中处理 n-gram 来尝试情绪分析。

Muffins are fine, I wouldn't say I like them though.

但是，我很想知道是否应该包含标点符号。（我计划从 3 克开始并逐步完善，因为我不确定 2 克是否包含足够的信息以获得准确的结果。）

Muffins are fine | are fine [,] | I wouldn't say | ....

由于找到了“，”，因此从“，”之后的下一个单词重新开始。而不是像往常一样包含标点符号。

Muffins are fine | are fine , | fine , I | , I wouldn't | ...

谁能告诉我这是不是一个坏主意？

2个回答

这里有一个提示：Google 在 n-gram 中不包含标点符号。

Google 会忽略标点符号，但有一些非字母数字字符不会被忽略。

例如，搜索这些单词/短语：

搜索结果各不相同，表明谷歌确实认为某些字符很重要。

另外，你是用非英语语言做的吗？

如果是这样，那么考虑从一定数量的字符而不是单词创建 n-gram。这将在许多非英语语言上产生更好的结果，并且这是有效解析不使用重要空格的 CJK 类型语言的唯一方法。

其它你可能感兴趣的问题