在处理文本数据时,在什么情况下词形还原不是一个明智的步骤?

数据挖掘 nlp 数据清理
2021-10-01 16:30:27

忽略可能的计算限制,在分析文本数据时,是否存在词形还原会适得其反的一般应用?

例如,词形还原是不是在构建上下文感知模型时不做的事情?

作为参考,每个 dictinory.com 的词形还原是将(单词)的变形形式组合在一起以作为单个项目进行分析的行为。

例如,单词“cook”是单词“cooking”的引理。例如,词形还原的行为是在您对文本数据进行标记后将单词 cook 替换为 cook。此外,“worse”这个词有“bad”作为它的引理,就像前面的例子一样,用“bad”替换“worse”这个词是词形还原的动作。

1个回答

会受到词形还原损害的 NLP 任务:

1) 时态分类

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

动词末尾的字符序列可以帮助完成这项任务。动词cookedcooks分别在最后一个字符eds处不同。

通过词形还原,这些信息会丢失。两个动词都变成了cook,使两个句子(在这种情况下)看起来都是现在时。

2) 作者身份

给定

  • 一组文件 P 作者写的 a,
  • 一组文件 Q 作者写的 b,
  • 一组文件 S 由任一作者撰写 a 或者 b,

对文档进行分类 sS 是作者写的 a 或者 b.

实现这一点的一种方法是查看单词的直方图 s 并将其与来自的文档进行比较 PQ 并选择最相似的一个。

这是有效的,因为不同的作者使用不同频率的某些词。但是,通过使用词形还原,您会扭曲这些频率,从而损害模型的性能。