在计算词汇丰富度(例如 TTR)时,您是否首先进行词形还原?

数据挖掘 nlp
2022-02-16 23:53:00

在计算 Type-Token Ration (TTR) 和 Hapax 丰富度(以及类似的度量)时,您是否首先对语料库进行词形还原?

1个回答

据我所知,没有标准的方法来使用诸如类型令牌比率(TTR)之类的词汇密度度量。

将 TTR 应用于原始标记化文本是很常见的,尤其是在没有合适的词形还原器可用或词形还原有引入错误的风险的情况下。否则,据我所知,没有任何强有力的理由。但是,重要的是要始终如一地进行:如果要比较不同文本之间的 TTR,则应该以相同的方式计算 TTR。