如何根据观察到的作品进行词汇估计?
数据挖掘
Python
scikit-学习
回归
线性回归
模型选择
2022-02-16 04:36:34
1个回答
在我看来,这个估计不能仅仅基于这个图来实现,因为:
从 4000 字开始,每 2K 字的唯一字数线性增加约 250 个:(4K, 1.25K), (6K, 1.5K), (8K, 1.75K), (10K, 2K), (12K, 2.25K) . 所以没有足够的证据来假设这种线性增长的上限,
平均而言,一个成年人知道 20K-35K 的唯一词,但这个情节只上升到 2K,远远落后于最终的预期值。从 2K 到 20K 的推断是不可靠的。
莎士比亚的词汇
一个人的词汇量的估计是相当复杂的。下面是一篇估计莎士比亚词汇量的论文。他在所有著作中都使用了 31K 个独特的单词。该论文估计他至少知道了 35K 多个他没有使用的单词(至少 66K 词汇)。如您所见,估计的词汇量仅为观察值的两倍,这揭示了从 2K 到 20K 甚至更高的不可靠性。
其它你可能感兴趣的问题
