如何根据观察到的作品进行词汇估计?

数据挖掘 Python scikit-学习 回归 线性回归 模型选择
2022-02-16 04:36:34

下面是我正在处理的数据集的散点图。X 轴是特定个人每篇文章的总字数,Y 轴是唯一字数。原则上,唯一词的数量应接近个人词汇量。

我试图从下面的数据中找到那个人的词汇,但我不知道什么样的适合会起作用。对数没有限制,二次拟合没有意义(梯度应该在整个域上保持非负)。

简而言之,我正在寻找适合以下数据的体面模型,但不知道从哪里开始。

谢谢你。

数据集的散点图

1个回答

在我看来,这个估计不能仅仅基于这个图来实现,因为:

  1. 从 4000 字开始,每 2K 字的唯一字数线性增加约 250 个:(4K, 1.25K), (6K, 1.5K), (8K, 1.75K), (10K, 2K), (12K, 2.25K) . 所以没有足够的证据来假设这种线性增长的上限,

  2. 平均而言,一个成年人知道 20K-35K 的唯一词,但这个情节只上升到 2K,远远落后于最终的预期值。从 2K 到 20K 的推断是不可靠的。

莎士比亚的词汇

一个人的词汇量的估计是相当复杂的。下面是一篇估计莎士比亚词汇量的论文。他在所有著作中都使用了 31K 个独特的单词。该论文估计他至少知道了 35K 多个他没有使用的单词(至少 66K 词汇)。如您所见,估计的词汇量仅为观察值的两倍,这揭示了从 2K 到 20K 甚至更高的不可靠性。

1976 估计看不见的物种的数量 - 莎士比亚知道多少单词