数据挖掘 - 如何根据观察到的作品进行词汇估计？ - 吾爱随笔录

数据挖掘 Python scikit-学习回归线性回归模型选择

2022-02-16 04:36:34

下面是我正在处理的数据集的散点图。X 轴是特定个人每篇文章的总字数，Y 轴是唯一字数。原则上，唯一词的数量应接近个人词汇量。

我试图从下面的数据中找到那个人的词汇，但我不知道什么样的适合会起作用。对数没有限制，二次拟合没有意义（梯度应该在整个域上保持非负）。

简而言之，我正在寻找适合以下数据的体面模型，但不知道从哪里开始。

谢谢你。

1个回答

在我看来，这个估计不能仅仅基于这个图来实现，因为：

从 4000 字开始，每 2K 字的唯一字数线性增加约 250 个：(4K, 1.25K), (6K, 1.5K), (8K, 1.75K), (10K, 2K), (12K, 2.25K) . 所以没有足够的证据来假设这种线性增长的上限，
平均而言，一个成年人知道 20K-35K 的唯一词，但这个情节只上升到 2K，远远落后于最终的预期值。从 2K 到 20K 的推断是不可靠的。

莎士比亚的词汇

一个人的词汇量的估计是相当复杂的。下面是一篇估计莎士比亚词汇量的论文。他在所有著作中都使用了 31K 个独特的单词。该论文估计他至少知道了 35K 多个他没有使用的单词（至少 66K 词汇）。如您所见，估计的词汇量仅为观察值的两倍，这揭示了从 2K 到 20K 甚至更高的不可靠性。

其它你可能感兴趣的问题