数据挖掘 - 分析句子时的平均类型 - 吾爱随笔录

我有一个文本语料库中的单词列表及其频率。因此，诸如“a”、“what”、“some”之类的词具有非常高的频率，而其他诸如“neurodegeneration”之类的词则不太受欢迎。

我想通过为每个单词分配分数来分析句子，然后确定一个句子是否更“技术性”，或者比其他句子更具体。例如：

“我有一只狗和一只猫。” 与“线粒体是细胞的动力源。”

我想只计算这些频率的平均值，但有时我有这样一句话：

“偏头痛是一种严重的头痛。” , 平均为 640, 和

“非全纯连续函数的典型例子是复共轭和取实部。” ，平均有 600 个，因为有很多很短、很常用的词。

有没有更好的方法来评估这些句子以给出更真实的分数或平均值，这将表明它们有多“利基”？