我有一个文本语料库中的单词列表及其频率。因此,诸如“a”、“what”、“some”之类的词具有非常高的频率,而其他诸如“neurodegeneration”之类的词则不太受欢迎。
我想通过为每个单词分配分数来分析句子,然后确定一个句子是否更“技术性”,或者比其他句子更具体。例如:
“我有一只狗和一只猫。” 与“线粒体是细胞的动力源。”
我想只计算这些频率的平均值,但有时我有这样一句话:
“偏头痛是一种严重的头痛。” , 平均为 640, 和
“非全纯连续函数的典型例子是复共轭和取实部。” ,平均有 600 个,因为有很多很短、很常用的词。
有没有更好的方法来评估这些句子以给出更真实的分数或平均值,这将表明它们有多“利基”?