替代 Flesch 的可读性评分算法

数据挖掘 文本挖掘 算法
2021-10-07 20:23:15

我认识的某个人一直在使用 Flesch-Kincaide 可读性评分算法来衡量学生写作的好坏,以此作为他们学业成功的预测指标。他们大多不成功。

在参加 UCSD Coursera 课程时,我最近了解了这个算法,我相信他们缺乏成功只是对算法工作原理的基本误解。低分并不意味着写作差——任何为大学阅读能力而写的东西,例如美国法律和经典文学,都会获得低可读性分数。高可读性分数意味着更简单的写作,但并不意味着写作或多或少是正确的。因此,就熟练程度而言,它并没有真正衡量多少。

这就是要问这个问题——是否有其他算法或指标来衡量写作质量,哪个更有用?可能衡量正确语法和/或标点符号的东西?

我一直并且将继续自己寻找这个,但如果有人有任何知识可以分享,将不胜感激。

1个回答

ARIColeman-Liau基本上是相同的东西,但数字不同。

Gunning FogDale-Chall的相似之处在于它们是单词和句子有多“复杂”的简单函数,尽管至少它们吸引了“复杂单词”的概念,尽管这只是将问题推到了其他地方。

这样的事情越来越多,我知道你不是在找这个。

这可能是显而易见的,但如果我要建立这样的衡量标准,我会查看拼写错误和语法错误之类的东西。这些很可能自动检查。

鉴于RNN在以给定输入的风格再现文本方面的成功,我怀疑您可以非常成功地应用深度学习来了解文本的可读性,或者至少找出在高可读性或低可读性文本上训练的模型似乎找到了给定的新输入更有可能。