如何判断一个英文句子的复杂度?

数据挖掘 机器学习 分类 nlp 文本挖掘
2021-10-01 07:16:52

我正在开发一个应用程序来帮助人们学习英语作为第二语言。我已经验证了句子通过提供额外的上下文来帮助学习一门语言。我通过在一个有 60 名学生的教室里进行一项小型研究来做到这一点。

我从 Wikipedia 中挖掘了超过十万句各种英语单词(包括 Barrons 的 800 个单词和 1000 个最常见的英语单词)

完整数据可在https://buildmyvocab.in获得

为了保持内容的质量,我过滤掉了超过 160 个字符的句子,因为它们可能难以理解。

作为下一步,我希望能够自动按照易于理解的顺序对这些内容进行排序。我自己是一个非英语母语人士。我想知道我可以使用哪些功能来区分简单句子和困难句子。

另外,你觉得这可能吗?

1个回答

是的。有各种指标,例如雾指数。 python 中的Textacy有一个很好的列表和实现。

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}