我想出了一个想法,使用机器学习对特定主题的文本进行自动评分。
更具体地说,我将首先使用普通文本分类技术将所有候选文本分类为主题。然后,我希望能够判断特定主题的文本质量:
例如,不同主题(技术、体育、国际、商业等)的新闻文章。首先,每篇文章将被归类为一个主题。然后我要归档的是根据 1-10 或好/差的范围自动对这篇“技术”文章进行评分。
这种评分方案的标准可能是:
- 精雕细琢(细节丰富)
- 涵盖所有关键词
- 长度?
(其实量化标准对我来说有点困难。这里的评分标准可以和人类本能地快速判断同一个故事的两篇文章质量的标准非常相似。)
但是,我认为,基于“词袋”的文本分类可能无法很好地执行此任务。(或者会吗?)
我相信这样的任务是经过充分研究的,甚至是一个完整的领域而不是文本分类。但我还没有弄清楚如何通过四处搜索来做到这一点。如果文本分类可以处理,请您参考相关技术/讨论/名称或给我一些提示。
提前谢谢了。