自动文本质量分级

机器算法验证 机器学习 文本挖掘
2022-04-01 07:34:43

我想出了一个想法,使用机器学习对特定主题的文本进行自动评分。

更具体地说,我将首先使用普通文本分类技术将所有候选文本分类为主题。然后,我希望能够判断特定主题的文本质量

例如,不同主题(技术、体育、国际、商业等)的新闻文章。首先,每篇文章将被归类为一个主题。然后我要归档的是根据 1-10 或好/差的范围自动对这篇“技术”文章进行评分。

这种评分方案的标准可能是:

  • 精雕细琢(细节丰富)
  • 涵盖所有关键词
  • 长度?

(其实量化标准对我来说有点困难。这里的评分标准可以和人类本能地快速判断同一个故事的两篇文章质量的标准非常相似。)

但是,我认为,基于“词袋”的文本分类可能无法很好地执行此任务。(或者会吗?)

我相信这样的任务是经过充分研究的,甚至是一个完整的领域而不是文本分类。但我还没有弄清楚如何通过四处搜索来做到这一点。如果文本分类可以处理,请您参考相关技术/讨论/名称或给我一些提示。

提前谢谢了。

3个回答

有两个基本组成部分,技术分析(语法、句子长度等)和机器学习/统计分析。

最好的(恕我直言)论文是那些涉及自动论文评分的论文。这有点过时了,但本文涵盖了所有主要供应商采用的技术。

ETS(托福和 GRE 背后的人)在这个领域投入了大量的工作,他们对他们的研究出奇地开放。他们遇到的墙是长度和特异性。他们只能对简短且有特定提示的论文进行评分(准确度很高)。

我看到的最大问题是所有这些评分工具都是基于机器学习的。甚至 ETS 也使用他们的评分器作为人工评分器的备份;他们支付 1 个人来评分,如果他们的评分与 ML 评分不匹配,则将论文交给另一个人类评分者。它基本上将他们的成本降低了一半,但它并没有取代人类评分者。

如果您真的想尝试对临时文本进行分析,您可能需要使用可以访问大量非结构化文本的 API,例如OpenCalaisAlchemyAPI甚至Zamenta进行分类,然后进行自己的质量分析。但是,这有点超出我的薪酬范围。

更新Jonny 的回答真的没有得到足够的信任。如果您真的关心内容质量,那么分析网络连接和其他人类行为测量是非常有价值的。再说一次,我不是这个领域的专家!

如果您能告诉我们我们的准确性/有效性要求是什么,将会有所帮助。

实际上,如果您想判断作品的质量,您可能需要使用 Google Pagerank之类的东西来解决这个问题。因此,例如,如果一篇特定的论文被脚注或在许多其他论文中引用,那么与从未被脚注的论文相比,它更有可能成为备受推崇的论文。

我认为与质量有高度相关性的另一个因素是作者。虽然并不完美,但可以合理地假设诺贝尔奖获得者在其专业领域内的作品往往比以前从未发表过的人的第一部作品质量更高。

第三,你可以考虑出版商。来自同行评审期刊的文章应该比来自小报的文章质量更高。

你提到的一些项目的问题是它们要么与质量无关(例如长度,用这种方法衡量林肯的葛底斯堡地址会失败),要么几乎不可能得分。

假设我写了一篇关于太阳系的论文,并给出到月球的距离为 500,000 英里,并说太阳在该距离的一半处,温度为 27 开氏度。您的程序能否验证或反驳这些“事实”?它会在详细说明上得分很高(很多细节,完全错误)。至于关键字,我们都知道关键字填充。

但是,您可以通过程序轻松获得一些分数,例如阅读水平(雾指数)。

更多的是评论而不是答案,但我怀疑尝试在单个(非自适应)分数中捕获特定文档的质量是 YMMV 的典型示例。例如,在技术背景下,用户可能会认为质量意味着对特定问题的深入处理、对不同技术的调查、专家的立场声明或任何其他各种质量衡量标准,每一个都取决于他们希望如何使用他们从文件中获得的信息。此外,根据用户的技术复杂程度,可以预期不同的用户对相同的文档有不同的评价,即使他们有相似的目标。

另一方面,这正是推荐系统(Netflix 评级、亚马逊推荐等)面临的问题(并且可能在当前的技术状态下已部分解决)。我不是这类方法的专家,但毫无疑问,这里的其他人是。对于您的问题,我可能会在该领域开始我的文献搜索。