评估文本可信度的方法

数据挖掘 Python nlp 文本过滤器
2021-09-23 01:36:51

我正在寻找一种自动化方法(理想情况下是一个 python 包),它产生一个分数来评估给定文本(例如来自网页)的可信度

不是在寻找:

  • 文本复杂性评估(即句子有多长以及使用了多少难词),例如 flesch 阅读难易度、烟雾指数、flesch kincaid 等级、coleman liau 指数、自动可读性指数、dale chall 可读性评分、难词指数、linsear write公式,或喷射雾。
  • 文本连贯性(即下一个句子与前一个句子的吻合程度),例如基于深度神经网络的文本连贯性分析

为什么复杂性/连贯性的可信度不同?因为许多文本广告(例如顺势疗法)使用长而复杂的科学发音和复杂的单词加载句子,而在真实性方面却是胡说八道。因此,我想知道是否有任何方法可以自动评估给定文本/网页信息的可信度/可靠性?

2个回答

我认为没有什么可以做到这一点:

  • 甚至很难客观地定义任务,因为不同的人不会就可信与否达成一致。
  • 这将需要一个复杂的系统来表示可靠的背景知识......而且人们也不会同意什么应该被认为是“可靠的”。
  • 一般来说,NLP 的最新技术还远未以令人满意的方式解决与自然语言理解相关的任务。判断文本的可信度不仅需要对文本的真正理解,还需要更高层次的推理能力。目前尚不清楚是否可以达到这种人工智能水平。

如果您找到一个假装完成此任务的软件包,请尝试将其应用到它自己的文档中,因为它不可信;)

答案在最近的 14 页研究论文“在线数据的准确性评估”中得到了广泛的总结。

要点:

  • “发现了三个主要的真实性评估研究方向,即利用隐式特征、采用显式事实核查和诉诸权威方法。”
  • “真实性评估领域还比较不成熟。”

编辑:上述论文遗漏了 Credeye  / Deepeye ( https://gate.d5.mpi-inf.mpg.de/credeye/ ),这似乎是该领域唯一可以轻松测试/使用的方法 (?)其他人。