我必须在我的数据(非结构化)预处理研究中使用哪些指标?

数据挖掘 文本挖掘 数据清理 信息检索 主题模型 预处理
2022-03-12 08:04:35

我目前正在处理非结构化数据(电子邮件、日志、错误报告和 irc 聊天)。

我希望证明预处理可以提高内容质量。

是否有可用的指标来证明这一点?即比较原始数据和预处理数据,并在数字上显示出一些质量改进。

内容质量——我的意思是,预处理的语料库比原始语料库更适合使用主题模型进行挖掘。

我知道困惑。我不想使用这个指标,因为它只评估主题模型的性能而不是语料库。我还希望在应用主题模型之前评估语料库的质量。

主题连贯性可以作为衡量语料库质量的指标吗?可以从预处理文档中生成比原始文档更连贯的主题吗?

1个回答

语料库质量可以通过 zipf 定律、词汇增长曲线和帕累托分布来确定。可以在以下位置找到解释这一点的有趣论文

http://ilk.uvt.nl/downloads/pub/papers/hait/camp2008.pdf