数据挖掘 - 处理各种文本数据 - 吾爱随笔录

数据挖掘分类 nlp

2021-09-29 15:27:44

我目前正在使用具有各种文档长度的数据集——从单个单词到整页文本。此外，语法结构和标点符号的使用因文档而异。目标是将这些文档分类为大约 10-15 个类别之一。我目前正在对任务使用岭回归和逻辑回归，对岭的 alpha 值使用 CV。特征向量是 tf-idf ngram。

最近我注意到较长的文档不太可能被分类。为什么会出现这种情况，如何才能“标准化”这种变化？作为一个更普遍的问题，人们通常如何处理不同的数据集？是否应该根据文档长度、标点符号的使用、语法严谨性等指标对文档进行分组，然后通过不同的分类器进行输入？

1个回答

我不确定您如何将回归框架应用于文档分类。我解决问题的方法是应用标准的判别分类方法，例如 SVM。

在判别分类方法中，数据点（在这种情况下为文档）之间的相似性或反向距离的概念是关键。对于文档来说幸运的是，有一种定义成对相似度的标准方法。这是标准的余弦相似度度量，它利用文档长度归一化来考虑不同的文档长度。

因此，实际上，在余弦相似度中，您将使用由文档长度归一化的相对术语权重，因此文档长度多样性不应成为相似度计算中的主要问题。

在术语权重中应用 idf 时也必须小心。如果文档的数量不是很大，则 idf 度量可能在统计上不精确，因此会给术语权重添加噪声。忽略停用词和标点符号也是一种标准做法。

其它你可能感兴趣的问题