处理各种文本数据

数据挖掘 分类 nlp
2021-09-29 15:27:44

我目前正在使用具有各种文档长度的数据集——从单个单词到整页文本。此外,语法结构和标点符号的使用因文档而异。目标是将这些文档分类为大约 10-15 个类别之一。我目前正在对任务使用岭回归和逻辑回归,对岭的 alpha 值使用 CV。特征向量是 tf-idf ngram。

最近我注意到较长的文档不太可能被分类。为什么会出现这种情况,如何才能“标准化”这种变化?作为一个更普遍的问题,人们通常如何处理不同的数据集?是否应该根据文档长度、标点符号的使用、语法严谨性等指标对文档进行分组,然后通过不同的分类器进行输入?

1个回答

我不确定您如何将回归框架应用于文档分类。我解决问题的方法是应用标准的判别分类方法,例如 SVM。

在判别分类方法中,数据点(在这种情况下为文档)之间的相似性或反向距离的概念是关键。对于文档来说幸运的是,有一种定义成对相似度的标准方法。这是标准的余弦相似度度量,它利用文档长度归一化来考虑不同的文档长度。

因此,实际上,在余弦相似度中,您将使用由文档长度归一化的相对术语权重,因此文档长度多样性不应成为相似度计算中的主要问题。

在术语权重中应用 idf 时也必须小心。如果文档的数量不是很大,则 idf 度量可能在统计上不精确,因此会给术语权重添加噪声。忽略停用词和标点符号也是一种标准做法。